Merkwürdige GPT-4o-Antworten: Warum Tokenizer-Trainingsdaten für China voller Spam und Porno sind

Das jüngste Sprachmodell von OpenAI bringt zahlreiche Verbesserungen. Chinesische Nutzer haben aber ein Problem: Der sogenannte Tokenizer, der die Texteingaben verarbeitet, wurde mit problematischen Daten trainiert. Das hat Folgen.

Dieser Artikel wurde indexiert von t3n.de – Software & Entwicklung

Lesen Sie den originalen Artikel: