Transformer-Modelle haben NLP revolutioniert. Aber wie funktionieren sie bei Tschechisch — einer Sprache mit sieben grammatischen Fällen und reicher Flexion?
Tschechischer BERT — Czert¶
Englischer BERT kann die tschechische Morphologie nicht bewältigen. Czert von ÚFAL MFF UK ist auf Tschechisch trainiert, während XLM-RoBERTa ein guter Kompromiss ist.
Klassifikation von Versicherungs-E-Mails¶
15.000 gelabelte E-Mails, feinabgestimmter Czert, 8 Kategorien. Ergebnis: 94 % Genauigkeit. Vorhersagen mit niedriger Konfidenz gehen zur manuellen Überprüfung.
GPT-2 für Generierung¶
Feinabgestimmt auf Kundensupport-Antworten. Flüssiger Text, aber Halluzinationen. Als Assistent für Operatoren (Antwortvorschlag zur Bearbeitung) ergibt es Sinn. GPT-3 verspricht dramatische Verbesserungen — aber nur über API.
NLP für Tschechisch ist real¶
Für Klassifikation sind die Ergebnisse hervorragend. Für Generierung warten wir auf bessere Modelle.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns