Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

LLM-Evaluierung — Wie man die Qualität textgenerierender KI misst

05. 11. 2023 1 Min. Lesezeit CORE SYSTEMSai
LLM-Evaluierung — Wie man die Qualität textgenerierender KI misst

„Funktioniert es gut?” Die schwierigste Frage in der LLM-Welt. Anders als bei traditioneller Software ist die Bewertung von LLM-Ausgaben subjektiv. Aber ohne Metriken fliegt man blind.

Automatisierte Metriken

BLEU, ROUGE: Zu starr für LLMs. BERTScore: Semantische Ähnlichkeit, besser. LLM-as-Judge: GPT-4 bewertet Ausgaben anhand einer Rubrik. Überraschend effektiv.

RAG-spezifische Metriken

  • Context Relevancy: Sind die abgerufenen Dokumente relevant?
  • Faithfulness: Ist die Antwort im Kontext verankert?
  • Answer Relevancy: Beantwortet die Antwort die Frage?

Evaluierungsdatensatz

Ein Golden Dataset mit (Frage, Antwort, Kontext)-Paaren ist das wertvollste Artefakt eines KI-Projekts. Investieren Sie in dessen Erstellung und Pflege.

Ohne Metriken keine Verbesserung

Beginnen Sie mit LLM-as-Judge und RAGAS. Messen Sie vor und nach jeder Änderung. Intuition reicht nicht — Zahlen schon.

llm evaluaceai testingmetrikyquality
Teilen:

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns