KI-Agent in Produktion: 10 Checkpunkte¶

Agentic AI ist mehr als ein Chatbot. Sobald ein Agent „Schritte ausführen” kann, wird er Teil des Betriebs. Und der Betrieb hat Regeln: Sicherheit, Audit, Messbarkeit und kontrollierte Änderungen. Dies sind 10 Checkpunkte, die wir vor dem „Go-Live” abgehakt haben wollen.

1 Hat der Agent ein klar definiertes Ziel?¶

„Nutzern helfen” ist kein Ziel. Ein Ziel muss messbar sein — sonst können Sie nicht feststellen, ob der Agent funktioniert oder nur Antworten generiert. Ein gutes Ziel klingt so: „70 % der L1-Tickets ohne Eskalation innerhalb von 3 Minuten lösen.” Ein schlechtes Ziel klingt so: „Nützlich sein.”

Definieren Sie die Erfolgsmetrik, bevor Sie den ersten Prompt schreiben. Ein Agent ohne Ziel ist ein Chatbot mit zusätzlichen Kosten.

Das Ziel muss spezifisch, messbar und zeitlich begrenzt sein
Jeder Agent = ein klarer Scope (nicht „macht alles”)
Das Ziel definiert, wie Sie den Agenten in Produktion bewerten

2 Weiß der Agent, was er nicht tun darf?¶

Grenzen sind wichtiger als Fähigkeiten. Ein Agent, der alles kann, aber keine klaren Limits hat, ist ein Sicherheitsrisiko. Definieren Sie explizit: welche Daten er nicht lesen darf, wohin er nicht schreiben darf, welche Aktionen eine menschliche Genehmigung erfordern.

Human-in-the-Loop ist keine Schwäche — es ist eine Designentscheidung. Bei kritischen Aktionen (Zahlungen, Löschungen, Eskalationen) muss der Agent auf Bestätigung warten.

Explizite Liste verbotener Aktionen (nicht nur „sei vorsichtig”)
Definierte Schwellenwerte für Human-in-the-Loop
Klare Grenzen für den Datenzugriff — was der Agent sieht und was nicht

3 Ist der Datenzugriff geregelt (RBAC/ABAC)?¶

Ein Agent ist ein Benutzer. Und wie jeder Benutzer braucht er Rollen, Berechtigungen und Einschränkungen. Wenn der Agent auf CRM, ERP oder interne Datenbanken zugreift, muss er zugewiesene Rollen haben, genau wie ein menschlicher Benutzer.

RBAC (Role-Based Access Control) ist das Minimum. Für komplexere Szenarien — etwa ein Agent, der mehrere Abteilungen bedient — erwägen Sie ABAC (Attribute-Based Access Control), bei dem der Abfragekontext eine Rolle spielt.

Agent = Service Account mit minimalen Berechtigungen (Principle of Least Privilege)
Der Datenzugriff richtet sich nach der Rolle des Agenten, nicht nach der Rolle des Benutzers, der ihn gestartet hat
Audit-Log: wer (Agent), was (Aktion), wo (System), wann (Zeitstempel)

4 Haben Sie einen Audit Trail?¶

Jede Interaktion mit dem Agenten muss nachvollziehbar sein. Wer hat gefragt, welche Quellen der Agent genutzt hat, wie er entschieden hat, welche Aktion er durchgeführt hat. Ohne Audit Trail ist der Agent eine Blackbox — und Blackboxen will niemand in Produktion haben.

Ein Audit Trail ist nicht nur eine Compliance-Anforderung. Er ist ein Debugging-Werkzeug. Wenn der Agent einen Fehler macht, müssen Sie die gesamte Reasoning Chain sehen können.

Loggen Sie: Input, Kontext, Retrieval-Ergebnisse, Reasoning, Output, Aktion
Unveränderliche Logs — der Agent darf seine eigenen Logs nicht löschen oder überschreiben
Aufbewahrungsrichtlinie: wie lange Sie Logs aufbewahren, wo sie gespeichert sind

5 Ist die Knowledge Layer (RAG) als System konzipiert?¶

RAG ist nicht „eine Vektordatenbank anschließen und fertig.” Die Knowledge Layer ist ein System mit eigenem Lebenszyklus: Dokumentenversionierung, Metadaten, Retrieval-Tests, Qualitätsmonitoring.

Wenn der Agent auf Basis von Unternehmensdokumenten antwortet, müssen Sie wissen, aus welchen Versionen er schöpft. Ein veraltetes Dokument = eine veraltete Antwort = eine schlechte Entscheidung.

Versionierung der Quelldokumente — der Agent weiß, welche Version er liest
Metadaten: Autor, Datum, Gültigkeit, Klassifizierung, Abteilung
Retrieval-Tests: „Für diese Abfrage muss er diese Dokumente zurückgeben”
Monitoring: Top-Abfragen, fehlgeschlagene Retrievals, Abdeckung

6 Können Sie das Verhalten des Agenten messen?¶

Was Sie nicht messen, steuern Sie nicht. Ein Agent in Produktion braucht ein Dashboard mit vier Arten von Metriken: Antwortgenauigkeit, Latenz, Kosten und Eskalationen.

Genauigkeit messen Sie mit Evals (siehe Punkt 7). Latenz messen Sie End-to-End — von der Abfrage bis zur Antwort. Kosten verfolgen Sie pro Request (Tokens, API-Aufrufe, Compute). Eskalationen zeigen, wo der Agent an seine Grenzen stößt.

Genauigkeit: % korrekte Antworten (manuell verifizierte Stichprobe)
Latenz: P50, P95, P99 — nicht Durchschnittswerte
Kosten: Preis pro Request, monatliche Betriebskosten
Eskalationen: % der Abfragen, bei denen der Agent „Ich weiß nicht” sagte oder an einen Menschen übergab

7 Haben Sie Evals und Regressionstests?¶

Ein Golden Dataset ist die Grundlage. Eine Sammlung von Fragen und erwarteten Antworten, die Sie nach jeder Änderung ausführen — Modell, Prompt, Knowledge Base. Wenn der Eval unter den Schwellenwert fällt, wird das Deployment gestoppt.

Sicherheitstests sind ebenso wichtig: Prompt Injection, Jailbreak-Versuche, Out-of-Scope-Abfragen. Der Agent muss auf alle sicher reagieren — keine Halluzinationen, keine Datenlecks.

Golden Dataset: 50–200 Frage-Antwort-Paare für Schlüsselszenarien
Sicherheitstests: Prompt Injection, PII-Leakage, Off-Topic-Handling
Regressionstests: automatisiert bei jedem Release
Robustheit: Abfragevariationen, Tippfehler, mehrsprachige Eingaben

8 Sind Guardrails und Fallbacks Teil des Designs?¶

Der Agent muss „Ich weiß nicht” sagen können. Das ist kein Bug — das ist ein Feature. Schlimmer als keine Antwort ist eine selbstbewusst falsche Antwort. Guardrails definieren, wann der Agent antwortet, wann er eskaliert und wann er ablehnt.

Fallback-Strategie: Konfidenz unter Schwellenwert → an Menschen übergeben. Unbekannter Intent → Ticket erstellen. Kritische Aktion → Genehmigung anfordern. Jeder Edge Case muss einen definierten Pfad haben.

Konfidenz-Schwellenwert: unter X % antwortet der Agent nicht, er eskaliert
Fallback-Kette: Agent → Senior Agent → Mensch → Ticket
Verbotene Ausgaben: PII, Finanzberatung, Rechtsberatung (sofern nicht im Scope)
Graceful Degradation: auch bei Ausfall der LLM-API stürzt der Agent nicht ab

9 Ist der Release-Prozess für KI genauso streng wie für Software?¶

Eine Prompt-Änderung ist ein Release. Ein Knowledge-Base-Update ist ein Release. Ein Modell-Upgrade ist ein Release. Und jeder Release braucht: Versionierung, Code Review, Staging-Umgebung, Canary Deploy, Rollback-Plan.

In der Praxis bedeutet das: der Prompt ist in Git, nicht in einer UI-Konsole. Die Knowledge Base hat eine Deployment-Pipeline. Eine neue Modellversion läuft zuerst auf 5 % des Traffics, nicht auf 100 %.

Prompts und Konfiguration in der Versionskontrolle (Git)
Review-Prozess: Peer Review für Prompt-Änderungen
Staging: Testumgebung mit Produktionsdaten (anonymisiert)
Canary Deploy: neue Version auf einem kleinen % des Traffics, Monitoring, dann Rollout
Rollback: Ein-Klick-Rückkehr zur vorherigen Version

10 Haben Sie einen Incident-Prozess für KI?¶

Ein KI-Agent wird einen Fehler machen. Nicht ob, sondern wann. Haben Sie einen Prozess bereit? Wer erkennt das Problem? Wie schnell können Sie den Agenten abschalten? Wie finden Sie die Ursache?

Ein Kill Switch ist Pflicht — sofortiges Abschalten des Agenten ohne Rollback der gesamten Infrastruktur. Incident Response muss umfassen: Erkennung (Alerting), Mitigation (Kill Switch / Fallback), Analyse (Root Cause) und Behebung (Regressionstest + Fix + Deploy).

Kill Switch: Agent innerhalb von Sekunden abschalten, nicht Minuten
Alerting: automatische Benachrichtigungen bei Anomalien (Eskalations-Spikes, niedrige Genauigkeit)
Root-Cause-Analyse: Audit Trail + Reasoning Chain + Quellen
Post-Mortem: was passiert ist, warum, wie wir es beheben, Regressionstest
Kommunikation: wer informiert die Stakeholder, wie sieht die Eskalationskette aus

Fazit¶

Ein Produktions-Agent ist eine Betriebskomponente. Für ihn gelten die gleichen Regeln wie für jedes andere System in Produktion: er muss messbar, auditierbar, versioniert sein und einen Incident-Prozess haben. Diese 10 Checkpunkte sind kein „Nice to have” — sie sind das Minimum für verantwortungsvolles KI-Deployment.

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns

KI-Agent in Produktion: 10 Checkpunkte