Im Jahr 2024 nannten wir Agenten Chatbots mit Tools. Im Jahr 2025 lernten wir, dass es ein Rezept für eine Katastrophe ist, ein LLM frei APIs aufrufen zu lassen. Jetzt, im Jahr 2026, haben wir endlich Patterns, die in der Produktion funktionieren — nicht weil KI zuverlässiger geworden ist, sondern weil wir gelernt haben, Systeme um sie herum zu bauen.
Was sich 2026 verändert hat¶
Vor zwei Jahren genügte es, ChatCompletion mit ein paar Tools aufzurufen und das Ergebnis zum „KI-Agenten” zu erklären. Das macht heute niemand mehr, der es ernst meint. Drei Konzepte definieren, wie agentische Systeme heute in der Produktion gebaut werden.
Bounded Autonomy — Autonomie mit Leitplanken¶
Volle KI-Autonomie hat sich als Sackgasse erwiesen — nicht weil Modelle nicht planen können (das können sie), sondern weil das Problem die Kontrollierbarkeit ist. Wenn ein Agent alles tun kann, können Sie nicht garantieren, dass er nichts Katastrophales tut. Deshalb hat sich Bounded Autonomy in der Produktion durchgesetzt: Ein Agent hat einen klar definierten Aktionsraum, den er ohne Genehmigung ausführen kann, und alles außerhalb dieses Raums erfordert menschliche Bestätigung.
In der Praxis kann ein Helpdesk-Agent Anfragen beantworten, Tickets erstellen und Probleme eskalieren, aber er kann keine Kundendaten ändern, Bestellungen stornieren oder Rückerstattungen über einem festgelegten Limit genehmigen. Diese Grenzen sind keine Schwäche — sie sind Sicherheitsfeatures.
Governance-Agenten¶
Die zweite große Veränderung: Agenten, die andere Agenten überwachen. In Multi-Agent-Systemen ist heute ein Governance Layer Standard — ein Agent (oder deterministische Logik), der die Outputs anderer Agenten vor der Ausführung validiert. Er prüft die Einhaltung von Richtlinien, RBAC-Regeln, regulatorischen Anforderungen und Geschäftslogik.
Das ist keine akademische Theorie. Die Finanzinstitute, mit denen wir arbeiten, können keinen Agenten einsetzen, der eine Transaktion ohne Validierung der Compliance-Regeln ausführen könnte. Der Governance-Agent fungiert als automatisierter Controller — schneller als ein Mensch, konsistent und auditierbar.
Hierarchischer Speicher¶
Das Kontextfenster ist immer noch endlich. Selbst mit Millionen-Token-Fenstern bei Modellen wie Gemini 2.0 ist der naive Ansatz „alles in den Kontext packen” teuer und unzuverlässig. Produktions-Agenten im Jahr 2026 arbeiten mit hierarchischem Speicher: Arbeitsspeicher (aktuelle Konversation), episodischer Speicher (vergangene Interaktionen), semantischer Speicher (Wissensbasis) und prozeduraler Speicher (erlernte Verfahren).
Das Konzept ist nicht neu — es ist eine Analogie zum menschlichen Gedächtnis. Neu ist, dass wir jetzt Tools haben, die es effizient implementieren. Eine Kombination aus Vektordatenbanken, Graphdatenbanken und strukturiertem Caching ermöglicht es Agenten, mit Kontext zu arbeiten, der weit über ein einzelnes Fenster hinausgeht.
Frameworks: Was wann einsetzen¶
Das Ökosystem hat sich im letzten Jahr deutlich herauskristallisiert. Statt Dutzender experimenteller Bibliotheken haben wir vier ausgereifte Frameworks, jedes mit einer klaren Spezialisierung.
LangGraph¶
Zustandsbehaftete Graphen mit Zyklen. Ideal für komplexe Workflows mit Verzweigungen, Retry-Logik und Human-in-the-Loop-Checkpoints. Heute De-facto-Standard für Produktions-Agenten.
CrewAI¶
Rollenbasierte Multi-Agent-Orchestrierung. Hervorragend für Szenarien, in denen Sie spezialisierte Agenten (Researcher, Writer, Reviewer) mit klar definierten Rollen wollen.
AutoGen¶
Konversationelle Multi-Agent-Patterns von Microsoft. Stark in Code-Generierung, Analyse und Szenarien, in denen Agenten Lösungen diskutieren und iterieren.
LlamaIndex¶
Knowledge-First-Ansatz. Die beste Wahl, wenn die Kernaufgabe des Agenten die Arbeit mit Daten ist — RAG, strukturierte Abfragen, Knowledge Graphs.
In der Praxis kombinieren wir Frameworks. Eine typische Architektur: LangGraph als Orchestrator des Haupt-Workflows, LlamaIndex für Knowledge Retrieval und ein eigener Governance Layer für die Aktionsvalidierung. Kein einzelnes Framework löst alles — und das ist in Ordnung.
Produktions-Patterns, die funktionieren¶
Theorie ist schön, aber was setzen wir tatsächlich ein? Drei Patterns, die wir in jedem zweiten Projekt sehen.
Human-in-the-Loop als First-Class Citizen¶
Dies ist kein „Failsafe für den Fall, dass der Agent versagt.” Human-in-the-Loop ist ein architektonisches Pattern. Der Agent schlägt eine Aktion vor, das System präsentiert sie einem Menschen zur Genehmigung, der Mensch bestätigt oder modifiziert sie, und der Agent fährt fort. Der entscheidende Punkt ist, dass diese Schleife von Anfang an entworfen wird — nicht am Ende angeheftet.
LangGraph hat native Unterstützung dafür über Interrupt Nodes und persistentes Checkpointing. Der Agent stoppt an einem definierten Punkt, der Zustand wird serialisiert, der Mensch erhält eine Benachrichtigung, trifft eine Entscheidung, und der Agent setzt vom Checkpoint fort. Alles asynchron — kein Warten im Speicher.
`# LangGraph — interrupt for action approval
@node
def propose_refund(state: AgentState):
amount = state["calculated_refund"]
if amount > 5000:
return Interrupt(
action="approve_refund",
payload={"amount": amount, "reason": state["reason"]}
)
return {"approved": True, "amount": amount}`
Tool-Nutzung mit Guardrails¶
Jeder Tool-Aufruf durchläuft eine Validierungsschicht — nicht weil das LLM eine API nicht korrekt aufrufen kann (das kann es meistens), sondern weil wir einen Audit Trail wollen, Rate Limiting, Input-Bereinigung und die Möglichkeit, einen Tool-Aufruf abzulehnen. In der Praxis bedeutet das, dass zwischen Agent und tatsächlicher API eine Middleware steht, die jeden Aufruf protokolliert, Parameter validiert und Berechtigungen prüft.
- Input-Validierung: SQL Injection, Path Traversal, übermäßige Abfragebereiche
- Rate Limiting: Der Agent kann nicht 1.000 API-Anfragen pro Minute senden
- Output-Filterung: Tool-Antworten werden vor der Rückgabe an den Agenten auf PII gefiltert
- Kostenkontrolle: Budget pro Sitzung, Alerting bei Überschreitung
Multi-Agent-Orchestrierung¶
Ein einzelner Agent, der alles tut, funktioniert nicht. Genau wie im Software Engineering — wir ersetzen Monolithen durch spezialisierte Services. In der agentischen Welt bedeutet das: Ein Router-Agent analysiert den Intent, delegiert an einen spezialisierten Agenten (Support, Billing, Technik), und ein Governance-Agent validiert den Output.
Ein wichtiges Detail: Agenten kommunizieren nicht frei. Die Kommunikation läuft über definierte Kanäle mit einem klaren Nachrichtenschema. Kein Agent kann einen anderen Agenten direkt steuern — er kann nur eine Anfrage senden, die der andere Agent nach seinen eigenen Regeln verarbeitet. Es ist eine Microservices-Architektur, angewandt auf KI.
Was CTOs vor dem Deployment wissen müssen¶
Wenn Sie den Einsatz eines agentischen Systems erwägen, hier sind Dinge, die die meisten Teams zu spät erkennen.
- Kosten sind nicht linear. Ein Agent, der 100 Anfragen pro Tag verarbeitet, kostet X. Ein Agent, der 10.000 verarbeitet, kostet nicht 100×X — er kostet mehr, weil komplexere Anfragen längere Reasoning-Ketten, mehr Tool-Aufrufe und mehr Retrieval-Operationen generieren.
- Evals sind wichtiger als das Modell. Der Unterschied zwischen GPT-4o und Claude 3.5 Sonnet ist in der Praxis kleiner als der Unterschied zwischen einer guten und einer schlechten Eval-Pipeline. Investieren Sie in Evaluierungen, nicht in die Jagd nach dem neuesten Modell.
- Der betriebliche Overhead ist real. Ein Agent in der Produktion braucht Monitoring, Alerting, On-Call-Rotation und einen Incident-Response-Prozess — genau wie jedes andere kritische System. Sie brauchen Leute, die sowohl ML als auch Ops verstehen.
- Regulierung wird strenger. Der EU AI Act kategorisiert Hochrisikosysteme. Wenn Ihr Agent Entscheidungen über Menschen trifft (HR, Finanzen, Gesundheitswesen), brauchen Sie ein Conformity Assessment, Dokumentation und menschliche Aufsicht.
- Klein anfangen. Setzen Sie einen Agenten für einen klaren Anwendungsfall mit messbarem Impact ein. Beweisen Sie den Wert, lernen Sie ihn zu betreiben, dann skalieren Sie. „KI-Transformation” beginnt mit einem Agenten, der funktioniert.
Wie wir es bei CORE SYSTEMS bauen¶
Bei CORE SYSTEMS bauen wir agentische Systeme für Enterprise-Kunden — Banken, Logistik, Retail. Wir sind kein KI-Startup, das Demos verkauft. Wir sind ein Systemunternehmen, das Lösungen in die Produktion liefert und diese dann betreibt.
Unser Ansatz ist pragmatisch: Wir beginnen mit einem Discovery Workshop, um den Anwendungsfall zu identifizieren, Erfolgsmetriken zu definieren und Datenquellen zu kartieren. Dann bauen wir ein MVP mit begrenztem Umfang — ein Agent, ein Workflow, ein messbares Ergebnis. Erst wenn das MVP seinen Wert bewiesen hat, erweitern wir.
Jedes System, das wir liefern, enthält einen Governance Layer, Audit Trail, Eval-Pipeline, Monitoring-Dashboard und Incident-Playbook. Nicht weil es trendy ist, sondern weil Sie ohne das einen Agenten nicht verantwortungsvoll betreiben können. Und Verantwortung ist das, was ein Produktionssystem von einem Prototyp unterscheidet.
Wir verwenden eine Kombination aus Open-Source-Frameworks (LangGraph, LlamaIndex) und eigenen Komponenten für Governance, Security und Integration mit Enterprise-Systemen. Wir sind nicht an einen einzelnen LLM-Anbieter gebunden — wir unterstützen OpenAI, Anthropic, Azure und On-Premise-Modelle, denn in regulierten Branchen ist die Wahl der Infrastruktur entscheidend.
Fazit: Agenten sind ein Software-Engineering-Problem¶
Die größte Lektion der letzten zwei Jahre? Agentic AI ist nicht primär ein ML-Problem — es ist ein Software-Engineering-Problem. Die Modelle sind leistungsfähig genug. Was über den Erfolg entscheidet, ist die Architektur um sie herum: wie Sie den Datenfluss steuern, wie Sie Grenzen definieren, wie Sie Qualität messen und wie Sie auf Ausfälle reagieren.
Unternehmen, die Agenten als Softwaresystem behandeln — mit Tests, CI/CD, Monitoring und einem Incident-Prozess — werden erfolgreich sein. Diejenigen, die sie als Prompt-Engineering-Projekt bauen, werden für immer nur Prototypen erstellen.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns