Ein Jahr nach ChatGPT fragen unsere Kunden: „Wie bekommen wir das in unsere Systeme?” Nicht als Chatbot auf der Website — das kann jeder. Sondern als integraler Bestandteil von Geschäftsprozessen: automatisierte Vertragsanalyse, intelligente interne Wissensdatenbanksuche, Berichtsgenerierung. Nach sechs Monaten LLM-Projekten teilen wir, was funktioniert und was nicht.
RAG — Retrieval Augmented Generation¶
Fine-Tuning ist teuer und für die meisten Enterprise-Anwendungsfälle unnötig. RAG ist pragmatischer: Der Benutzer stellt eine Frage → das System findet relevante Dokumente aus der internen Datenbank → sendet sie als Kontext an das LLM → das LLM generiert eine Antwort mit Quellenangaben.
Unser RAG-Stack: Azure OpenAI (GPT-4) für die Generierung, Azure AI Search für die Vektorsuche, LangChain für die Orchestrierung. Dokumente gechunkt, eingebettet, indexiert. Es funktioniert überraschend gut für Wissensdatenbanken und FAQ-Systeme.
Prompt Engineering — Mehr Wissenschaft als Kunst¶
System Prompts mit klaren Anweisungen, Few-Shot-Beispiele, Chain-of-Thought für komplexes Reasoning. Guardrails: „Antworte NUR basierend auf dem bereitgestellten Kontext. Wenn du die Information nicht hast, sage es.” Ohne Guardrails halluzinieren LLMs fröhlich — und im Unternehmen ist das inakzeptabel.
Anwendungsfall: Vertragsanalyse¶
Eine Rechtsabteilung eines Versicherungsunternehmens bearbeitet monatlich Hunderte von Verträgen. Das LLM extrahiert Schlüsselklauseln, identifiziert Risiken und vergleicht mit einer Standardvorlage. Ergebnis: 60 % Zeitersparnis beim Review. Der Anwalt trifft weiterhin die Entscheidungen — das LLM ist ein Assistent, kein Ersatz.
Anwendungsfall: Interner Helpdesk¶
RAG über interne Dokumentation (Confluence, SharePoint). Ein Mitarbeiter fragt „Wie beantrage ich Urlaub” oder „Wie läuft der Rechnungsfreigabeprozess” und erhält eine Antwort mit Link zum Quelldokument. 40 % weniger Tickets beim IT-Helpdesk.
Sicherheit und Governance¶
Datenleck: Unternehmensdaten dürfen nicht an die öffentliche OpenAI-API gehen. Azure OpenAI mit Private Endpoint — Daten bleiben im Azure-Tenant.
PII-Filterung: Vor dem Senden an das LLM maskieren wir personenbezogene Daten (Namen, Personalausweisnummern, Adressen). Nach der Verarbeitung de-maskieren wir.
Audit Trail: Wir protokollieren jeden Prompt und jede Antwort. Wer gefragt hat, was gefragt wurde, welche Antwort erhalten wurde. Eine Notwendigkeit für regulierte Branchen.
Content-Filter: Azure OpenAI hat eingebautes Content Filtering. Plus eigene Validierung — Antworten dürfen keine Wettbewerbsinformationen, Finanzberatung oder rechtliche Schlussfolgerungen ohne Disclaimer enthalten.
Kosten und Skalierung¶
GPT-4 Turbo: ~12 € pro Million Input-Tokens. Für 1.000 Abfragen pro Tag (durchschnittlich 2.000 Tokens/Abfrage) sind das ungefähr 0,80 €/Tag. Günstig. Aber Embeddings, Vektordatenbank, Infrastruktur — die Gesamtbetriebskosten sind höher. Rechnen Sie mit 800–2.000 €/Monat für ein produktives RAG-System.
Was (noch) nicht funktioniert¶
Genauigkeit für kritische Entscheidungen: LLMs halluzinieren. Für Systeme, bei denen ein Fehler = finanzieller Verlust ist, brauchen Sie Human-in-the-Loop. Strukturiertes Output: JSON-Extraktion aus unstrukturiertem Text ist nach wie vor unzuverlässig (Function Calling hilft, aber nicht zu 100 %).
LLM ist Infrastruktur, kein Produkt¶
Tun Sie es nicht als Hype ab, aber glauben Sie nicht, dass ein ChatGPT-Wrapper eine Enterprise-Lösung ist. RAG, Guardrails, Monitoring, Sicherheit — das macht aus einer LLM-Demo ein Produktivsystem. Und dieser Unterschied macht 80 % der Arbeit aus.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns