Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

MLOps-Pipeline — Vom Experiment zur Produktion

28. 07. 2020 3 Min. Lesezeit CORE SYSTEMSdevops
MLOps-Pipeline — Vom Experiment zur Produktion

87% der Machine-Learning-Modelle schaffen es nie in die Produktion. Das Problem liegt nicht in den Algorithmen — es liegt in den Operations. MLOps ist eine Disziplin, die DevOps-Prinzipien in die ML-Welt bringt: Versionierung, Automatisierung, Monitoring, Reproduzierbarkeit. Hier ist unser Ansatz zur MLOps-Pipeline im Jahr 2020.

Warum ein Jupyter Notebook nicht reicht

Ein Data Scientist erstellt ein Modell im Jupyter Notebook. Es funktioniert großartig auf seinem Laptop, mit seinem Datensatz, mit seiner Version der Bibliotheken. Und dann kommt die Frage: „Wie deployen wir das in die Produktion?”

Hier beginnt das Problem. Ein Notebook ist kein Deployment-Artefakt. Es hat keine Tests, kein Dependency Management, keine Datenversionierung, kein Monitoring. Der Übergang vom Experiment zur Produktion ist ein manueller, schmerzhafter und nicht reproduzierbarer Prozess, der typischerweise 3–6 Monate dauert.

MLOps-Pipeline — fünf Schichten

Basierend auf Erfahrungen aus Projekten im Jahr 2020 haben wir eine fünfschichtige MLOps-Pipeline definiert:

1. Datenmanagement

Alles beginnt mit Daten. Und Daten ändern sich — neue Datensätze, behobene Fehler, geändertes Schema. Ohne Datenversionierung können Sie Experimente nicht reproduzieren.

  • DVC (Data Version Control): Git für Daten. Versioniert große Dateien und Datensätze mittels Metadaten in Git und Speicher in S3/Azure Blob
  • Feature Store: Zentrales Repository von Feature-Definitionen — Feast (Open Source) oder Managed-Lösungen in Azure ML. Konsistente Features für Training und Serving
  • Datenvalidierung: Automatische Datenqualitätsprüfungen vor dem Training — Great Expectations für Schema-Validierung, Verteilungsprüfungen, fehlende Werte

2. Experiment Tracking

Jedes Experiment muss aufgezeichnet werden — Hyperparameter, Metriken, Artefakte, Code- und Datenversionen. MLflow Tracking ist der De-facto-Standard im Jahr 2020:

import mlflow

with mlflow.start_run():

mlflow.log_param(“learning_rate”, 0.01)

mlflow.log_param(“n_estimators”, 200)

model = train_model(X_train, y_train)

mlflow.log_metric(“auc”, evaluate(model, X_test))

mlflow.sklearn.log_model(model, “model”)

Jeder Run ist nachverfolgbar, vergleichbar und reproduzierbar. Schluss mit „das gute Modell habe ich letzten Donnerstag trainiert, aber ich weiß nicht mit welchen Parametern”.

3. Model Registry und CI/CD

MLflow Model Registry bietet einen zentralen Katalog von Modellen mit Lifecycle Management — Staging, Production, Archived. Die Model-Promotion von Entwicklung zu Produktion durchläuft eine automatisierte Pipeline:

  1. Data Scientist registriert Modell in der Registry als „Staging”
  2. CI-Pipeline führt automatisierte Tests aus — Unit-Tests der Vorhersagefunktion, Integrationstests des API-Endpunkts, Performance-Tests der Latenz
  3. Automatische Metrik-Validierung — neues Modell muss besser sein als das aktuelle Produktionsmodell (A/B-Test auf Holdout-Datensatz)
  4. Code Review und Approval vom ML-Engineering-Team
  5. Automatisches Deployment in Produktion — Canary Deployment mit schrittweisem Traffic-Anstieg

4. Model Serving

Wie deployt man das Modell? Im Jahr 2020 sehen wir drei Hauptmuster:

  • REST API: Modell verpackt in Flask/FastAPI-Container hinter Load Balancer. Einfach, universell, aber Latenz hängt vom Netzwerk-Roundtrip ab
  • Batch Inference: Spark-Job, der periodisch den gesamten Datensatz scored. Geeignet für Empfehlungssysteme, Scoring, Segmentierung
  • Edge Deployment: Modell in ONNX konvertiert und direkt in der Anwendung oder auf Edge-Geräten deployed. Minimale Latenz, keine Netzwerkabhängigkeit

Für einen E-Commerce-Kunden deployten wir ein Empfehlungsmodell als Azure ML Real-Time Endpoint — Managed Kubernetes- Cluster, Autoscaling basierend auf Request Queue Depth, A/B-Testing zwischen Modellversionen. Durchschnittliche Inferenz-Latenz: 23ms.

5. Monitoring und Retraining

Modelle in der Produktion degradieren. Data Drift — die Verteilung der Eingabedaten ändert sich. Concept Drift — die Beziehung zwischen Ein- und Ausgaben verschiebt sich.

mlopsmachine learningmlflowkubeflow
Teilen:

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns