MLOps-Pipeline — Vom Experiment zur Produktion

87% der Machine-Learning-Modelle schaffen es nie in die Produktion. Das Problem liegt nicht in den Algorithmen — es liegt in den Operations. MLOps ist eine Disziplin, die DevOps-Prinzipien in die ML-Welt bringt: Versionierung, Automatisierung, Monitoring, Reproduzierbarkeit. Hier ist unser Ansatz zur MLOps-Pipeline im Jahr 2020.

Warum ein Jupyter Notebook nicht reicht¶

Ein Data Scientist erstellt ein Modell im Jupyter Notebook. Es funktioniert großartig auf seinem Laptop, mit seinem Datensatz, mit seiner Version der Bibliotheken. Und dann kommt die Frage: „Wie deployen wir das in die Produktion?”

Hier beginnt das Problem. Ein Notebook ist kein Deployment-Artefakt. Es hat keine Tests, kein Dependency Management, keine Datenversionierung, kein Monitoring. Der Übergang vom Experiment zur Produktion ist ein manueller, schmerzhafter und nicht reproduzierbarer Prozess, der typischerweise 3–6 Monate dauert.

MLOps-Pipeline — fünf Schichten¶

Basierend auf Erfahrungen aus Projekten im Jahr 2020 haben wir eine fünfschichtige MLOps-Pipeline definiert:

1. Datenmanagement¶

Alles beginnt mit Daten. Und Daten ändern sich — neue Datensätze, behobene Fehler, geändertes Schema. Ohne Datenversionierung können Sie Experimente nicht reproduzieren.

DVC (Data Version Control): Git für Daten. Versioniert große Dateien und Datensätze mittels Metadaten in Git und Speicher in S3/Azure Blob
Feature Store: Zentrales Repository von Feature-Definitionen — Feast (Open Source) oder Managed-Lösungen in Azure ML. Konsistente Features für Training und Serving
Datenvalidierung: Automatische Datenqualitätsprüfungen vor dem Training — Great Expectations für Schema-Validierung, Verteilungsprüfungen, fehlende Werte

2. Experiment Tracking¶

Jedes Experiment muss aufgezeichnet werden — Hyperparameter, Metriken, Artefakte, Code- und Datenversionen. MLflow Tracking ist der De-facto-Standard im Jahr 2020:

import mlflow

with mlflow.start_run():

mlflow.log_param(“learning_rate”, 0.01)

mlflow.log_param(“n_estimators”, 200)

model = train_model(X_train, y_train)

mlflow.log_metric(“auc”, evaluate(model, X_test))

mlflow.sklearn.log_model(model, “model”)

Jeder Run ist nachverfolgbar, vergleichbar und reproduzierbar. Schluss mit „das gute Modell habe ich letzten Donnerstag trainiert, aber ich weiß nicht mit welchen Parametern”.

3. Model Registry und CI/CD¶

MLflow Model Registry bietet einen zentralen Katalog von Modellen mit Lifecycle Management — Staging, Production, Archived. Die Model-Promotion von Entwicklung zu Produktion durchläuft eine automatisierte Pipeline:

Data Scientist registriert Modell in der Registry als „Staging”
CI-Pipeline führt automatisierte Tests aus — Unit-Tests der Vorhersagefunktion, Integrationstests des API-Endpunkts, Performance-Tests der Latenz
Automatische Metrik-Validierung — neues Modell muss besser sein als das aktuelle Produktionsmodell (A/B-Test auf Holdout-Datensatz)
Code Review und Approval vom ML-Engineering-Team
Automatisches Deployment in Produktion — Canary Deployment mit schrittweisem Traffic-Anstieg

4. Model Serving¶

Wie deployt man das Modell? Im Jahr 2020 sehen wir drei Hauptmuster:

REST API: Modell verpackt in Flask/FastAPI-Container hinter Load Balancer. Einfach, universell, aber Latenz hängt vom Netzwerk-Roundtrip ab
Batch Inference: Spark-Job, der periodisch den gesamten Datensatz scored. Geeignet für Empfehlungssysteme, Scoring, Segmentierung
Edge Deployment: Modell in ONNX konvertiert und direkt in der Anwendung oder auf Edge-Geräten deployed. Minimale Latenz, keine Netzwerkabhängigkeit

Für einen E-Commerce-Kunden deployten wir ein Empfehlungsmodell als Azure ML Real-Time Endpoint — Managed Kubernetes- Cluster, Autoscaling basierend auf Request Queue Depth, A/B-Testing zwischen Modellversionen. Durchschnittliche Inferenz-Latenz: 23ms.

5. Monitoring und Retraining¶

Modelle in der Produktion degradieren. Data Drift — die Verteilung der Eingabedaten ändert sich. Concept Drift — die Beziehung zwischen Ein- und Ausgaben verschiebt sich.

mlopsmachine learningmlflowkubeflow

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns