Service-Zuverlässigkeit ist nicht mehr die Domäne von Ops-Teams im On-Call-Dienst. Im Jahr 2026 ist SLO Engineering eine systematische Disziplin, die Geschäftsanforderungen mit technischen Metriken verbindet — und entscheidet, wann ein Team neue Features entwickelt und wann es technische Schulden behebt. Dieser Artikel ist ein praktischer Leitfaden: von grundlegenden SLI/SLO/SLA-Konzepten über Error Budgets und Burn Rate Alerting bis hin zu Tools wie OpenSLO, Sloth und Nobl9 und deren Integration in Platform-Engineering-Workflows.
Warum SRE relevanter ist als je zuvor¶
Site Reliability Engineering (SRE) als Disziplin entstand bei Google um 2003. Zwanzig Jahre später könnte man erwarten, dass es ein gelöstes Problem ist. Ist es nicht. Die Gründe: Verteilte Systeme sind komplexer (Microservices, Multi-Cloud, Edge Computing), KI-Workloads bringen nicht-deterministisches Verhalten (Inferenz-Latenz hängt von Modellgröße, Batch-Größe und GPU-Auslastung ab), und Nutzererwartungen steigen — 100ms Latenz, die 2020 akzeptabel war, ist heute ein Grund für Abwanderung.
Ein fundamentaler Wandel 2026: SRE ist nicht mehr die Rolle eines einzelnen „Site Reliability Engineers” im Team. Es ist ein Satz von Prinzipien und Praktiken, die sich in Platform Engineering integrieren. Internal Developer Platforms (IDP) enthalten jetzt SLO-Dashboards, Error-Budget-Tracking und Burn-Rate-Alerts als erstklassige Features.
SLI, SLO und SLA — Drei Säulen der Zuverlässigkeit¶
SLI — Service Level Indicator¶
Ein SLI ist eine quantitative Messung des Service-Verhaltens aus der Perspektive des Nutzers. Typische SLIs umfassen:
- Availability — Verhältnis erfolgreicher Requests zu Gesamt-Requests (z.B. 99,95 %)
- Latenz — Perzentil-Verteilung der Antwortzeit (p50, p95, p99). Verwenden Sie nie den Durchschnitt — er verbirgt Tail-Latency-Probleme.
- Throughput — Anzahl erfolgreich verarbeiteter Requests pro Zeiteinheit
- Error Rate — Verhältnis von Fehlerantworten (5xx) zum Gesamtverkehr
- Correctness — Verhältnis korrekter Ergebnisse (kritisch für KI-Inferenz, Finanzberechnungen, Data Pipelines)
- Freshness — Alter der Daten in einer Data Pipeline oder Cache (entscheidend für Echtzeitsysteme)
SLO — Service Level Objective¶
Ein SLO ist ein Zielwert für ein SLI, auf den sich das Team einigt. Beispiele:
- Availability SLO: 99,9 % erfolgreiche Requests über ein 30-Tage-Rolling-Window
- Latency SLO: 95 % der Requests unter 200ms (p95 <= 200ms) über ein 30-Tage-Rolling-Window
Die Schlüsselfrage: Warum nicht 100 %? Weil 100 % Zuverlässigkeit physisch unmöglich und wirtschaftlich absurd ist. Ein SLO ist ein Kompromiss zwischen Zuverlässigkeit und Innovationsgeschwindigkeit.
SLA — Service Level Agreement¶
Ein SLA ist ein rechtlicher Vertrag zwischen Anbieter und Kunde, der das Mindestserviceniveau und finanzielle Konsequenzen bei Verletzung definiert. Ein SLA sollte immer weniger streng als das interne SLO sein.
99,9 % = 43 Min. Downtime / Monat 99,95 % = 22 Min. Downtime / Monat 99,99 % = 4,3 Min. Downtime / Monat 99,999 % = 26 Sek. Downtime / Monat
Error Budgets — Ein Budget für Fehler¶
Das Error Budget ist ein Konzept, das ein SLO in ein umsetzbares Entscheidungsinstrument verwandelt. Wenn Ihr SLO 99,9 % Availability über 30 Tage ist, dann ist Ihr Error Budget 0,1 % — also 43,2 Minuten Downtime, die Sie sich pro Monat „leisten können”.
Error Budget Policies¶
- >50 % verbleibend — Normalbetrieb, Deployments ohne Einschränkungen
- 30–50 % verbleibend — Erhöhte Aufmerksamkeit, obligatorisches Canary Deployment
- 10–30 % verbleibend — Nicht-kritische Deployments eingefroren, Team priorisiert Zuverlässigkeitsarbeit
- <10 % verbleibend — Kompletter Deployment-Stopp (nur Hotfixes), Emergency Reliability Sprint
- 0 % (erschöpft) — Postmortem-Review, Root-Cause-Analyse aller Vorfälle
Burn Rate Alerting — Das Ende der Alert Fatigue¶
Traditionelles Alerting basierend auf statischen Schwellenwerten ist 2026 ein Anti-Pattern. Die Lösung ist Burn Rate Alerting. Burn Rate gibt an, wie schnell Ihr Service sein Error Budget verbraucht.
- Page (sofortige Aktion) — Burn Rate 14,4x: Kurzes Fenster: 1 Stunde. Budget-Erschöpfung in ca. 2 Tagen.
- Page (dringend) — Burn Rate 6x: Kurzes Fenster: 6 Stunden. Erschöpfung in ca. 5 Tagen.
- Ticket (nicht-dringend) — Burn Rate 3x: Kurzes Fenster: 1 Tag. Erschöpfung in ca. 10 Tagen.
- Ticket (niedrige Priorität) — Burn Rate 1x: Kurzes Fenster: 3 Tage. Informations-Alert.
Tools für SLO Engineering 2026¶
- OpenSLO — Open-Source-Spezifikation zur Definition von SLOs als Code. Vendor-agnostisches YAML-Format.
- Sloth — Generator von Prometheus Recording Rules und Alerts aus SLO-Definitionen. Zero-Code SLO-Setup.
- Nobl9 — Enterprise-SLO-Plattform. Multi-Source SLI-Ingestion, Error-Budget-Tracking, Reporting.
- Google Cloud SLO Monitoring — Natives SLO-Monitoring in Google Cloud.
OpenSLO — SLO als Code¶
apiVersion: openslo/v1
kind: SLO
metadata:
name: checkout-availability
displayName: Checkout API Availability
spec:
service: checkout-api
description: Availability SLO for checkout endpoint
budgetingMethod: Occurrences
objectives:
- displayName: 99.95% availability
target: 0.9995
ratioMetrics:
good:
source: prometheus
queryType: promql
query: sum(rate(http_requests_total{service="checkout",code=~"2.."}[5m]))
total:
source: prometheus
queryType: promql
query: sum(rate(http_requests_total{service="checkout"}[5m]))
timeWindow:
- duration: 30d
isRolling: true
SLO Engineering × Platform Engineering¶
In reifen Organisationen 2026 ist SLO Engineering integraler Bestandteil der Internal Developer Platform:
- Service-Katalog enthält SLOs — jeder Service hat zugewiesene SLOs und aktuellen Error-Budget-Status
- Golden Paths umfassen SLO-Setup — neue Services erhalten automatisch Standard-SLO-Definitionen
- CI/CD-Pipeline respektiert Error Budget — bei unter 10 % werden Deployments automatisch blockiert
- SLO-Review ist Teil des Sprint-Retros — Platform-Team generiert wöchentliche SLO-Reports
Fazit: SLO als Sprache zwischen Business und Engineering¶
SRE und SLO Engineering 2026 sind nicht über Monitoring-Dashboards oder Alerting-Regeln. Sie sind über eine gemeinsame Sprache zwischen Business und Engineering. Beginnen Sie mit einem kleinen Schritt: Wählen Sie einen kritischen Service, definieren Sie 2 SLIs (Availability + Latenz), richten Sie SLO und Burn-Rate-Alerts mit Sloth ein. In einer Woche haben Sie ein Error-Budget-Dashboard. In einem Monat treffen Sie Entscheidungen auf Basis von Daten statt Gefühlen.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns