DevOps Fortgeschritten
SLO, SLI und Error Budgets — Deep Dive¶
SLOSLIError BudgetSRE 6 min Lesezeit
Ein praktischer Leitfaden zur Implementierung von SLOs und SLIs. Metrikauswahl, Error-Budget-Berechnung, Alerting und Burn Rate.
SLI — Was messen¶
- Availability — % erfolgreicher Requests
- Latency — % der Requests unter dem Schwellenwert (p99 < 300ms)
- Throughput — erfolgreich verarbeitete Operationen/s
- Correctness — % korrekter Ergebnisse
- Freshness — Datenalter unter dem Schwellenwert
SLO-Definition¶
# SLO für API Gateway
SLO: 99.9% Availability (monatliches Rolling Window)
SLI: sum(http_requests{status!~"5.."})/sum(http_requests)
Error Budget: 0.1% = 43,2 Minuten/Monat
# Prometheus Recording Rule
- record: sli:api_availability:ratio_rate30d
expr: |
sum(increase(http_requests_total{status!~"5.."}[30d]))
/ sum(increase(http_requests_total[30d]))
Error Budget & Burn Rate¶
Error Budget = 1 - SLO. Burn Rate zeigt, wie schnell Sie das Budget verbrauchen.
# Multi-Window Burn Rate Alert
- alert: HighErrorBudgetBurn
expr: |
(
sli:error_ratio:rate1h > (14.4 * 0.001)
and
sli:error_ratio:rate5m > (14.4 * 0.001)
)
labels:
severity: critical
annotations:
summary: "Error budget burn rate 14.4x"
Error-Budget-Richtlinie¶
- Budget OK → neue Features deployen, experimentieren
- Budget < 50% → erhöhte Vorsicht
- Budget aufgebraucht → Feature Freeze, Fokus auf Stabilität
Die Error-Budget-Richtlinie ist eine Vereinbarung zwischen SRE- und Product-Team.
Zusammenfassung¶
Das SLO/SLI-Framework mit Error Budgets und Burn-Rate-Alerting verwandelt Monitoring von reaktiv in proaktiv.
Brauchen Sie Hilfe bei der Implementierung?¶
Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.