DevOps Fortgeschritten

SLO, SLI und Error Budgets — Deep Dive¶

SLOSLIError BudgetSRE 6 min Lesezeit

Ein praktischer Leitfaden zur Implementierung von SLOs und SLIs. Metrikauswahl, Error-Budget-Berechnung, Alerting und Burn Rate.

SLI — Was messen¶

Availability — % erfolgreicher Requests
Latency — % der Requests unter dem Schwellenwert (p99 < 300ms)
Throughput — erfolgreich verarbeitete Operationen/s
Correctness — % korrekter Ergebnisse
Freshness — Datenalter unter dem Schwellenwert

SLO-Definition¶

# SLO für API Gateway
SLO: 99.9% Availability (monatliches Rolling Window)
SLI: sum(http_requests{status!~"5.."})/sum(http_requests)
Error Budget: 0.1% = 43,2 Minuten/Monat

# Prometheus Recording Rule
- record: sli:api_availability:ratio_rate30d
  expr: |
    sum(increase(http_requests_total{status!~"5.."}[30d]))
    / sum(increase(http_requests_total[30d]))

Error Budget & Burn Rate¶

Error Budget = 1 - SLO. Burn Rate zeigt, wie schnell Sie das Budget verbrauchen.

# Multi-Window Burn Rate Alert
- alert: HighErrorBudgetBurn
  expr: |
    (
      sli:error_ratio:rate1h > (14.4 * 0.001)
      and
      sli:error_ratio:rate5m > (14.4 * 0.001)
    )
  labels:
    severity: critical
  annotations:
    summary: "Error budget burn rate 14.4x"

Error-Budget-Richtlinie¶

Budget OK → neue Features deployen, experimentieren
Budget < 50% → erhöhte Vorsicht
Budget aufgebraucht → Feature Freeze, Fokus auf Stabilität

Die Error-Budget-Richtlinie ist eine Vereinbarung zwischen SRE- und Product-Team.

Zusammenfassung¶

Das SLO/SLI-Framework mit Error Budgets und Burn-Rate-Alerting verwandelt Monitoring von reaktiv in proaktiv.

Brauchen Sie Hilfe bei der Implementierung?¶

Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.

Kostenlose Beratung

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Alle Artikel

SLO, SLI a Error Budgets — Deep Dive

SLO, SLI und Error Budgets — Deep Dive¶

SLI — Was messen¶

SLO-Definition¶

Error Budget & Burn Rate¶

Error-Budget-Richtlinie¶

Zusammenfassung¶

Brauchen Sie Hilfe bei der Implementierung?¶

CORE SYSTEMS Team

Mehr Know-how

Bash-Scripting für Server-Automatisierung

HTML5 — die Zukunft des Webs ist da

Integration von Java-Anwendungen mit Active Directory