Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

SLO, SLI a Error Budgets — Deep Dive

31. 07. 2025 1 Min. Lesezeit intermediate

DevOps Fortgeschritten

SLO, SLI und Error Budgets — Deep Dive

SLOSLIError BudgetSRE 6 min Lesezeit

Ein praktischer Leitfaden zur Implementierung von SLOs und SLIs. Metrikauswahl, Error-Budget-Berechnung, Alerting und Burn Rate.

SLI — Was messen

  • Availability — % erfolgreicher Requests
  • Latency — % der Requests unter dem Schwellenwert (p99 < 300ms)
  • Throughput — erfolgreich verarbeitete Operationen/s
  • Correctness — % korrekter Ergebnisse
  • Freshness — Datenalter unter dem Schwellenwert

SLO-Definition

# SLO für API Gateway
SLO: 99.9% Availability (monatliches Rolling Window)
SLI: sum(http_requests{status!~"5.."})/sum(http_requests)
Error Budget: 0.1% = 43,2 Minuten/Monat

# Prometheus Recording Rule
- record: sli:api_availability:ratio_rate30d
  expr: |
    sum(increase(http_requests_total{status!~"5.."}[30d]))
    / sum(increase(http_requests_total[30d]))

Error Budget & Burn Rate

Error Budget = 1 - SLO. Burn Rate zeigt, wie schnell Sie das Budget verbrauchen.

# Multi-Window Burn Rate Alert
- alert: HighErrorBudgetBurn
  expr: |
    (
      sli:error_ratio:rate1h > (14.4 * 0.001)
      and
      sli:error_ratio:rate5m > (14.4 * 0.001)
    )
  labels:
    severity: critical
  annotations:
    summary: "Error budget burn rate 14.4x"

Error-Budget-Richtlinie

  • Budget OK → neue Features deployen, experimentieren
  • Budget < 50% → erhöhte Vorsicht
  • Budget aufgebraucht → Feature Freeze, Fokus auf Stabilität

Die Error-Budget-Richtlinie ist eine Vereinbarung zwischen SRE- und Product-Team.

Zusammenfassung

Das SLO/SLI-Framework mit Error Budgets und Burn-Rate-Alerting verwandelt Monitoring von reaktiv in proaktiv.

Brauchen Sie Hilfe bei der Implementierung?

Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.

Kostenlose Beratung

Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.