Wir haben das Google SRE-Buch gelesen und gesagt: Das wollen wir. Nicht alles auf einmal — wir sind nicht Google. Aber die Prinzipien von SLO, Error Budgets und Blameless Postmortems sind auch für unser Team anwendbar.
SLI, SLO, SLA¶
SLI — messbare Zuverlässigkeitsmetrik. SLO — Zielwert für SLI (99,9 % = max. 43 Min. Ausfallzeit/Monat). SLA — vertragliche Verpflichtung, immer schwächer als SLO.
Error Budgets — Lizenz zum Risiko¶
Error Budget ist invers zum SLO. Solange Sie Budget haben, können Sie Risiken eingehen — deployen, experimentieren. Wenn es aufgebraucht ist, stoppen Sie Deployments und beheben Fehler. Objektive Metrik statt „Wir wollen nicht deployen”.
Blameless Postmortems¶
Jeder Vorfall mit SLO-Auswirkung erhält ein Postmortem. Wir suchen nicht nach Schuldigen, wir suchen nach systemischen Ursachen: Zeitablauf, Auswirkung, Root Cause, was gut/schlecht lief, Maßnahmen. Wir teilen es unternehmensweit.
On-Call-Rotation¶
Formale On-Call-Rotation. Ein Ingenieur pro Woche, PagerDuty für Alerting, Runbooks für bekannte Probleme. Vergütung für die Bereitschaft — denn Burnout ist kein SRE.
SRE ist kultureller Wandel, nicht nur Tooling¶
SRE dreht sich darum, wie wir über Zuverlässigkeit nachdenken, wie wir Geschwindigkeit und Stabilität ausbalancieren, wie wir aus Fehlern lernen. Das schafft auch ein zehnköpfiges Team.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns