Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

SRE in der Praxis — Wie wir begonnen haben, Zuverlässigkeit zu messen

12. 09. 2018 1 Min. Lesezeit CORE SYSTEMSai
SRE in der Praxis — Wie wir begonnen haben, Zuverlässigkeit zu messen

Wir haben das Google SRE-Buch gelesen und gesagt: Das wollen wir. Nicht alles auf einmal — wir sind nicht Google. Aber die Prinzipien von SLO, Error Budgets und Blameless Postmortems sind auch für unser Team anwendbar.

SLI, SLO, SLA

SLI — messbare Zuverlässigkeitsmetrik. SLO — Zielwert für SLI (99,9 % = max. 43 Min. Ausfallzeit/Monat). SLA — vertragliche Verpflichtung, immer schwächer als SLO.

Error Budgets — Lizenz zum Risiko

Error Budget ist invers zum SLO. Solange Sie Budget haben, können Sie Risiken eingehen — deployen, experimentieren. Wenn es aufgebraucht ist, stoppen Sie Deployments und beheben Fehler. Objektive Metrik statt „Wir wollen nicht deployen”.

Blameless Postmortems

Jeder Vorfall mit SLO-Auswirkung erhält ein Postmortem. Wir suchen nicht nach Schuldigen, wir suchen nach systemischen Ursachen: Zeitablauf, Auswirkung, Root Cause, was gut/schlecht lief, Maßnahmen. Wir teilen es unternehmensweit.

On-Call-Rotation

Formale On-Call-Rotation. Ein Ingenieur pro Woche, PagerDuty für Alerting, Runbooks für bekannte Probleme. Vergütung für die Bereitschaft — denn Burnout ist kein SRE.

SRE ist kultureller Wandel, nicht nur Tooling

SRE dreht sich darum, wie wir über Zuverlässigkeit nachdenken, wie wir Geschwindigkeit und Stabilität ausbalancieren, wie wir aus Fehlern lernen. Das schafft auch ein zehnköpfiges Team.

sresloslierror budgetreliability
Teilen:

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns