Sonntag, 3:00 Uhr morgens. Produktion ist ausgefallen. Wer weiß davon? Wer kümmert sich? Früher: chaotische Telefonate. Jetzt: PagerDuty eskaliert automatisch, Runbooks leiten die Lösung, ein Postmortem stellt sicher, dass es nicht wieder passiert.
Vorher: Chaos¶
Monitoring sendete E-Mails. Wer las sie? Niemand in der Nacht. Der Kunde rief den Support an. Der Support rief den Manager an. Der Manager suchte jemanden, der das System kannte. Zeit bis zur Reaktion: Stunden.
PagerDuty-Setup¶
On-Call-Rotation: 2 Teams, wöchentliche Rotation. Primärer On-Call + sekundäre Eskalation. Alert von Prometheus → PagerDuty → Telefon/SMS/Push-Benachrichtigung. Acknowledgement-Timeout: 5 Minuten. Eskalation nach 10 Minuten.
Incident Severity¶
- SEV1: Produktionsausfall, Kunden betroffen → sofortige Reaktion
- SEV2: Leistungsdegradation, Teilausfall → 30 Min. Reaktionszeit
- SEV3: Nicht-kritisches Problem → nächster Werktag
Runbooks¶
Jeder Alert hat einen Link zu einem Runbook. Das Runbook enthält: was der Alert bedeutet, wie man diagnostiziert, wie man entschärft, wann man eskaliert. Der On-Call-Ingenieur muss kein Experte für jedes System sein — das Runbook leitet ihn an.
Post-Incident¶
Jeder SEV1- und SEV2-Incident erhält innerhalb von 48 Stunden ein Postmortem. Blameless. Action Items mit Verantwortlichen und Fristen. Review im wöchentlichen SRE-Meeting. Trend-Tracking — wiederkehrende Incidents deuten auf ein systemisches Problem hin.
Incident Management ist eine Investition in ruhigen Schlaf¶
PagerDuty, Runbooks und Postmortems haben unsere Incident Response vom Chaos zu einem Prozess transformiert. Der On-Call-Ingenieur weiß genau, was zu tun ist.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns