Incident Management mit PagerDuty — vom Chaos zum Prozess

Sonntag, 3:00 Uhr morgens. Produktion ist ausgefallen. Wer weiß davon? Wer kümmert sich? Früher: chaotische Telefonate. Jetzt: PagerDuty eskaliert automatisch, Runbooks leiten die Lösung, ein Postmortem stellt sicher, dass es nicht wieder passiert.

Vorher: Chaos¶

Monitoring sendete E-Mails. Wer las sie? Niemand in der Nacht. Der Kunde rief den Support an. Der Support rief den Manager an. Der Manager suchte jemanden, der das System kannte. Zeit bis zur Reaktion: Stunden.

PagerDuty-Setup¶

On-Call-Rotation: 2 Teams, wöchentliche Rotation. Primärer On-Call + sekundäre Eskalation. Alert von Prometheus → PagerDuty → Telefon/SMS/Push-Benachrichtigung. Acknowledgement-Timeout: 5 Minuten. Eskalation nach 10 Minuten.

Incident Severity¶

SEV1: Produktionsausfall, Kunden betroffen → sofortige Reaktion
SEV2: Leistungsdegradation, Teilausfall → 30 Min. Reaktionszeit
SEV3: Nicht-kritisches Problem → nächster Werktag

Runbooks¶

Jeder Alert hat einen Link zu einem Runbook. Das Runbook enthält: was der Alert bedeutet, wie man diagnostiziert, wie man entschärft, wann man eskaliert. Der On-Call-Ingenieur muss kein Experte für jedes System sein — das Runbook leitet ihn an.

Post-Incident¶

Jeder SEV1- und SEV2-Incident erhält innerhalb von 48 Stunden ein Postmortem. Blameless. Action Items mit Verantwortlichen und Fristen. Review im wöchentlichen SRE-Meeting. Trend-Tracking — wiederkehrende Incidents deuten auf ein systemisches Problem hin.

Incident Management ist eine Investition in ruhigen Schlaf¶

PagerDuty, Runbooks und Postmortems haben unsere Incident Response vom Chaos zu einem Prozess transformiert. Der On-Call-Ingenieur weiß genau, was zu tun ist.

pagerdutyincident managementsreon-call

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns

Incident Management mit PagerDuty — vom Chaos zum Prozess

Vorher: Chaos¶

PagerDuty-Setup¶

Incident Severity¶

Runbooks¶

Post-Incident¶

Incident Management ist eine Investition in ruhigen Schlaf¶

CORE SYSTEMS

Brauchen Sie Hilfe bei der Implementierung?

Verwandte Artikel

KI im Incident Management — Automatische Erkennung und Reaktion

On-Call Survival Guide

SRE in der Praxis — Wie wir begonnen haben, Zuverlässigkeit zu messen