Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Incident Management mit PagerDuty — vom Chaos zum Prozess

09. 10. 2019 1 Min. Lesezeit CORE SYSTEMSai
Incident Management mit PagerDuty — vom Chaos zum Prozess

Sonntag, 3:00 Uhr morgens. Produktion ist ausgefallen. Wer weiß davon? Wer kümmert sich? Früher: chaotische Telefonate. Jetzt: PagerDuty eskaliert automatisch, Runbooks leiten die Lösung, ein Postmortem stellt sicher, dass es nicht wieder passiert.

Vorher: Chaos

Monitoring sendete E-Mails. Wer las sie? Niemand in der Nacht. Der Kunde rief den Support an. Der Support rief den Manager an. Der Manager suchte jemanden, der das System kannte. Zeit bis zur Reaktion: Stunden.

PagerDuty-Setup

On-Call-Rotation: 2 Teams, wöchentliche Rotation. Primärer On-Call + sekundäre Eskalation. Alert von Prometheus → PagerDuty → Telefon/SMS/Push-Benachrichtigung. Acknowledgement-Timeout: 5 Minuten. Eskalation nach 10 Minuten.

Incident Severity

  • SEV1: Produktionsausfall, Kunden betroffen → sofortige Reaktion
  • SEV2: Leistungsdegradation, Teilausfall → 30 Min. Reaktionszeit
  • SEV3: Nicht-kritisches Problem → nächster Werktag

Runbooks

Jeder Alert hat einen Link zu einem Runbook. Das Runbook enthält: was der Alert bedeutet, wie man diagnostiziert, wie man entschärft, wann man eskaliert. Der On-Call-Ingenieur muss kein Experte für jedes System sein — das Runbook leitet ihn an.

Post-Incident

Jeder SEV1- und SEV2-Incident erhält innerhalb von 48 Stunden ein Postmortem. Blameless. Action Items mit Verantwortlichen und Fristen. Review im wöchentlichen SRE-Meeting. Trend-Tracking — wiederkehrende Incidents deuten auf ein systemisches Problem hin.

Incident Management ist eine Investition in ruhigen Schlaf

PagerDuty, Runbooks und Postmortems haben unsere Incident Response vom Chaos zu einem Prozess transformiert. Der On-Call-Ingenieur weiß genau, was zu tun ist.

pagerdutyincident managementsreon-call
Teilen:

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns