Wenn ein Incident passiert, brauchen Sie ein Verfahren, keine Panik.
Erkennung¶
- ☐ Alert empfangen und bestaetigt
- ☐ Schweregrad bewertet
- ☐ Incident Commander bestimmt
- ☐ Kommunikationskanal geoeffnet (#incident-YYYYMMDD)
Assessment¶
- ☐ Auswirkungsumfang (wie viele Benutzer?)
- ☐ Welche Dienste sind betroffen?
- ☐ Seit wann besteht das Problem?
- ☐ Gibt es einen bekannten Workaround?
Mitigation¶
- ☐ Rollback bei kuerzlichem Deploy
- ☐ Traffic Shift (Failover Region)
- ☐ Dienst-Neustart
- ☐ Scaling Up
- ☐ Benutzerkommunikation (Statusseite)
Kommunikation¶
- ☐ Internes Update alle 30 Minuten
- ☐ Statusseite aktualisiert
- ☐ Management informiert (P1/P2)
- ☐ Kundensupport gebrieft
Resolution¶
- ☐ Root Cause identifiziert
- ☐ Fix angewendet
- ☐ Monitoring bestaetigt Stabilitaet
- ☐ Statusseite: resolved
After Action¶
- ☐ Postmortem innerhalb von 48 Stunden
- ☐ Action Items mit Verantwortlichen
- ☐ Follow-up-Meeting geplant
- ☐ Metriken: MTTD, MTTR
Schluessel¶
Ruhe, Kommunikation, Verfahren. Trainieren Sie Incident Response regelmaessig – Game Days.
incidentsredevops