Ein Postmortem dient nicht der Schuldzuweisung. Es geht darum, sicherzustellen, dass es nicht wieder passiert.
Blameless-Kultur¶
“Jan hat die Datenbank geloescht” -> “Es fehlte ein Schutz gegen das Loeschen der Produktionsdatenbank.” Suchen Sie nach systemischen Ursachen, nicht nach Schuldigen.
Vorlage¶
Vorfall: [Name]¶
Datum: YYYY-MM-DD
Schweregrad: Critical/Major/Minor
Dauer: X Stunden
Auswirkung: Y Benutzer betroffen, Z Transaktionen verloren
Zeitverlauf¶
HH:MM – Was passiert ist
HH:MM – Alert ausgeloest
HH:MM – On-Call benachrichtigt
HH:MM – Ursache identifiziert
HH:MM – Gegenmassnahme angewendet
HH:MM – Geloest
Grundursache¶
Detaillierte Beschreibung der Ursache.
Beitragende Faktoren¶
Was hat die Situation verschlimmert?
Action Items¶
| Aktion | Verantwortlicher | Frist | Prioritaet |
|---|---|---|---|
| Guard hinzufuegen | Jan | 2 Wochen | P1 |
Schlueselfragen¶
- Warum hat die Erkennung so lange gedauert?
- Warum gab es keinen automatischen Rollback?
- Warum haben Tests dieses Szenario nicht abgedeckt?
- Hatten wir ein Runbook? Hat es geholfen?
Follow-up¶
Action Items muessen Verantwortliche und Fristen haben. Fortschritt im woechentlichen Standup ueberpruefen.
Denken Sie daran¶
Ein Postmortem ohne Action Items ist nur eine Geschichte. Ein Postmortem mit Follow-through ist Verbesserung.