DevOps Fortgeschritten
SRE — Postmortems Best Practices¶
SREPostmortemIncident ManagementKultur 5 min Lesezeit
Blameless Postmortems in der Praxis. Struktur, Moderation, Aktionspläne und Aufbau einer Lernkultur.
Blameless-Kultur¶
Ein Postmortem sucht niemals nach Schuldigen. Es sucht nach systemischen Ursachen.
- Menschen machen Fehler — das ist normal
- Wenn ein Mensch einen Fehler machen kann, hat das System bei der Prävention versagt
- Schuldzuweisung → Menschen verbergen Fehler → schlechtere Systeme
Postmortem-Struktur¶
# Postmortem: API Outage 2026-02-10
## Summary
90-minütiger Ausfall des API Gateway verursacht durch OOM im Envoy Proxy.
## Impact
- Dauer: 90 Min
- Betroffene Benutzer: ~12.000
- Error Rate: 78%
## Timeline (CET)
- 14:25 — Deploy api-gateway v2.3.1
- 14:30 — Alert: ErrorRateHigh
- 14:40 — Diagnostik: Envoy OOMKilled
- 14:55 — Rollback eingeleitet
- 16:00 — Vollständige Wiederherstellung
## Root Cause
Regex-Filter mit exponentiellem Backtracking (ReDoS).
## Action Items
| # | Aktion | Owner | Deadline | Priorität |
|---|--------|-------|----------|-----------|
| 1 | Regex-Komplexitätsprüfung in CI | @platform | 2026-02-17 | P1 |
| 2 | Canary auf 30 Min verlängern | @sre | 2026-02-14 | P1 |
| 3 | Envoy-Memory-Limit senken | @sre | 2026-02-12 | P2 |
Moderation¶
- Meeting innerhalb von 48 Std. nach dem Incident
- Moderator ist nicht Incident-Beteiligter
- Timeline durchgehen — was geschah, nicht wer
- 5x Warum (5 Whys) für die Root Cause
- Konkrete Aktionen mit Owner und Deadline definieren
- Intern veröffentlichen — Transparenz
Zusammenfassung¶
Postmortems sind eine Investition in zukünftige Zuverlässigkeit. Blameless-Kultur und konkrete Aktionen helfen der gesamten Organisation beim Lernen.
Brauchen Sie Hilfe bei der Implementierung?¶
Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.