DevOps Středně pokročilý
SRE — Postmortems Best Practices¶
SREPostmortemIncident ManagementKultura 5 min čtení
Blameless postmortems v praxi. Struktura, facilitace, akční plány a budování kultury učení.
Blameless Kultura¶
Postmortem nikdy nehledá viníka. Hledá systémové příčiny.
- Lidi dělají chyby — to je normální
- Pokud člověk může udělat chybu, systém selhal v prevenci
- Blame → lidé skrývají chyby → horší systémy
Struktura Postmortem¶
# Postmortem: API Outage 2026-02-10
## Summary
90min výpadek API Gateway způsobený OOM v Envoy proxy.
## Impact
- Délka: 90 min
- Zasažení uživatelé: ~12,000
- Error rate: 78%
## Timeline (CET)
- 14:25 — Deploy api-gateway v2.3.1
- 14:30 — Alert: ErrorRateHigh
- 14:40 — Diagnostika: Envoy OOMKilled
- 14:55 — Rollback initiated
- 16:00 — Full recovery
## Root Cause
Regex filter s exponenciální backtracking (ReDoS).
## Action Items
| # | Akce | Owner | Deadline | Priority |
|---|------|-------|----------|----------|
| 1 | Regex complexity check v CI | @platform | 2026-02-17 | P1 |
| 2 | Prodloužit canary na 30 min | @sre | 2026-02-14 | P1 |
| 3 | Snížit Envoy memory limit | @sre | 2026-02-12 | P2 |
Facilitace¶
- Meeting do 48h po incidentu
- Facilitátor ≠ účastník incidentu
- Projděte timeline — co se stalo, ne kdo
- 5× Proč (5 Whys) pro root cause
- Definujte konkrétní akce s ownerem a deadline
- Publikujte interně — transparentnost
Shrnutí¶
Postmortems jsou investice do budoucí spolehlivosti. Blameless kultura a konkrétní akce učí celou organizaci.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.