Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Know-how
Nástroje O nás Spolupráce Kariéra
Pojďme to probrat

SRE — Postmortems Best Practices

26. 04. 2024 1 min čtení intermediate

DevOps Středně pokročilý

SRE — Postmortems Best Practices

SREPostmortemIncident ManagementKultura 5 min čtení

Blameless postmortems v praxi. Struktura, facilitace, akční plány a budování kultury učení.

Blameless Kultura

Postmortem nikdy nehledá viníka. Hledá systémové příčiny.

  • Lidi dělají chyby — to je normální
  • Pokud člověk může udělat chybu, systém selhal v prevenci
  • Blame → lidé skrývají chyby → horší systémy

Struktura Postmortem

# Postmortem: API Outage 2026-02-10

## Summary
90min výpadek API Gateway způsobený OOM v Envoy proxy.

## Impact
- Délka: 90 min
- Zasažení uživatelé: ~12,000
- Error rate: 78%

## Timeline (CET)
- 14:25 — Deploy api-gateway v2.3.1
- 14:30 — Alert: ErrorRateHigh
- 14:40 — Diagnostika: Envoy OOMKilled
- 14:55 — Rollback initiated
- 16:00 — Full recovery

## Root Cause
Regex filter s exponenciální backtracking (ReDoS).

## Action Items
| # | Akce | Owner | Deadline | Priority |
|---|------|-------|----------|----------|
| 1 | Regex complexity check v CI | @platform | 2026-02-17 | P1 |
| 2 | Prodloužit canary na 30 min | @sre | 2026-02-14 | P1 |
| 3 | Snížit Envoy memory limit | @sre | 2026-02-12 | P2 |

Facilitace

  1. Meeting do 48h po incidentu
  2. Facilitátor ≠ účastník incidentu
  3. Projděte timeline — co se stalo, ne kdo
  4. 5× Proč (5 Whys) pro root cause
  5. Definujte konkrétní akce s ownerem a deadline
  6. Publikujte interně — transparentnost

Shrnutí

Postmortems jsou investice do budoucí spolehlivosti. Blameless kultura a konkrétní akce učí celou organizaci.

Potřebujete pomoct s implementací?

Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.

Nezávazná konzultace

Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.