DevOps Středně pokročilý
Incident Management — Kompletní Průvodce¶
Incident ManagementSREOn-callProcess 6 min čtení
Proces řízení incidentů od detekce po řešení. Severity levels, role, komunikace a eskalace.
Severity Levels¶
- P1 (Critical) — služba nedostupná, dopad na revenue/bezpečnost. Response: 5 min
- P2 (High) — degradovaný výkon, částečný výpadek. Response: 15 min
- P3 (Medium) — minor funkce nefunguje. Response: 1 hodina
- P4 (Low) — kosmetický problém. Response: next business day
Incident Roles¶
- Incident Commander (IC) — koordinuje response, rozhoduje o eskalaci
- Technical Lead — řídí technickou investigaci
- Communications Lead — informuje stakeholdery, status page
- Scribe — dokumentuje timeline a rozhodnutí
Response Process¶
- Detect — alert nebo report od uživatele
- Triage — určete severity a IC
- Investigate — diagnostika, identifikace root cause
- Mitigate — obnovte službu (rollback, restart, failover)
- Resolve — trvalý fix
- Postmortem — do 48h, blameless
Komunikace¶
# Status page update template
[Investigating] Zvýšený error rate na API Gateway.
Dotčené služby: API, Checkout.
Tým pracuje na identifikaci příčiny.
[Identified] Příčina: vysoké memory usage po deploymentu v2.3.1.
Mitigace: rollback na v2.3.0 probíhá.
[Monitoring] Rollback dokončen. Error rate klesá.
Služby se postupně obnovují.
[Resolved] Incident vyřešen. Služby plně funkční.
Postmortem bude publikován do 48h.
Shrnutí¶
Efektivní incident management vyžaduje jasné role, severity levels a komunikační procesy. Nacvičujte pravidelně.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.