DevOps Středně pokročilý
SRE — Runbooks a Operational Documentation¶
SRERunbooksDocumentationIncident Response 6 min čtení
Efektivní runbooky pro incident response. Struktura, automatizace a údržba operační dokumentace.
Proč Runbooks¶
Runbook je krok-za-krokem průvodce pro řešení incidentu. Snižuje závislost na tribal knowledge.
Struktura Runbooku¶
# Runbook: High Memory Usage on API Pods
## Alert
- AlertManager: PodMemoryUsageHigh
- Threshold: > 90% memory limit po dobu 5 minut
## Diagnostika
1. kubectl top pods -n production -l app=api-server --sort-by=memory
2. kubectl get events -n production --field-selector reason=OOMKilling
## Mitigace (krátkodobá)
1. kubectl rollout restart deployment/api-server -n production
2. kubectl set resources deployment/api-server --limits=memory=2Gi
## Mitigace (dlouhodobá)
1. Analyzujte heap dump
2. Identifikujte memory leak
3. Fix + deploy
## Escalation
- P1: @sre-oncall → @sre-lead (15 min)
- P2: @sre-oncall → ticket (next business day)
Automatizované Runbooks¶
- Rundeck/Ansible — spouštění runbook kroků přes UI
- PagerDuty Automation Actions — automatická diagnostika
- Kubernetes Operators — self-healing
- ChatOps —
/incident diagnose high-memory
Údržba¶
- Review runbooky po každém incidentu
- Testujte během Game Days
- Přiřaďte owners
- Verzujte v Gitu
- Pokud runbook nebyl updatován 6 měsíců → review
Shrnutí¶
Kvalitní runbooky jsou rozdíl mezi 5minutovou a 2hodinovou mitigací. Pište je jako kód — verzované, testované, revidované.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.