On-Call muss kein Albtraum sein. So ueberleben Sie es (und werden sogar besser).
Vorbereitung¶
- Testen Sie das Alerting-System – erhalten Sie Benachrichtigungen?
- VPN/SSH-Zugang auf dem Handy bereithalten
- Runbooks fuer kritische Dienste lesen
- Wissen, wer der Backup ist und wie man eskaliert
Wenn der Pager klingelt¶
- Keine Panik
- Alert und Runbook lesen
- Impact bewerten – wie viele Benutzer sind betroffen?
- Kommunizieren – im #incidents-Kanal posten
- Auswirkungen mindern (Rollback, Traffic Shift, Neustart)
- Ursache analysieren
- Beheben
- Postmortem schreiben
Eskalation¶
Zoegern Sie nicht zu eskalieren. Lieber einen Kollegen unnoetig wecken, als 2 Stunden an etwas arbeiten, das er in 5 Minuten loesen kann.
Kommunikation waehrend des Vorfalls¶
🔴 INCIDENT: [Dienst] [Symptom]
Impact: [wie viele Benutzer/% Traffic]
Status: investigating / identified / mitigated / resolved
Naechstes Update: in 30 Minuten
Nach dem Vorfall¶
- Postmortem innerhalb von 48 Stunden schreiben
- Blameless-Kultur – nach systemischen Ursachen suchen, nicht nach Schuldigen
- Action Items mit Verantwortlichen und Fristen
Selbstfuersorge¶
- Ruhige Zeiten einplanen (Nachmittagsschlaf nach naechtlichem Vorfall)
- Kompensation fuer On-Call (Geld oder Freizeit)
- On-Call gerecht rotieren
Tipp¶
Das beste On-Call ist langweiliges On-Call. Investieren Sie in Zuverlaessigkeit, Runbooks und Automatisierung.