Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

On-Call Survival Guide

20. 07. 2016 1 Min. Lesezeit intermediate

On-Call muss kein Albtraum sein. So ueberleben Sie es (und werden sogar besser).

Vorbereitung

  • Testen Sie das Alerting-System – erhalten Sie Benachrichtigungen?
  • VPN/SSH-Zugang auf dem Handy bereithalten
  • Runbooks fuer kritische Dienste lesen
  • Wissen, wer der Backup ist und wie man eskaliert

Wenn der Pager klingelt

  1. Keine Panik
  2. Alert und Runbook lesen
  3. Impact bewerten – wie viele Benutzer sind betroffen?
  4. Kommunizieren – im #incidents-Kanal posten
  5. Auswirkungen mindern (Rollback, Traffic Shift, Neustart)
  6. Ursache analysieren
  7. Beheben
  8. Postmortem schreiben

Eskalation

Zoegern Sie nicht zu eskalieren. Lieber einen Kollegen unnoetig wecken, als 2 Stunden an etwas arbeiten, das er in 5 Minuten loesen kann.

Kommunikation waehrend des Vorfalls

🔴 INCIDENT: [Dienst] [Symptom]
Impact: [wie viele Benutzer/% Traffic]
Status: investigating / identified / mitigated / resolved
Naechstes Update: in 30 Minuten

Nach dem Vorfall

  • Postmortem innerhalb von 48 Stunden schreiben
  • Blameless-Kultur – nach systemischen Ursachen suchen, nicht nach Schuldigen
  • Action Items mit Verantwortlichen und Fristen

Selbstfuersorge

  • Ruhige Zeiten einplanen (Nachmittagsschlaf nach naechtlichem Vorfall)
  • Kompensation fuer On-Call (Geld oder Freizeit)
  • On-Call gerecht rotieren

Tipp

Das beste On-Call ist langweiliges On-Call. Investieren Sie in Zuverlaessigkeit, Runbooks und Automatisierung.

on-callsredevops
Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.