DevOps Fortgeschritten
On-Call Engineering — Best Practices¶
On-callSREAlertingOperations 6 min Lesezeit
Effektive On-Call-Rotationen. Alert-Qualität, Eskalation, Vergütung und Burnout-Prävention.
Alert-Qualität¶
Jeder Alert muss actionable sein. Wenn On-Call nichts tun kann → Alert löschen.
- Alert = jemand muss JETZT etwas tun
- Keine informativen Alerts in der On-Call-Rotation
- Max 2-3 Alerts pro On-Call-Schicht (Ziel)
- Jeder Alert hat einen Runbook-Link
Rotations-Design¶
- Mindestens 2 Personen in der Rotation (Primary + Secondary)
- Max 1 Woche On-Call pro Monat
- Follow-the-Sun für globale Teams
- Handoff-Meeting zu Schichtbeginn — was ist los?
- Shadow On-Call für neue Teammitglieder
Eskalation¶
# PagerDuty-Eskalationsrichtlinie
Level 1: Primary On-Call (0 Min)
→ Auto-Acknowledge: 5 Min
→ Auto-Eskalation: 15 Min
Level 2: Secondary On-Call (15 Min)
→ Auto-Eskalation: 30 Min
Level 3: Engineering Manager (45 Min)
# Regeln
- P1: sofort eskalieren, wenn Sie nicht lösen können
- Seien Sie kein Held — Eskalation ist kein Versagen
- Besser zwei Leute wecken als 2 Std. Ausfall
Burnout-Prävention¶
- Vergütung (Zulage oder Freizeitausgleich)
- Metriken verfolgen: Alerts pro Schicht, MTTR, False-Positive-Rate
- Retrospektive der On-Call-Woche
- In Automatisierung investieren (Alert-Anzahl reduzieren)
Zusammenfassung¶
Gesunder On-Call-Dienst = qualitative Alerts, klare Eskalation, Vergütung und kontinuierliche Verbesserung. On-Call sollte keine Strafe sein.
Brauchen Sie Hilfe bei der Implementierung?¶
Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.