Alerting, das Sinn macht

Jeder Alert sollte handlungsrelevant sein. Wenn nicht, ist es Rauschen.

Regel Nr. 1: Alerting auf Symptome, nicht Ursachen¶

Alert bei „CPU > 90%” ist Rauschen. Alert bei „5xx Error Rate > 1%” ist ein Symptom, das Benutzer betrifft.

Severity-Stufen¶

Critical — Benutzer sind JETZT betroffen → On-Call wecken
Warning — wird bald ein Problem → während der Arbeitszeit beheben
Info — Zur Kenntnisnahme → nur Log/Dashboard

Was überwachen¶

Error Rate (5xx)
Latenz (P95, P99)
Auslastung (CPU, Speicher, Festplatte)
Queue Depth
Zertifikatsablauf
Festplattenplatz

Anti-Patterns¶

Zu empfindliche Schwellenwerte → Alert Fatigue
Alerting auf Dinge, die sich selbst heilen
Kein Runbook → niemand weiß, was zu tun ist
Doppelte Alerts

Runbook-Vorlage¶

Alert: HighErrorRate¶

Severity: Critical Bedeutung: 5xx Error Rate > 1% über 5 Minuten Auswirkung: Benutzer sehen Fehler Schritte: 1. Deployment-Historie prüfen 2. Logs ansehen 3. Rollback bei kürzlichem Deploy 4. Eskalation an #oncall

Zusammenfassung¶

Weniger Alerts = mehr Aufmerksamkeit. Jeder Alert muss ein Runbook und eine klare Handlung haben.

alertingmonitoringsre

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Alle Artikel

Alerting, das Sinn macht

Regel Nr. 1: Alerting auf Symptome, nicht Ursachen¶

Severity-Stufen¶

Was überwachen¶

Anti-Patterns¶

Runbook-Vorlage¶

Alert: HighErrorRate¶

Zusammenfassung¶

CORE SYSTEMS Team

Mehr Know-how

Prometheus: Monitoring für die Cloud-Native-Welt

Von Nagios zu Zabbix — Warum wir gewechselt haben

SRE in der Praxis — Wie wir begonnen haben, Zuverlässigkeit zu messen