Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Alerting, das Sinn macht

11. 09. 2023 1 Min. Lesezeit intermediate

Jeder Alert sollte handlungsrelevant sein. Wenn nicht, ist es Rauschen.

Regel Nr. 1: Alerting auf Symptome, nicht Ursachen

Alert bei „CPU > 90%” ist Rauschen. Alert bei „5xx Error Rate > 1%” ist ein Symptom, das Benutzer betrifft.

Severity-Stufen

  • Critical — Benutzer sind JETZT betroffen → On-Call wecken
  • Warning — wird bald ein Problem → während der Arbeitszeit beheben
  • Info — Zur Kenntnisnahme → nur Log/Dashboard

Was überwachen

  • Error Rate (5xx)
  • Latenz (P95, P99)
  • Auslastung (CPU, Speicher, Festplatte)
  • Queue Depth
  • Zertifikatsablauf
  • Festplattenplatz

Anti-Patterns

  • Zu empfindliche Schwellenwerte → Alert Fatigue
  • Alerting auf Dinge, die sich selbst heilen
  • Kein Runbook → niemand weiß, was zu tun ist
  • Doppelte Alerts

Runbook-Vorlage

Alert: HighErrorRate

Severity: Critical Bedeutung: 5xx Error Rate > 1% über 5 Minuten Auswirkung: Benutzer sehen Fehler Schritte: 1. Deployment-Historie prüfen 2. Logs ansehen 3. Rollback bei kürzlichem Deploy 4. Eskalation an #oncall

Zusammenfassung

Weniger Alerts = mehr Aufmerksamkeit. Jeder Alert muss ein Runbook und eine klare Handlung haben.

alertingmonitoringsre
Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.