Was man nicht misst, kann man nicht steuern. Hier ist der vollstaendige Leitfaden zum Monitoring.

Drei Saeulen der Observability¶

Metriken – numerische Daten (CPU, Latenz, Fehlerrate)
Logs – Textaufzeichnungen von Ereignissen
Traces – der Weg einer Anfrage durch das System

Metriken – Prometheus¶

Metrik-Typen¶

Counter – monoton steigend (requests_total) Gauge – aktueller Wert (temperature) Histogram – Verteilung (request_duration_seconds) Summary – Perzentile

Logs – Loki¶

Strukturierte JSON-Logs -> zentraler Speicher -> Abfrage und Alerting.

Traces – Jaeger/Tempo¶

Distributed Tracing verfolgt eine Anfrage ueber alle Microservices hinweg. Unverzichtbar fuer das Debugging verteilter Systeme.

SLI/SLO/SLA¶

SLI (Indicator) – was Sie messen (P99-Latenz, Verfuegbarkeit)
SLO (Objective) – Ziel (99,9% Verfuegbarkeit)
SLA (Agreement) – Vertrag mit dem Kunden (99,9% + Strafen)

Error Budgets¶

SLO 99,9% = 43 Minuten Ausfallzeit/Monat = Error Budget. Wenn es aufgebraucht ist, stoppen Sie neue Features und beheben Sie die Zuverlaessigkeit.

Empfohlener Stack¶

Metriken: Prometheus + Grafana
Logs: Loki + Promtail + Grafana
Traces: Tempo oder Jaeger
Alerting: Alertmanager + PagerDuty/OpsGenie
All-in-one: Grafana Cloud (Free Tier)

Prinzip¶

Ueberwachen Sie Symptome (Fehlerrate, Latenz), nicht Ursachen (CPU). Alarmieren Sie bei dem, was die Benutzer betrifft.

monitoringobservabilitydevops

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Alle Artikel

Der vollstaendige Leitfaden zum Monitoring