Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Der vollstaendige Leitfaden zum Monitoring

16. 04. 2025 1 Min. Lesezeit intermediate

Was man nicht misst, kann man nicht steuern. Hier ist der vollstaendige Leitfaden zum Monitoring.

Drei Saeulen der Observability

  • Metriken – numerische Daten (CPU, Latenz, Fehlerrate)
  • Logs – Textaufzeichnungen von Ereignissen
  • Traces – der Weg einer Anfrage durch das System

Metriken – Prometheus

Metrik-Typen

Counter – monoton steigend (requests_total) Gauge – aktueller Wert (temperature) Histogram – Verteilung (request_duration_seconds) Summary – Perzentile

Logs – Loki

Strukturierte JSON-Logs -> zentraler Speicher -> Abfrage und Alerting.

Traces – Jaeger/Tempo

Distributed Tracing verfolgt eine Anfrage ueber alle Microservices hinweg. Unverzichtbar fuer das Debugging verteilter Systeme.

SLI/SLO/SLA

  • SLI (Indicator) – was Sie messen (P99-Latenz, Verfuegbarkeit)
  • SLO (Objective) – Ziel (99,9% Verfuegbarkeit)
  • SLA (Agreement) – Vertrag mit dem Kunden (99,9% + Strafen)

Error Budgets

SLO 99,9% = 43 Minuten Ausfallzeit/Monat = Error Budget. Wenn es aufgebraucht ist, stoppen Sie neue Features und beheben Sie die Zuverlaessigkeit.

Empfohlener Stack

  • Metriken: Prometheus + Grafana
  • Logs: Loki + Promtail + Grafana
  • Traces: Tempo oder Jaeger
  • Alerting: Alertmanager + PagerDuty/OpsGenie
  • All-in-one: Grafana Cloud (Free Tier)

Prinzip

Ueberwachen Sie Symptome (Fehlerrate, Latenz), nicht Ursachen (CPU). Alarmieren Sie bei dem, was die Benutzer betrifft.

monitoringobservabilitydevops
Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.