Co neměříte, to neřídíte. Tady je kompletní průvodce monitoringem.
Tři pilíře observability¶
- Metriky — numerická data (CPU, latence, error rate)
- Logy — textové záznamy událostí
- Traces — cesta požadavku přes systém
Metriky — Prometheus¶
Typy metrik¶
Counter — monotónně rostoucí (requests_total)
Gauge — aktuální hodnota (temperature)
Histogram — distribuce (request_duration_seconds)
Summary — percentily
Logy — Loki¶
Strukturované JSON logy → centrální úložiště → query a alerting.
Traces — Jaeger/Tempo¶
Distributed tracing sleduje request přes všechny microservices. Nezbytné pro debugging distribuovaných systémů.
SLI/SLO/SLA¶
- SLI (Indicator) — co měříte (latence P99, availability)
- SLO (Objective) — cíl (99.9% availability)
- SLA (Agreement) — smlouva s klientem (99.9% + penále)
Error budgets¶
SLO 99.9% = 43 minut downtime/měsíc = error budget. Pokud ho vyčerpáte, zastavte nové features a opravujte reliability.
Stack doporučení¶
- Metriky: Prometheus + Grafana
- Logy: Loki + Promtail + Grafana
- Traces: Tempo nebo Jaeger
- Alerting: Alertmanager + PagerDuty/OpsGenie
- All-in-one: Grafana Cloud (free tier)
Princip¶
Monitorujte symptomy (error rate, latence), ne příčiny (CPU). Alert na to, co ovlivňuje uživatele.