DevOps Pokročilý
SLO, SLI a Error Budgets — Deep Dive¶
SLOSLIError BudgetSRE 6 min čtení
Praktický průvodce implementací SLO a SLI. Výběr metrik, výpočet error budgets, alerting a burn rate.
SLI — Co Měřit¶
- Availability — % úspěšných requestů
- Latency — % requestů pod prahem (p99 < 300ms)
- Throughput — úspěšně zpracované operace/s
- Correctness — % správných výsledků
- Freshness — stáří dat pod prahem
SLO Definice¶
# SLO pro API Gateway
SLO: 99.9% availability (měsíční rolling window)
SLI: sum(http_requests{status!~"5.."})/sum(http_requests)
Error Budget: 0.1% = 43.2 minuty/měsíc
# Prometheus recording rule
- record: sli:api_availability:ratio_rate30d
expr: |
sum(increase(http_requests_total{status!~"5.."}[30d]))
/ sum(increase(http_requests_total[30d]))
Error Budget & Burn Rate¶
Error budget = 1 - SLO. Burn rate říká, jak rychle budget spotřebováváte.
# Multi-window burn rate alert
- alert: HighErrorBudgetBurn
expr: |
(
sli:error_ratio:rate1h > (14.4 * 0.001)
and
sli:error_ratio:rate5m > (14.4 * 0.001)
)
labels:
severity: critical
annotations:
summary: "Error budget burn rate 14.4x"
Error Budget Policy¶
- Budget OK → deploy nové features, experimentujte
- Budget < 50% → zvýšená opatrnost
- Budget vyčerpaný → feature freeze, fokus na stabilitu
Error budget policy je dohoda mezi SRE a product týmem.
Shrnutí¶
SLO/SLI framework s error budgets a burn rate alertingem transformuje monitoring z reaktivního na proaktivní.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.