Prometheus sammelt hervorragend Metriken. Aber es hat Grenzen: Single Node, begrenzte Retention, kein globaler Überblick über mehrere Cluster. Thanos erweitert Prometheus um Langzeitspeicher und HA.
Probleme mit purem Prometheus¶
- Single Node: Prometheus fällt aus → Datenverlust
- Retention: 15-30 Tage lokal, mehr verbraucht zu viel Speicherplatz
- Multi-Cluster: keine globale Abfrage über Cluster hinweg
- Dedup: HA-Prometheus-Paare erzeugen doppelte Daten
Thanos-Architektur¶
Sidecar: läuft neben Prometheus, lädt Blöcke in Object Storage (S3) hoch. Store Gateway: liefert historische Daten aus S3. Query: globales Query-Frontend — führt Daten aus Sidecars und Store Gateway zusammen. Compactor: Downsampling und Compaction in S3.
Das Ergebnis¶
Unbegrenzte Retention zu S3-Speicherkosten (~0,023 $/GB/Monat). Globale Abfrage über alle Cluster. HA ohne Duplikate. Prometheus bleibt als Scraper, Thanos fügt die globale Schicht hinzu.
Alternativen¶
Cortex: ähnlicher Ansatz, aber der Write Path unterscheidet sich (Remote Write). Stärker verteilt, aber komplexer. VictoriaMetrics: einzelne Binärdatei, PromQL-kompatibel, einfacher. Für unsere Bedürfnisse haben wir Thanos gewählt — direkte Integration mit bestehendem Prometheus.
Thanos ist die natürliche Weiterentwicklung des Prometheus-Stacks¶
Wenn Sie Prometheus in der Produktion betreiben, ist Thanos der logische nächste Schritt für Langzeitspeicher und Multi-Cluster-Observability.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns