Data Observability ist das Monitoring von Datenpipelines, fokussiert auf fünf Säulen: Freshness, Volumen, Schema, Verteilung und Lineage. Erkennen Sie Probleme, bevor das Business sie sieht.
Fünf Säulen der Data Observability¶
- Freshness — sind die Daten aktuell?
- Volumen — ist die erwartete Anzahl von Datensätzen angekommen?
- Schema — hat sich das Schema geändert?
- Verteilung — liegen die Werte in normalen Bereichen?
- Lineage — was hat der Upstream-Ausfall beeinflusst?
Elementary — Observability für dbt¶
# packages.yml
packages:
- package: elementary-data/elementary
version: 0.13.0
# models/schema.yml
models:
- name: fct_orders
tests:
- elementary.volume_anomalies:
timestamp_column: order_date
- elementary.freshness_anomalies:
timestamp_column: order_date
- elementary.column_anomalies:
column_name: total_czk
Werkzeuge¶
- Monte Carlo — SaaS, ML-basierte Anomalieerkennung
- Elementary — Open Source, dbt-nativ
- Great Expectations + Alerting — eigene Lösung
Zusammenfassung¶
Data Observability erkennt Probleme früher als das Business. Fünf Säulen decken Freshness, Volumen, Schema, Verteilung und Lineage ab.
data observabilitymonitoringfreshnessdata quality