Data observability je monitoring datových pipeline zaměřený na pět pilířů: freshness, volume, schema, distribution a lineage. Odhalte problémy dříve, než je uvidí business.
Pět pilířů data observability¶
- Freshness — jsou data aktuální?
- Volume — přišel očekávaný počet záznamů?
- Schema — nezměnilo se schéma?
- Distribution — jsou hodnoty v normálních rozsazích?
- Lineage — co ovlivnil výpadek upstream?
Elementary — observability pro dbt¶
# packages.yml
packages:
- package: elementary-data/elementary
version: 0.13.0
# models/schema.yml
models:
- name: fct_orders
tests:
- elementary.volume_anomalies:
timestamp_column: order_date
- elementary.freshness_anomalies:
timestamp_column: order_date
- elementary.column_anomalies:
column_name: total_czk
Nástroje¶
- Monte Carlo — SaaS, ML-based anomaly detection
- Elementary — open-source, dbt-native
- Great Expectations + alerting — custom řešení
Shrnutí¶
Data observability odhaluje problémy dříve než business. Pět pilířů pokrývá freshness, volume, schema, distribuci a lineage.
data observabilitymonitoringfreshnessdata quality