Ein systematischer Ansatz zur Datenqualität ist die Grundlage vertrauenswürdiger Analytik. Sechs Qualitätsdimensionen, automatisierte Prüfungen und Prozesse zur kontinuierlichen Verbesserung.
Sechs Dimensionen der Datenqualität¶
- Completeness — fehlende Werte (% Non-Null)
- Uniqueness — Duplikate (% eindeutige Schlüssel)
- Validity — Werte im zulässigen Bereich/Format
- Accuracy — Korrektheit gegenüber der Realität
- Consistency — Übereinstimmung zwischen Systemen
- Timeliness — Daten sind ausreichend aktuell
Data Quality Score¶
# DQ-Score-Berechnung
def calculate_dq_score(checks_results):
passed = sum(1 for c in checks_results if c.passed)
total = len(checks_results)
return (passed / total) * 100
# Beispielausgabe:
# Completeness: 99.8%
# Uniqueness: 100%
# Validity: 98.5%
# Timeliness: 100%
# Overall DQ Score: 99.6%
Automatisierung¶
- Prävention — Schema-Enforcement, Validierung bei der Ingestion
- Erkennung — Great Expectations, Soda, dbt Tests
- Alerting — Slack/E-Mail bei fehlgeschlagenen Prüfungen
- Remediation — automatische Korrektur oder Quarantäne
Zusammenfassung¶
Ein DQ-Framework mit sechs Dimensionen, automatisierten Prüfungen und DQ-Score gewährleistet ein systematisches Datenqualitätsmanagement.
data qualityframeworkMetrikenProzesse