Data Lake ist ein zentrales Repository für Rohdaten in beliebigem Format. Von strukturierten Tabellen bis zu unstrukturierten Logs — alles auf günstigem Object Storage.
Was ist ein Data Lake¶
Speichert Daten in Rohform — Schema-on-Read.
Architektur¶
- Storage — S3, GCS, ADLS
- Formate — Parquet, Avro, JSON
- Katalog — Glue, Hive Metastore
- Compute — Spark, Trino, DuckDB
s3://data-lake/
├── raw/ # Bronze
│ ├── orders/
│ └── events/
├── processed/ # Silver
│ └── orders/
├── curated/ # Gold
│ └── daily_revenue/
└── _metadata/
Was zu vermeiden ist (Data Swamp)¶
- Fehlender Katalog
- Keine Governance
- Kleine Dateien — Tausende von 1KB-Dateien
- Fehlendes Lineage
Zusammenfassung¶
Data Lake mit Table Formats und Governance wird zum Lakehouse — zuverlässige Grundlage für Analytik.
data lakeArchitekturobject storagebig data