Lakehouse vereint Data Lake und Warehouse in einer einzigen Schicht. Open Table Formats, Medaillon-Architektur und einheitlicher Datenzugriff.
Vom Warehouse und Lake zum Lakehouse¶
Medaillon-Architektur¶
- Bronze – Rohdaten, Append-only
- Silver – bereinigt, validiert
- Gold – Business-Aggregationen
# Bronze: Ingestion aus Kafka
bronze.writeStream.format("delta")
.start("/lakehouse/bronze/orders")
# Silver: Bereinigung
silver = spark.read.format("delta")
.load("/lakehouse/bronze/orders")
.dropDuplicates(["order_id"])
silver.write.format("delta").save("/lakehouse/silver/orders")
# Gold: Aggregation
gold = spark.read.format("delta")
.load("/lakehouse/silver/orders")
.groupBy("order_date").agg(sum("total_czk").alias("revenue"))
gold.write.format("delta").save("/lakehouse/gold/revenue")
Vorteile¶
- Ein Storage – keine Duplizierung
- Offene Formate – kein Vendor Lock-in
- Kosteneffizienz – guenstiger Object Storage
Zusammenfassung¶
Lakehouse mit Medaillon-Muster ist der bevorzugte Ansatz. Bronze-Silver-Gold gewaehrleistet eine schrittweise Qualitaetssteigerung.
lakehousearchitekturadata lakewarehouse