Hadoop hat die Aera von Big Data eingeleitet. MapReduce wurde durch Spark ersetzt, HDFS durch Cloud Storage, aber die Prinzipien bleiben bestehen.
Hadoop – von der Revolution zur Evolution¶
HDFS¶
- Block Storage – Bloecke mit 128 MB
- Replikation – 3 Kopien
- Data Locality – Compute bei den Daten
Von Hadoop zur Cloud¶
- HDFS -> S3/GCS – elastischer Storage
- MapReduce -> Spark – 100x schneller
- YARN -> Kubernetes
- Hive -> Trino – interaktives SQL
CREATE EXTERNAL TABLE orders (
order_id STRING,
total_czk DECIMAL(12,2)
) STORED AS PARQUET
LOCATION 'hdfs:///data/orders/';
SELECT YEAR(order_date) AS jahr,
SUM(total_czk) AS umsatz
FROM orders GROUP BY YEAR(order_date);
Zusammenfassung¶
Hadoop hat die Grundlagen von Big Data gelegt. Moderne Architektur ersetzt seine Komponenten durch Cloud-Dienste.
hadoophdfsyarnbig data