Hadoop und Big Data in Unternehmensumgebungen

Der Begriff Big Data ist 2012 allgegenwärtig — auf Konferenzen, in den Medien, in Angeboten von Anbietern. Doch was bedeutet es praktisch für ein tschechisches Unternehmen, das täglich Dutzende bis Hunderte Gigabyte an Daten verarbeitet? Apache Hadoop könnte die Antwort sein.

Was Big Data ist und wann man es wirklich braucht¶

Gartner definiert Big Data anhand von drei V: Volume (Menge), Velocity (Geschwindigkeit) und Variety (Vielfalt). Wenn Ihre Daten mindestens zwei dieser Kriterien erfüllen und Ihre bestehende relationale Datenbank nicht mehr mithalten kann, ist es Zeit, nach Alternativen zu suchen.

Typische Szenarien, in denen sich Hadoop auszahlt:

Log-Analyse — Webserver, Applikationsserver und Netzwerkgeräte erzeugen täglich Gigabytes an Logs. SQL-Abfragen über eine solche Tabelle dauern Stunden.
ETL für ein Data Warehouse — Transformation und Bereinigung von Daten vor dem Laden in ein Oracle- oder SQL-Server-Data-Warehouse
Analyse des Kundenverhaltens — Clickstream-Daten aus E-Shops, Telekommunikations-CDR-Datensätze
Archivierung und Suche — alte Dokumente, E-Mails, Scans — unstrukturierte Daten, bei denen Volltextsuche nicht ausreicht

Wenn Sie weniger als 10 GB Daten verarbeiten und Ihre Abfragen in angemessener Zeit laufen, brauchen Sie Hadoop wahrscheinlich nicht. Eine relationale Datenbank mit guten Indizes und materialisierten Views ist für kleinere Datenmengen effizienter.

Architektur eines Hadoop-Clusters¶

Hadoop besteht aus zwei Schlüsselkomponenten:

HDFS (Hadoop Distributed File System) — ein verteiltes Dateisystem, das Daten über mehrere Knoten repliziert (der Standard-Replikationsfaktor ist 3). Daten werden in Blöcke von 64 MB aufgeteilt (in Hadoop 2.x typischerweise 128 MB) und über den Cluster verteilt.

MapReduce — ein Berechnungs-Framework, das Daten parallel auf allen Knoten verarbeitet, auf denen die Daten liegen. Anstatt Daten zur Berechnung zu verschieben, wird die Berechnung zu den Daten verschoben — das ist das Schlüsselprinzip.

Minimaler Produktionscluster für den Enterprise-Einsatz:

NameNode — 1 Server, 64 GB RAM, RAID 1, der HDFS-Steuerungsknoten
Secondary NameNode — 1 Server, Metadaten-Backup
DataNode / TaskTracker — mindestens 4 Server, jeweils 32 GB RAM, 4–12 Festplatten ohne RAID (HDFS repliziert selbst), 8+ CPU-Kerne
Edge Node — 1 Server für Client-Zugriff, Hive, Pig, Datenimport/-export

Distributionen: Cloudera vs. Apache vs. Hortonworks¶

Reines Apache Hadoop kann betrieben werden, aber für Enterprise-Einsätze empfehlen wir eine der kommerziellen Distributionen:

Cloudera CDH 4 — die am weitesten verbreitete Enterprise-Distribution. Enthält Hadoop, Hive, HBase, Pig, Oozie und Cloudera Manager für die Clusterverwaltung. Kommerzieller Support und Zertifizierung. Für die meisten unserer Kunden empfehlen wir diese Option.

Hortonworks HDP 1.x — eine vollständig quelloffene Distribution. Kein proprietäres Verwaltungstool (nutzt Apache Ambari). Geeignet für Unternehmen mit eigenem Hadoop-Know-how.

MapR — ersetzt HDFS durch ein eigenes Hochleistungs-Dateisystem. Eine interessante Option für niedrige Latenz, führt aber zu Vendor Lock-in.

Hive: SQL über Hadoop¶

Für analytische Abfragen über Daten in HDFS ist Apache Hive die ideale Wahl. Hive ermöglicht das Schreiben von Abfragen in einer SQL-ähnlichen Sprache (HiveQL), die intern in MapReduce-Jobs umgewandelt werden.

-- Beispiel: Web-Zugriffsanalyse für den letzten Monat
CREATE EXTERNAL TABLE access_log (
  ip STRING,
  request_time STRING,
  method STRING,
  url STRING,
  status INT,
  bytes BIGINT
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION '/data/logs/access/';

SELECT url, COUNT(*) as hits, SUM(bytes) as total_bytes
FROM access_log
WHERE status = 200
GROUP BY url
ORDER BY hits DESC
LIMIT 100;

Diese Abfrage verarbeitet Terabytes an Logs parallel über den gesamten Cluster. Auf einer relationalen Datenbank würde es Stunden dauern — auf einem Hadoop-Cluster mit 8 Knoten Minuten.

Integration mit dem bestehenden Ökosystem¶

Hadoop ist kein Ersatz für Oracle oder SQL Server. Es ist eine Ergänzung. Ein typischer Workflow:

Sqoop — Daten aus einer relationalen Datenbank in HDFS importieren
MapReduce / Hive — Transformation und Aggregation
Sqoop Export — Ergebnisse zurück in die relationale Datenbank für BI-Tools

Für die Echtzeit-Datenerfassung (Logs, Events) verwenden wir Apache Flume, das Daten direkt in HDFS streamt. Für Messaging zwischen Systemen eignet sich Apache Kafka (ein relativ neues Projekt von LinkedIn, aber bereits stabil).

Betriebliche Aspekte¶

Ein Hadoop-Cluster erfordert einen anderen Betriebsansatz als ein traditioneller Applikationsserver:

Monitoring — Ganglia oder Nagios mit Hadoop-Plugins. Überwachen Sie HDFS-Kapazität, die Anzahl aktiver DataNodes, die MapReduce-Queue und fehlgeschlagene Jobs.
Backup — HDFS hat eingebaute Replikation, aber NameNode-Metadaten sind ein Single Point of Failure. Sichern Sie fsimage und das Edits-Log.
Kapazitätsplanung — Daten in HDFS wachsen. Planen Sie 30–50 Prozent freien Speicherplatz ein. Das Hinzufügen von DataNodes ist einfach — Hadoop rebalanciert die Daten automatisch.
Sicherheit — Hadoop hat standardmäßig keine Authentifizierung. Für Enterprise-Einsätze aktivieren Sie die Kerberos-Integration.

Kosten und ROI¶

Hadoop läuft auf Commodity-Hardware — das ist sein wirtschaftlicher Hauptvorteil. Ein Cluster mit 8 DataNodes auf Standard-2U-Servern kostet grob 1–2 Millionen CZK inklusive Festplatten. Vergleichbare Leistung auf einer kommerziellen MPP-Datenbank (Teradata, Netezza) kostet ein Vielfaches mehr.

Der ROI materialisiert sich typischerweise in folgenden Bereichen:

Schnellere ETL-Prozesse — von Stunden auf Minuten
Analysen, die vorher unmöglich waren (Volltext über Millionen von Dokumenten)
Langfristige Datenarchivierung zu einem Bruchteil der SAN-Speicherkosten
Entlastung der Produktionsdatenbank

Zusammenfassung¶

Hadoop ist kein Allheilmittel, aber für die richtigen Anwendungsfälle liefert es dramatische Verbesserungen. Beginnen Sie mit einem konkreten Problem — Log-Analyse oder ETL-Offload — und skalieren Sie den Cluster nach realen Bedürfnissen. Cloudera CDH 4 ist eine solide Wahl für tschechische Unternehmensumgebungen mit verfügbarem Support. Entscheidend ist, mindestens eine Person im Team zu haben, die Hadoop versteht — ob intern oder extern.

big datahadoopmapreducejava

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns