Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Spark Structured Streaming — Einheitliche Batch- und Stream-Verarbeitung

22. 08. 2025 1 Min. Lesezeit intermediate

Spark Structured Streaming verarbeitet Datenströme mit derselben API wie Batch. Ein Code für historische und Echtzeitdaten.

Structured Streaming

Stream als unendliche Tabelle — neue Daten sind neue Zeilen.

from pyspark.sql import SparkSession
from pyspark.sql.functions import window, sum, count

spark = SparkSession.builder.appName("Streaming").getOrCreate()

orders = (
    spark.readStream.format("kafka")
    .option("subscribe", "orders").load()
    .select(from_json(col("value").cast("string"), schema).alias("d"))
    .select("d.*")
)

revenue = (
    orders.withWatermark("order_time", "10 minutes")
    .groupBy(window("order_time", "5 minutes"))
    .agg(sum("amount").alias("revenue"))
)

revenue.writeStream.format("delta")
    .option("checkpointLocation", "/cp/revenue")
    .start("/data/revenue")

Trigger-Modi

  • Default — Micro-Batch ASAP
  • Fixed Interval — processingTime
  • Once / Available-now — einmalige Verarbeitung

Zusammenfassung

Spark Structured Streaming ist ideal für Teams mit Spark, die Stream Processing hinzufügen möchten.

spark streamingapache sparkmicro-batchreal-time
Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.