Debezium erfasst Datenbankänderungen in Echtzeit. Jedes INSERT, UPDATE und DELETE wird ohne Belastung der Quelldatenbank an Kafka übertragen.
Change Data Capture¶
CDC liest das Transaktionslog (WAL, Binlog) — belastet die Quelldatenbank nicht.
{
"name": "postgres-cdc",
"config": {
"connector.class": "io.debezium.connector.postgresql.PostgresConnector",
"database.hostname": "postgres",
"database.dbname": "app",
"topic.prefix": "cdc",
"table.include.list": "public.orders",
"plugin.name": "pgoutput",
"transforms": "unwrap",
"transforms.unwrap.type": "io.debezium.transforms.ExtractNewRecordState"
}
}
CDC → Data Lake¶
- Debezium → Kafka
- Flink/Spark → Verarbeitung
- Delta/Iceberg/Hudi → Upsert
Zusammenfassung¶
Debezium ist der Standard für CDC im Kafka-Ökosystem. Nahezu Echtzeit-Replikation ohne Belastung der Quelldatenbank.
debeziumcdcReplikationkafka connect