Network Operations Center für einen tschechischen Telekommunikationsbetreiber

Herausforderung¶

Der Kunde, der größte tschechische Telekommunikationsbetreiber mit mehr als 8 Millionen Kunden, stand 2024 vor einer grundlegenden Herausforderung. Das Unternehmen bereitete einen massiven 5G-Netzausbau in der gesamten Tschechischen Republik vor und musste gleichzeitig seine bestehende Netzwerk-Monitoring-Infrastruktur modernisieren. Die vorhandene Lösung, die auf einer Kombination aus proprietären Tools und intern entwickelten Skripten basierte, stieß an ihre Grenzen.

Zu den Hauptproblemen gehörte eine fragmentierte Sichtbarkeit der Netzwerkinfrastruktur — Daten aus verschiedenen Netzsegmenten (Zugangsnetz, Transportnetz, Kernnetz, mobiles RAN) waren in separaten Systemen ohne einheitliche Ansicht gespeichert. Die Operatoren im Network Operations Centre (NOC) mussten zwischen fünf verschiedenen Konsolen wechseln, um einen einzelnen Vorfall zu diagnostizieren. Die durchschnittliche mittlere Zeit zur Identifizierung der Ausfallursache (MTTI) lag bei 47 Minuten, was für das geplante 5G-Netz mit strengen SLAs völlig inakzeptabel war.

Mit der Einführung von 5G stieg die Anzahl der Netzwerkelemente exponentiell — Tausende Small Cells, neue gNodeB-Basisstationen und Edge-Computing-Knoten erzeugten ein Volumen an Telemetriedaten, das die bestehende Plattform nicht verarbeiten konnte. Der Betreiber benötigte eine Lösung, die mehr als 2 Millionen Metriken pro Sekunde mit einer Latenz unter 5 Sekunden verarbeiten kann.

Das Management des Betreibers wandte sich an CORE SYSTEMS mit der Anforderung, eine einheitliche Monitoring-Plattform der nächsten Generation zu entwerfen und zu implementieren, die sowohl die bestehende 4G/LTE-Infrastruktur als auch das kommende 5G-Netz abdecken sollte.

Lösung¶

CORE SYSTEMS entwarf und implementierte eine Plattform namens NetPulse — ein zentralisiertes Monitoring-System, das auf Open-Source-Technologien mit einer proprietären Integrationsschicht aufgebaut ist. Das zentrale Designprinzip war die Fähigkeit zur horizontalen Skalierung und eine modulare Architektur, die das schrittweise Anbinden neuer Datenquellen ermöglicht.

Die Lösung wurde in vier Hauptphasen unterteilt:

Phase 1 — Data Ingestion Layer: Aufbau einer universellen Sammelschicht, die Daten aus heterogenen Quellen empfangen kann — SNMP-Traps, Syslog, Streaming-Telemetrie (gNMI/gRPC), NETCONF und proprietäre APIs einzelner Hersteller (Ericsson, Nokia, Huawei). Alle Daten werden auf ein einheitliches Datenmodell normalisiert und in Apache-Kafka-Cluster publiziert.

Phase 2 — Stream Processing: Implementierung einer Echtzeit-Analytik-Engine auf Basis von Apache Flink für Ereigniskorrelation, Anomalieerkennung und automatische Ursachenanalyse. Das System verwendet eine Kombination aus Rules Engines und ML-Modellen, die auf historischen Vorfällen des Betreibers trainiert wurden.

Phase 3 — NOC Dashboard: Entwicklung maßgeschneiderter Grafana-Dashboards mit geografischer Abdeckungsvisualisierung, Signal-Heatmaps, hierarchischer Netzwerktopologiedarstellung und Drill-down-Funktionalität vom Gesamtüberblick bis zum einzelnen Port eines bestimmten Geräts.

Phase 4 — 5G-Integration: Erweiterung der Plattform um 5G-spezifische Metriken — Monitoring von Network Slicing, Edge-Computing-Knoten, Beamforming-Parametern und Handover-Statistiken zwischen 4G und 5G.

Architektur¶

Die NetPulse-Plattform läuft auf einem Kubernetes-Cluster, der im privaten Rechenzentrum des Betreibers in Prag bereitgestellt wird, mit einer Disaster-Recovery-Replik in Brno. Die Architektur ist als eventgesteuerte Microservices konzipiert:

Die Sammelschicht besteht aus einer Flotte von Kollektoren — leichtgewichtigen containerisierten Agenten, die auf einzelne Protokolle spezialisiert sind. Jeder Kollektor implementiert einen Adapter für einen bestimmten Datenquellentyp und transformiert Rohdaten in ein kanonisches Format (Protocol Buffers). Kollektoren laufen als Kubernetes-DaemonSets auf dedizierten Worker Nodes.

Das Messaging-Backbone wird von einem Apache-Kafka-Cluster mit 12 Brokern bereitgestellt, partitioniert nach Regionen und Netzsegmenttypen. Kafka Streams übernimmt einfache Transformationen und Enrichment (Geolokalisierung, Inventar-Mapping), während komplexere Analytik im Flink-Cluster läuft.

Apache Flink verarbeitet die Alarmkorrelation mittels Sliding-Window-Operationen — gruppiert verwandte Ereignisse in einem 30-Sekunden-Zeitfenster und identifiziert die Ursache. ML-Modelle für Anomalieerkennung (Isolation Forests, LSTM-Netzwerke) laufen als Flink-UDF-Funktionen und werden regelmäßig auf neuen Daten nachtrainiert.

Die Datenschicht kombiniert Prometheus für Kurzzeit-Metriken (15-Tage-Retention), Elasticsearch für Logs und Events (90-Tage-Retention) und PostgreSQL mit der TimescaleDB-Erweiterung für langfristige Trends und Reporting (2-Jahres-Retention). ClickHouse dient als Analytik-Engine für Ad-hoc-Abfragen über große Mengen historischer Daten.

Die Präsentationsschicht basiert auf Grafana mit benutzerdefinierten Plugins, die von CORE SYSTEMS entwickelt wurden — insbesondere ein Plugin zur Netzwerktopologie-Visualisierung mit automatischem Layout und ein interaktives Karten-Plugin, das die Signalabdeckung auf einer Karte der Tschechischen Republik darstellt.

Die gesamte Plattform überwacht sich selbst (Meta-Monitoring) und wird mittels Velero in S3-kompatiblen Object Storage gesichert.

Ergebnisse¶

Die Bereitstellung der NetPulse-Plattform lieferte dem Kunden innerhalb der ersten sechs Betriebsmonate messbare Ergebnisse:

Betriebliche Effizienz: Die durchschnittliche mittlere Zeit zur Identifizierung der Ausfallursache (MTTI) sank von 47 Minuten auf 11 Minuten dank automatischer Alarmkorrelation. Die gesamte mittlere Reparaturzeit (MTTR) wurde um 62 % reduziert, was sich direkt auf die Kundenzufriedenheit und SLA-Einhaltung auswirkte.

Einheitliche Ansicht: NOC-Operatoren arbeiten nun mit einer einzigen Konsole, die alle 12.000+ Netzwerkelemente in der gesamten Tschechischen Republik abdeckt. Die geografische Visualisierung ermöglicht die sofortige Identifizierung regionaler Probleme und das Umschalten zwischen logischer und physischer Netzwerkansicht.

5G-Rollout-Unterstützung: Die Plattform lieferte kritische Daten für die 5G-Abdeckungsplanung — die Auslastungsanalyse bestehender 4G-Zellen half, Standorte mit höchster Priorität für den 5G-Einsatz zu identifizieren. Das Network-Slicing-Monitoring ermöglichte es dem Betreiber, Unternehmenskunden garantierte SLA-Parameter anzubieten.

Kapazitätsplanung: Prädiktive Modelle, die Trends in der Auslastung von Netzwerkelementen analysieren, können den Bedarf an Kapazitätserweiterungen mit 89 % Genauigkeit 6 Wochen im Voraus prognostizieren und ermöglichen so eine proaktive Investitionsplanung.

Finanzielle Auswirkungen: Jährliche Einsparungen von 8,5 Mio. CZK bei den NOC-Betriebskosten durch Automatisierung von Routineaufgaben und eine 74-prozentige Reduzierung von Fehlalarmen. Reduktion der Eskalationen an den 2. und 3. Level-Support um 41 %.

Automatisierung: Die Plattform löst 23 % der häufigen Vorfälle automatisch ohne Eingriff des Operators — beispielsweise automatischer Neustart von Diensten, Umschaltung auf Backup-Routen oder Eskalation an den Hersteller mit einem vollständigen Diagnosepaket.

Technologie¶

Das NetPulse-Projekt nutzt einen modernen Technologie-Stack, der für hohen Durchsatz und geringe Latenz optimiert ist:

Apache Kafka — Messaging-Backbone, 2 Mio.+ Nachrichten/s, Geo-Replikation zwischen den Rechenzentren Prag und Brno
Apache Flink — Stream Processing, Ereigniskorrelation, Echtzeit-Analytik
Prometheus + Thanos — Metriksammlung und Langzeitspeicherung mit globalem Query View
Elasticsearch — Volltextsuche in Logs, Watcher-basiertes Alerting
Grafana — Visualisierung und Dashboarding mit benutzerdefinierten Plugins für Telco-Spezifika
PostgreSQL + TimescaleDB — relationale Daten, Inventar, Konfigurationsdatenbank
ClickHouse — OLAP-Analytik über historische Daten
Kubernetes (OpenShift) — Container-Orchestrierung in der On-Premise-Umgebung
Python — ML-Modelle, Datenpipelines, Integrationsskripte
Ansible + ArgoCD — Deployment-Automatisierung und GitOps-Workflow

Die Zusammenarbeit zwischen CORE SYSTEMS und dem Kunden wird im Rahmen eines langfristigen Managed-Service-Vertrags fortgesetzt, der die kontinuierliche Plattformentwicklung, das ML-Modell-Training und die Unterstützung beim Ausbau der 5G-Abdeckung umfasst.

Technologien

KafkaGrafanaPrometheusKubernetesPythonElasticsearchPostgreSQLApache Flink