Network Operations Center pro českého telco operátora

Výzva¶

klient, největší český telekomunikační operátor s více než 8 miliony zákazníků, stál v roce 2024 před zásadní výzvou. Společnost připravovala masivní rollout 5G sítě napříč celou Českou republikou a současně potřebovala modernizovat svou stávající infrastrukturu pro monitoring sítě. Dosavadní řešení, postavené na kombinaci proprietárních nástrojů a interně vyvinutých skriptů, naráželo na své limity.

Hlavní problémy zahrnovaly fragmentovanou viditelnost síťové infrastruktury — data z různých segmentů sítě (přístupová síť, transportní síť, páteřní síť, mobilní RAN) byla uložena v oddělených systémech bez jednotného pohledu. Operátoři v Network Operations Center (NOC) museli přepínat mezi pěti různými konzolemi, aby diagnostikovali jediný incident. Průměrná doba identifikace příčiny výpadku (MTTI) dosahovala 47 minut, což bylo pro plánovanou 5G síť s přísnými SLA naprosto nepřijatelné.

S příchodem 5G se navíc exponenciálně zvyšoval počet síťových prvků — tisíce small cells, nové gNodeB základnové stanice a edge computing uzly generovaly objem telemetrických dat, který stávající platforma nedokázala zpracovat. operátor potřebovalo řešení schopné zpracovat více než 2 miliony metrik za sekundu s latencí pod 5 sekund.

Vedení operátor oslovilo CORE SYSTEMS s požadavkem na návrh a implementaci jednotné monitorovací platformy nové generace, která by pokryla jak stávající 4G/LTE infrastrukturu, tak připravovanou 5G síť.

Řešení¶

CORE SYSTEMS navrhl a implementoval platformu s názvem NetPulse — centralizovaný monitorovací systém postavený na open-source technologiích s vlastní integrační vrstvou. Klíčovým principem návrhu byla schopnost horizontálního škálování a modulární architektura umožňující postupné připojování nových datových zdrojů.

Řešení bylo rozděleno do čtyř hlavních fází:

Fáze 1 — Data Ingestion Layer: Vybudování univerzální sběrné vrstvy schopné přijímat data z heterogenních zdrojů — SNMP traps, syslog, streaming telemetrie (gNMI/gRPC), NETCONF a proprietární API jednotlivých vendorů (Ericsson, Nokia, Huawei). Všechna data jsou normalizována do jednotného datového modelu a publikována do Apache Kafka clusterů.

Fáze 2 — Stream Processing: Implementace real-time analytického engine na bázi Apache Flink pro korelaci událostí, detekci anomálií a automatickou root cause analýzu. Systém využívá kombinaci pravidlových enginů a ML modelů trénovaných na historických incidentech operátor.

Fáze 3 — NOC Dashboard: Vývoj custom Grafana dashboardů s geografickou vizualizací pokrytí, heat mapami signálu, hierarchickým zobrazením síťové topologie a drill-down funkcionalitou od celkového přehledu až po jednotlivý port na konkrétním zařízení.

Fáze 4 — 5G Integration: Rozšíření platformy o specifické metriky 5G sítě — monitoring network slicingu, edge computing uzlů, beamforming parametrů a handover statistik mezi 4G a 5G.

Architektura¶

Platforma NetPulse běží na Kubernetes clusteru nasazeném v privátním datacentru operátor v Praze s disaster recovery replikou v Brně. Architektura je navržena jako event-driven microservices:

Sběrná vrstva tvoří flotila kolektorů — lehkých kontejnerizovaných agentů specializovaných na jednotlivé protokoly. Každý kolektor implementuje adaptér pro konkrétní typ datového zdroje a transformuje surová data do kanonického formátu (Protocol Buffers). Kolektory běží jako Kubernetes DaemonSety na dedikovaných worker nodech.

Messaging backbone zajišťuje Apache Kafka cluster se 12 brokery, particionovaný podle regionů a typů síťových segmentů. Kafka Streams zpracovává jednoduché transformace a enrichment (přidání geolokace, mapování na inventář), zatímco komplexnější analytika probíhá ve Flink clusteru.

Apache Flink zpracovává korelaci alarmů pomocí sliding window operací — seskupuje související události v časovém okně 30 sekund a identifikuje kořenovou příčinu. ML modely pro detekci anomálií (izolační lesy, LSTM sítě) běží jako Flink UDF funkce a jsou pravidelně přetrénovávány na nových datech.

Datová vrstva kombinuje Prometheus pro krátkodobé metriky (15denní retence), Elasticsearch pro logy a události (90denní retence) a PostgreSQL s TimescaleDB rozšířením pro dlouhodobé trendy a reporting (2letá retence). ClickHouse slouží jako analytický engine pro ad-hoc dotazy přes velké objemy historických dat.

Prezentační vrstva je postavena na Grafana s vlastními pluginy vyvinutými CORE SYSTEMS — zejména plugin pro vizualizaci síťové topologie s automatickým layoutem a interaktivní mapový plugin zobrazující pokrytí signálem na podkladu mapy ČR.

Celá platforma je monitorována sama sebou (meta-monitoring) a zálohována pomocí Velero do S3-kompatibilního object storage.

Výsledky¶

Nasazení platformy NetPulse přineslo klient měřitelné výsledky během prvních šesti měsíců provozu:

Provozní efektivita: Průměrná doba identifikace příčiny výpadku (MTTI) klesla z 47 minut na 11 minut díky automatické korelaci alarmů. Celková doba opravy (MTTR) se snížila o 62 %, což přímo ovlivnilo zákaznickou spokojenost a plnění SLA.

Jednotný pohled: NOC operátoři nyní pracují s jedinou konzolí pokrývající všech 12 000+ síťových prvků napříč celou ČR. Geografická vizualizace umožňuje okamžitou identifikaci regionálních problémů a přepínání mezi logickým a fyzickým pohledem na síť.

5G rollout podpora: Platforma poskytla klíčová data pro plánování pokrytí 5G — analýza vytížení stávajících 4G buněk pomohla identifikovat lokality s nejvyšší prioritou pro nasazení 5G. Monitoring network slicingu umožnil operátor nabídnout enterprise zákazníkům garantované SLA parametry.

Kapacitní plánování: Prediktivní modely analyzující trendy ve vytížení síťových prvků dokáží s 89% přesností předpovědět potřebu kapacitního rozšíření 6 týdnů předem, což umožňuje proaktivní plánování investic.

Finanční dopad: Úspora 8,5 mil. Kč ročně na provozních nákladech NOC díky automatizaci rutinních úkonů a snížení počtu falešných alarmů o 74 %. Redukce eskaleních případů na 2. a 3. úroveň podpory o 41 %.

Automatizace: Platforma automaticky řeší 23 % běžných incidentů bez zásahu operátora — například automatický restart služeb, přepnutí na záložní trasy nebo eskalace na vendora s kompletním diagnostickým balíčkem.

Technologie¶

Projekt NetPulse využívá moderní technologický stack optimalizovaný pro vysoký throughput a nízkou latenci:

Apache Kafka — messaging backbone, 2M+ zpráv/s, geo-replikace mezi DC Praha a Brno
Apache Flink — stream processing, korelace událostí, real-time analytika
Prometheus + Thanos — sběr a dlouhodobé ukládání metrik s globálním query view
Elasticsearch — full-text vyhledávání v logech, alerting na bázi Watcher
Grafana — vizualizace a dashboarding s custom pluginy pro telco specifika
PostgreSQL + TimescaleDB — relační data, inventář, konfigurační databáze
ClickHouse — OLAP analytika nad historickými daty
Kubernetes (OpenShift) — orchestrace kontejnerů v on-premise prostředí
Python — ML modely, datové pipeline, integrační skripty
Ansible + ArgoCD — automatizace nasazení a GitOps workflow

Spolupráce CORE SYSTEMS a klient pokračuje formou dlouhodobého managed service kontraktu zahrnujícího kontinuální rozvoj platformy, trénink ML modelů a podporu při rozšiřování 5G pokrytí.

Výsledky

Snížení MTTR (Mean Time to Repair) o 62 %

Real-time vizibilita napříč 12 000+ síťovými prvky

Úspora 8,5 mil. Kč ročně na provozních nákladech NOC

Technologie

KafkaGrafanaPrometheusKubernetesPythonElasticsearchPostgreSQLApache Flink