Výzva¶
klient, největší český telekomunikační operátor s více než 8 miliony zákazníků, stál v roce 2024 před zásadní výzvou. Společnost připravovala masivní rollout 5G sítě napříč celou Českou republikou a současně potřebovala modernizovat svou stávající infrastrukturu pro monitoring sítě. Dosavadní řešení, postavené na kombinaci proprietárních nástrojů a interně vyvinutých skriptů, naráželo na své limity.
Hlavní problémy zahrnovaly fragmentovanou viditelnost síťové infrastruktury — data z různých segmentů sítě (přístupová síť, transportní síť, páteřní síť, mobilní RAN) byla uložena v oddělených systémech bez jednotného pohledu. Operátoři v Network Operations Center (NOC) museli přepínat mezi pěti různými konzolemi, aby diagnostikovali jediný incident. Průměrná doba identifikace příčiny výpadku (MTTI) dosahovala 47 minut, což bylo pro plánovanou 5G síť s přísnými SLA naprosto nepřijatelné.
S příchodem 5G se navíc exponenciálně zvyšoval počet síťových prvků — tisíce small cells, nové gNodeB základnové stanice a edge computing uzly generovaly objem telemetrických dat, který stávající platforma nedokázala zpracovat. operátor potřebovalo řešení schopné zpracovat více než 2 miliony metrik za sekundu s latencí pod 5 sekund.
Vedení operátor oslovilo CORE SYSTEMS s požadavkem na návrh a implementaci jednotné monitorovací platformy nové generace, která by pokryla jak stávající 4G/LTE infrastrukturu, tak připravovanou 5G síť.
Řešení¶
CORE SYSTEMS navrhl a implementoval platformu s názvem NetPulse — centralizovaný monitorovací systém postavený na open-source technologiích s vlastní integrační vrstvou. Klíčovým principem návrhu byla schopnost horizontálního škálování a modulární architektura umožňující postupné připojování nových datových zdrojů.
Řešení bylo rozděleno do čtyř hlavních fází:
Fáze 1 — Data Ingestion Layer: Vybudování univerzální sběrné vrstvy schopné přijímat data z heterogenních zdrojů — SNMP traps, syslog, streaming telemetrie (gNMI/gRPC), NETCONF a proprietární API jednotlivých vendorů (Ericsson, Nokia, Huawei). Všechna data jsou normalizována do jednotného datového modelu a publikována do Apache Kafka clusterů.
Fáze 2 — Stream Processing: Implementace real-time analytického engine na bázi Apache Flink pro korelaci událostí, detekci anomálií a automatickou root cause analýzu. Systém využívá kombinaci pravidlových enginů a ML modelů trénovaných na historických incidentech operátor.
Fáze 3 — NOC Dashboard: Vývoj custom Grafana dashboardů s geografickou vizualizací pokrytí, heat mapami signálu, hierarchickým zobrazením síťové topologie a drill-down funkcionalitou od celkového přehledu až po jednotlivý port na konkrétním zařízení.
Fáze 4 — 5G Integration: Rozšíření platformy o specifické metriky 5G sítě — monitoring network slicingu, edge computing uzlů, beamforming parametrů a handover statistik mezi 4G a 5G.
Architektura¶
Platforma NetPulse běží na Kubernetes clusteru nasazeném v privátním datacentru operátor v Praze s disaster recovery replikou v Brně. Architektura je navržena jako event-driven microservices:
Sběrná vrstva tvoří flotila kolektorů — lehkých kontejnerizovaných agentů specializovaných na jednotlivé protokoly. Každý kolektor implementuje adaptér pro konkrétní typ datového zdroje a transformuje surová data do kanonického formátu (Protocol Buffers). Kolektory běží jako Kubernetes DaemonSety na dedikovaných worker nodech.
Messaging backbone zajišťuje Apache Kafka cluster se 12 brokery, particionovaný podle regionů a typů síťových segmentů. Kafka Streams zpracovává jednoduché transformace a enrichment (přidání geolokace, mapování na inventář), zatímco komplexnější analytika probíhá ve Flink clusteru.
Apache Flink zpracovává korelaci alarmů pomocí sliding window operací — seskupuje související události v časovém okně 30 sekund a identifikuje kořenovou příčinu. ML modely pro detekci anomálií (izolační lesy, LSTM sítě) běží jako Flink UDF funkce a jsou pravidelně přetrénovávány na nových datech.
Datová vrstva kombinuje Prometheus pro krátkodobé metriky (15denní retence), Elasticsearch pro logy a události (90denní retence) a PostgreSQL s TimescaleDB rozšířením pro dlouhodobé trendy a reporting (2letá retence). ClickHouse slouží jako analytický engine pro ad-hoc dotazy přes velké objemy historických dat.
Prezentační vrstva je postavena na Grafana s vlastními pluginy vyvinutými CORE SYSTEMS — zejména plugin pro vizualizaci síťové topologie s automatickým layoutem a interaktivní mapový plugin zobrazující pokrytí signálem na podkladu mapy ČR.
Celá platforma je monitorována sama sebou (meta-monitoring) a zálohována pomocí Velero do S3-kompatibilního object storage.
Výsledky¶
Nasazení platformy NetPulse přineslo klient měřitelné výsledky během prvních šesti měsíců provozu:
Provozní efektivita: Průměrná doba identifikace příčiny výpadku (MTTI) klesla z 47 minut na 11 minut díky automatické korelaci alarmů. Celková doba opravy (MTTR) se snížila o 62 %, což přímo ovlivnilo zákaznickou spokojenost a plnění SLA.
Jednotný pohled: NOC operátoři nyní pracují s jedinou konzolí pokrývající všech 12 000+ síťových prvků napříč celou ČR. Geografická vizualizace umožňuje okamžitou identifikaci regionálních problémů a přepínání mezi logickým a fyzickým pohledem na síť.
5G rollout podpora: Platforma poskytla klíčová data pro plánování pokrytí 5G — analýza vytížení stávajících 4G buněk pomohla identifikovat lokality s nejvyšší prioritou pro nasazení 5G. Monitoring network slicingu umožnil operátor nabídnout enterprise zákazníkům garantované SLA parametry.
Kapacitní plánování: Prediktivní modely analyzující trendy ve vytížení síťových prvků dokáží s 89% přesností předpovědět potřebu kapacitního rozšíření 6 týdnů předem, což umožňuje proaktivní plánování investic.
Finanční dopad: Úspora 8,5 mil. Kč ročně na provozních nákladech NOC díky automatizaci rutinních úkonů a snížení počtu falešných alarmů o 74 %. Redukce eskaleních případů na 2. a 3. úroveň podpory o 41 %.
Automatizace: Platforma automaticky řeší 23 % běžných incidentů bez zásahu operátora — například automatický restart služeb, přepnutí na záložní trasy nebo eskalace na vendora s kompletním diagnostickým balíčkem.
Technologie¶
Projekt NetPulse využívá moderní technologický stack optimalizovaný pro vysoký throughput a nízkou latenci:
- Apache Kafka — messaging backbone, 2M+ zpráv/s, geo-replikace mezi DC Praha a Brno
- Apache Flink — stream processing, korelace událostí, real-time analytika
- Prometheus + Thanos — sběr a dlouhodobé ukládání metrik s globálním query view
- Elasticsearch — full-text vyhledávání v logech, alerting na bázi Watcher
- Grafana — vizualizace a dashboarding s custom pluginy pro telco specifika
- PostgreSQL + TimescaleDB — relační data, inventář, konfigurační databáze
- ClickHouse — OLAP analytika nad historickými daty
- Kubernetes (OpenShift) — orchestrace kontejnerů v on-premise prostředí
- Python — ML modely, datové pipeline, integrační skripty
- Ansible + ArgoCD — automatizace nasazení a GitOps workflow
Spolupráce CORE SYSTEMS a klient pokračuje formou dlouhodobého managed service kontraktu zahrnujícího kontinuální rozvoj platformy, trénink ML modelů a podporu při rozšiřování 5G pokrytí.