Nagios ist nach wie vor der König des Monitorings. Für unsere Bedürfnisse — eine heterogene Umgebung mit Dutzenden von Servern, Datenbanken und Application Servern — ist Nagios mit seinem Plugin-Ökosystem ungeschlagen. Aber einen Java Application Server zu überwachen bedeutet mehr als nur zu prüfen, ob ein Port antwortet.
JMX-Monitoring¶
Das check_jmx-Plugin verbindet sich über den JMX-Port (SSL) mit GlassFish und liest Metriken: Heap Memory, Thread Count, Loaded Classes, GC Time, Connection Pool Utilization, Session Count.
Custom Plugins für Business-Metriken¶
Perl-Plugins prüfen die Anzahl der pro Stunde verarbeiteten Bestellungen, messen die Antwortzeit von SOAP-Endpunkten und prüfen das Alter des letzten Eintrags im Audit-Log. Business-Monitoring ist das, was der Kunde wirklich schätzt.
Alerting und Eskalation¶
Ein dreistufiges Modell: WARNING = E-Mail ans Team. CRITICAL = SMS an den Bereitschaftsadmin (30 Minuten Reaktionszeit). CRITICAL länger als 30 Minuten = Eskalation an einen Senior-Admin. Bereitschaftsrotation wöchentlich — einschließlich Entwickler, um sie zu motivieren, stabilen Code zu schreiben.
SLA-Reporting¶
Monatlicher Report aus Nagios-Verfügbarkeitsdaten. Wir erreichen konstant 99,5 % Verfügbarkeit dank Monitoring und schneller Reaktion.
Erkenntnisse¶
Monitoring ist kein Nice-to-have, es ist ein Must-have. Die Investition amortisiert sich beim ersten Incident, den man vor dem Kunden entdeckt.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns