Zwei Jahre lang haben wir Incidents so bearbeitet, wie es uns gerade passte. Keine Erfassung, keine Metriken. Bis ein Kunde einen SLA-Report verlangte — den es nicht gab.
Klassifizierung¶
P1 Critical: Reaktion 15 Min., Lösung 4 Std. P2 High: 30 Min./8 Std. P3 Medium: 2 Std./3 Tage. P4 Low: 1 Tag/2 Wochen.
JIRA-Workflow + Nagios-Integration¶
Benutzerdefinierter Issue-Typ „Incident” mit Workflow und SLA-Plugin. Ein CRITICAL-Alert von Nagios erstellt automatisch einen JIRA-Incident über die REST-API.
Postmortem¶
Jedes P1/P2: Was ist passiert? Warum? Was werden wir tun? Wir suchen nach systemischen Ursachen, nicht nach Schuldigen. Innerhalb von 48 Stunden abgeschlossen.
Ergebnisse¶
SLA-Einhaltung: 94 Prozent. MTTR P1: von 6 Stunden auf 2,5 gesunken. Wiederkehrende Incidents: -30 Prozent.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns