Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

SRE — Postmortems Best Practices

26. 04. 2024 1 Min. Lesezeit intermediate

DevOps Fortgeschritten

SRE — Postmortems Best Practices

SREPostmortemIncident ManagementKultur 5 min Lesezeit

Blameless Postmortems in der Praxis. Struktur, Moderation, Aktionspläne und Aufbau einer Lernkultur.

Blameless-Kultur

Ein Postmortem sucht niemals nach Schuldigen. Es sucht nach systemischen Ursachen.

  • Menschen machen Fehler — das ist normal
  • Wenn ein Mensch einen Fehler machen kann, hat das System bei der Prävention versagt
  • Schuldzuweisung → Menschen verbergen Fehler → schlechtere Systeme

Postmortem-Struktur

# Postmortem: API Outage 2026-02-10

## Summary
90-minütiger Ausfall des API Gateway verursacht durch OOM im Envoy Proxy.

## Impact
- Dauer: 90 Min
- Betroffene Benutzer: ~12.000
- Error Rate: 78%

## Timeline (CET)
- 14:25 — Deploy api-gateway v2.3.1
- 14:30 — Alert: ErrorRateHigh
- 14:40 — Diagnostik: Envoy OOMKilled
- 14:55 — Rollback eingeleitet
- 16:00 — Vollständige Wiederherstellung

## Root Cause
Regex-Filter mit exponentiellem Backtracking (ReDoS).

## Action Items
| # | Aktion | Owner | Deadline | Priorität |
|---|--------|-------|----------|-----------|
| 1 | Regex-Komplexitätsprüfung in CI | @platform | 2026-02-17 | P1 |
| 2 | Canary auf 30 Min verlängern | @sre | 2026-02-14 | P1 |
| 3 | Envoy-Memory-Limit senken | @sre | 2026-02-12 | P2 |

Moderation

  1. Meeting innerhalb von 48 Std. nach dem Incident
  2. Moderator ist nicht Incident-Beteiligter
  3. Timeline durchgehen — was geschah, nicht wer
  4. 5x Warum (5 Whys) für die Root Cause
  5. Konkrete Aktionen mit Owner und Deadline definieren
  6. Intern veröffentlichen — Transparenz

Zusammenfassung

Postmortems sind eine Investition in zukünftige Zuverlässigkeit. Blameless-Kultur und konkrete Aktionen helfen der gesamten Organisation beim Lernen.

Brauchen Sie Hilfe bei der Implementierung?

Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.

Kostenlose Beratung

Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.