Incident Management: Was ist das eigentlich?

Jede*r Admin kennt das unheilverkündende "Ping" im Maileingang, wenn eine neue Meldung über den Servicedesk reingeflattert ist, oder das Klingeln des Telefons, am anderen Ende die raue Stimme eines Kollegen: "Hier geht überhaupt nichts mehr". Ein Incident (oder zu Deutsch: ein Vorfall) ist eine ungeplante oder drohende Störung eines IT-Services. Solche Ausfälle können für Unternehmen nicht nur richtig teuer, sondern sogar existenzgefährdend sein. Hier ein paar Beispiele:

Ein zweistündiger Ausfall des Apple-Stores im März 2015 kostete das Unternehmen 25 Millionen US-Dollar.
Delta Airlines musste im August 2016 aufgrund eines fünfstündigen Stromausfalls in einem Operations Center 2.000 Flüge stornieren und einen geschätzten Verlust von 150 Millionen US-Dollar einstecken.
Ein mehr als siebenstündiger weltweiter Totalausfall der sozialen Netzwerke Facebook, Whatsapp und Instagram im Oktober 2021 kostete Mark Zuckerberg über 7 Milliarden US-Dollar.

Nun gut, das sind alles Großunternehmen. Zwar müssen sie aufgrund ihres guten Finanzpolsters bei solchen Vorfällen nicht um ihre Existenz bangen – schmerzlich ist es trotzdem.

Welche Faktoren beeinflussen die Verlusthöhe bei einem Vorfall?

Aber nun stelle dir einmal vor, was größere IT-Vorfälle bei mittleren und kleineren Unternehmen verursachen können. Auch wenn die Verluste bei einem Vorfall hier geringer einzustufen sind, können sie dennoch größere Auswirkungen auf das Geschäftsergebnis haben.

Neben der Unternehmensgröße beeinflussen Faktoren wie die Branche oder das Geschäftsmodell die Höhe der Verluste durch Vorfälle. So sind Branchen wie das Bank- bzw. das Finanzdienstleistungswesen, Behörden, das Gesundheitswesen, die Fertigung, Medien- und Kommunikationsdienste, der Einzelhandel sowie Transport- und Versorgungsunternehmen einem besonders hohen Risiko ausgesetzt, sollte sich ein größerer Vorfall ereignen.

Für den Punkt Geschäftsmodell gilt: Je mehr dein Geschäftsmodell auf Verfügbarkeit ausgerichtet ist, desto mehr hast du bei Ausfällen zu verlieren. Ein einleuchtendes Beispiel: Eine E-Commerce-Website ohne physische Vertriebsstandorte wird von einem Web-Ausfall wesentlich härter getroffen als ein Unternehmen mit physischen Vertriebsstandorten/Filialen.

Und wie hoch sind die tatsächlichen Gesamtkosten von Ausfällen?

Ein Vorfall hat viel weitreichendere Folgen, als du vielleicht annimmst: Tatsächlich entsprechen die Ausfallkosten keineswegs nur den verlorenen Einnahmen. Indem die üblichen Unternehmensabläufe unterbrochen werden, entstehen außerdem Imageschäden, User können das Produkt gar nicht oder nur eingeschränkt nutzen, und schlimmstenfalls führt der Ausfall dazu, dass Kunden abwandern.

Außerdem können auch interne Produktivitätseinbußen als Verluste gezählt werden. Das betrifft das IT-Team, das den Vorfall beheben soll, aber auch andere Teams, die z. B. den Vorfall kommunizieren oder nun mit Kunden in den Austausch treten müssen. Wenn es sich um einen internen Vorfall handelt, kann es passieren, dass dadurch sämtliche Mitarbeiter*innen von ihrer Arbeit abgehalten werden.

Vor allem Softwareanbieter müssen im Worst Case sehr tief in die Tasche greifen, da Geldstrafen aufgrund von Verletzungen der SLAs, staatliche Bußgelder (bei Verstößen gegen behördliche Vorgaben), Rechtsstreitigkeiten und Ausgleichszahlungen hohe finanzielle Belastungen darstellen. Dahingegen sind für Unternehmen, die mit physischen Produkten handeln, niedrige Lagerbestände ein erhebliches Risiko.

Du siehst: IT-Ausfälle sind ein echtes Problem für Unternehmen. Daher haben viele ITSM-Teams einen festen Prozess etabliert, durch den sie Vorfälle schon im Keim ersticken oder zumindest möglichst schnell beheben wollen. Und mit genau diesem Prozess beschäftigt sich das Incident Management!

Incident Management: Was ist das genau?

Atlassian definiert Incident Management als “the process used by development and IT operations teams to respond to an unplanned event or service interruption and restore the service to its operational state.” Als Bestandteil des IT-Service-Managements hat das Incident Management das Ziel, den Betrieb von Services schnellstmöglich wiederherzustellen, indem die Störung behoben wird. Im Mittelpunkt steht dabei, die durch einen Vorfall ausgelösten Auswirkungen auf ein Unternehmen weitestgehend zu minimieren.

Vorfälle sind Atlassian zufolge “events of any kind that disrupt or reduce the quality of service (or threaten to do so). [...] Incidents can vary widely in severity, ranging from an entire global web service crashing to a small number of users having intermittent errors.” Ein Vorfall gilt als gelöst, sobald der betroffene Service wieder normal funktioniert.

Doch wie reagieren ITSM-Teams typischerweise auf einen Vorfall?

Der Incident-Management-Zyklus – ein Prozess, unterteilt in 5 Phasen

Damit Vorfälle schnell erkannt, behoben und nachbereitet werden können, braucht es einen festen Prozess innerhalb eines Teams. Dieser kann als fortwährender Zyklus angesehen werden und umfasst idealerweise die folgenden fünf Phasen:

Vorbereitung: Hier spielt ihr “Was-wäre-wenn”-Szenarien durch, definiert Prozesse dafür und packt einen “Notfallkoffer”. Dazu gehören z. B. Incident-Response-Pläne, Kontaktlisten, Bereitschaftspläne, Eskalationsrichtlinien, Zugangscodes, Compliance-Vorschriften oder technische Dokus.
Erkennung und Alarmierung: Wie wird dein Team über eine Störung informiert? Moderne Incident-Management-Tools helfen dir dabei, sofort zuverlässige Warnmeldungen zu erhalten, deren automatisierte Alarmierungs-Workflows auf Alarmtypen, Teamplänen und Eskalationsrichtlinien basieren.
Eingrenzung: Nachdem der Vorfall identifiziert wurde, gilt es, ihn einzugrenzen und zu separieren. Zunächst muss der Umfang des Vorfalls möglichst klein gehalten werden – erst zu einem späteren Zeitpunkt geht es um eine vollumfängliche Lösung. Schon in dieser Phase sollte offen und transparent mit den betroffenen Kunden kommuniziert werden.
Wiederherstellung: In dieser Phase geht es um die effektive und langfristige Problembehebung. Welche Ursachen haben den Vorfall ausgelöst? Mit welchen Maßnahmen kann ein erneutes Auftreten verhindert und das System sicherer gemacht werden?
Analyse: Eine Post-Mortem-Analyse bietet deinem Team die Möglichkeit, aus dem Vorfall für die Zukunft zu lernen. Eine solche Analyse bezieht sich nicht nur auf die systemischen Ursachen des Vorfalls, sondern auch auf dessen Behebungsprozess. Daraus entstehen z. B. verbesserte Workflows oder Referenzmaterial für künftige Vorfallszenarien.

Du willst dich noch intensiver mit dem Incident-Management-Zyklus befassen? In diesem früheren Artikel werden die einzelnen Phasen im Detail erklärt!

Welche Tools brauchst du für ein wirksames Incident Management?

Um effektives Incident Management anbieten zu können, sollten deine ITSM-Teams mit den passenden Tools ausgestattet sein. Je nachdem, in welcher Phase deines Incident-Management-Zyklus du dich gerade befindest, empfehlen sich unterschiedliche Tools – z. B. Jira Service Management (JSM), Opsgenie oder Statuspage. Sie unterstützen dich mit unterschiedlichen Funktionen dabei, Vorfälle schnell zu identifizieren, zu kommunizieren und zu dokumentieren, wodurch du Ausfallzeiten und Kosten minimieren kannst.

Welches Tool sich für welchen Vorgang innerhalb deines Prozesses eignet und wofür es nützlich ist, erfährst du in der nachfolgenden Tabelle. Wenn du noch mehr über die einzelnen Incident-Management-Tools und deren Funktionen wissen willst, kannst du dich hier noch tiefer in das Thema einlesen.

Schon gewusst? Es gibt eine Confluence-Anbindung in Opsgenie für Post-Mortems. Die Reports werden direkt in Opsgenie erstellt und lassen sich dann nach Confluence übertragen. Wenn du einen Vorfall oder dessen Analyse dokumentieren oder Known Errors und Workarounds schriftlich festhalten willst, eignet sich die Confluence-Integration für Jira Service Management.

5 Learnings: Minimiere Ausfallkosten mit einem guten Incident Management

Ein effektives Incident Management ist für jedes Unternehmen unerlässlich, denn: Zwar sind Vorfälle und damit verbundene Ausfallzeiten nicht planbar, doch kannst du mit einem klar definierten Prozess sowie geeigneten Tools schnell und wirksam auf Vorfälle reagieren – und gleichzeitig verhindern, dass die Kosten in die Höhe schießen. Daher hier zum Abschluss noch fünf konkrete Learnings, mit denen du das Risiko für Ausfallzeiten eingrenzen sowie Ausfallkosten minimieren kannst:

Erstelle detaillierte Disaster-Recovery-Pläne: Was müssen du und dein Team bei einem Ausfall tun? In diesen Plänen stehen alle Anweisungen und Schritte, wie ihr auf einen Vorfall reagieren solltet.
Kommuniziere klar und oft: Dies gilt nicht nur für den Austausch im Team, sondern vor allem für die Kommunikation mit den betroffenen Kunden. Da Transparenz gerade in (chaotischen) Notfallsituationen wichtig ist und Vertrauen schafft, ist es sinnvoll, sich an einem Kommunikationsplan orientieren zu können.
Eliminiere Single Points of Failure: Beseitige Bestandteile aus deiner bestehenden Infrastruktur und deinen aktuellen Prozessen, die bei einem Ausfall den Ausfall des gesamten Systems nach sich ziehen. Gleiche z. B. Lasten zwischen Servern aus, integriere ausfallsichere Lösungen in deine Deployments und halte dich an gute Backup-Verfahren und Peer-Reviews.
Priorisiere Prävention: Vorfälle können nicht immer vermieden werden, doch kannst du ihr Auftreten durch Prävention minimieren. So solltest du veraltete Systeme und Sicherheitsfunktionen ersetzen und Probleme beheben, bevor diese sich zu ausgewachsenen Vorfällen entwickeln.
Übergehe keine Post-Mortem-Analysen: Ein bestimmter Vorfall sollte sich kein zweites Mal ereignen. Um dem entgegenzuwirken, solltest du immer eine Post-Mortem-Analyse durchführen. Gleichzeitig kannst du durch diese intensive Aufarbeitung für zukünftige Vorfälle lernen.

Quellen – Atlassian:
https://www.atlassian.com/de/incident-management
https://www.atlassian.com/de/incident-management/kpis/cost-of-downtime
https://www.atlassian.com/de/incident-management/tools
https://www.atlassian.com/de/incident-management/handbook#what-is-an-incident