Wenn ein IT-Vorfall auf schlechte Prozesse trifft
Ein erstes Ticket trudelt im Kundenportal ein, dann öffnen sich die Fluttore – immer mehr User melden Störungen. In schlecht vorbereiteten Teams bricht Hektik aus und teilweise macht sich Aktionismus breit. Die Kundenbetreuerin schlägt Alarm und aktiviert das Team, nur um festzustellen, dass bereits andere Personen daran arbeiten. „Viel hilft viel!“ lautet das Motto, auch wenn es bedeutet, dass zu viele oder die falschen Personen im Boot sitzen.
Während die Admins an der Lösung arbeiten, fehlen der Kundenbetreuerin klare Informationen. Ihre Nachfragen führen zu gestressten Reaktionen: „Soll ich jetzt mit dir reden oder das Problem lösen?“ Die Situation ist für alle belastend – die Kunden, die nicht arbeiten können, die Betreuerin, die keine Antworten hat, und die Admins, deren Konzentration gestört wird.
Am Ende ist das Problem behoben, aber Unzufriedenheit bleibt. Wie lässt sich ein solches Chaos künftig vermeiden? Die richtigen Automatisierungen im Incident-Management können Vorfällen viel von ihrer Schroffheit nehmen!
Modernes Incident-Management braucht Automatisierung
Ein professionelles Incident-Management hat das oberste Ziel, schnell und effektiv auf Vorfälle zu reagieren und die betroffenen Services oder Systeme so rasch wie möglich vollumfänglich wiederherzustellen. Dafür sind Prozesse nötig, in denen viele Räder möglichst ohne Reibungsverluste ineinander greifen.
Deshalb nutzen moderne Incident-Management-Teams Automatisierungen, um strukturierte Abläufe aufzusetzen, Reaktionen zu beschleunigen und Verzögerungen durch menschliche Fehler zu vermeiden. Automatisierte Schritte fördern eine bessere Koordination, mehr Transparenz und schnellere Lösungen.
Sehen wir uns einige Prozessabschnitte an, in denen die Incident-Management-Teams, die Stakeholder und letztlich die Kunden dramatisch von Automatisierungen profitieren.
Alarmierung mit System
Eine wichtige Ebene der Automatisierung besteht darin, die Überwachung der IT-Systeme und die Alarmierung im Störfall in einen selbstlaufenden Prozess zu überführen. Dafür bietet sich beispielsweise die Lösung Opsegenie an.
Mithilfe von Konnektoren integriert Opsgenie die unterschiedlichen Monitoring-Tools und zentralisiert ihre Warnungen und Störungsmeldungen. (Es gibt mehrere hundert Integrations für Opsgenie, die alle gängigen Monitoring-Lösungen umfassen.) Im Fall eines Problems gewährleisten zentralisierte Bereitschaftspläne, dass die richtigen Leute Benachrichtigungen erhalten, ohne dass erst ein Teammitglied manuell aktiv werden muss. Die passenden planmäßigen Verantwortlichen werden also automatisch informiert.
Hier legt das Incident-Team im Vorfeld fest, auf welchen Wegen diese Benachrichtigungen erfolgen sollen, beispielsweise per Mail, Telefon, SMS. Außerdem sind unterschiedliche Eskalationsstadien flexibel konfigurierbar, die greifen, sobald der Prozess ins Stocken zu geraten droht.
Ist zum Beispiel eine vorgesehene Person über einen festgelegten Kommunikationskanal nicht erreichbar? Dann versucht das System es auf einem alternativen Weg oder bei einem anderen Teammitglied: Opsgenie lässt nicht locker, bis das Team Bescheid weiß und mit der Problemlösung beginnt.
Sichtbarkeit im gesamten Incident-Management-Zyklus
Wenn du dir das hypothetische Eingangszenario noch einmal vor Augen führst – die Kunden sind ahnungslos, die Kundenbetreuerin sucht händeringend nach Infos, der tatsächliche Status quo ist nirgends ersichtlich –, wird schnell klar, wie wichtig Transparenz für einen guten Incident-Management-Prozess ist.
Erfahrene Incident-Management-Teams nutzen Tools, die nicht nur die Eskalation eines Problems automatisieren, sondern auch die eigentliche Bearbeitung für alle Beteiligten zentral sichtbar machen, also für die eingebundenen technischen Teams ebenso wie für Stakeholder – in unserem Fall die verzweifelte Kundenbetreuerin.
Welche Teams oder Personen sind momentan mit dem Vorfall beschäftigt? Welche Maßnahmen laufen aktuell? Stakeholder können solche Einzelheiten in Echtzeit im System verfolgen und verfügen zu jedem Zeitpunkt über valide Informationen über den Stand der Dinge.
Zur Transparenz gehört außerdem die Kommunikation nach außen. Wenn Kunden im Fall eines Incidents im Dunkeln tappen und im Stich gelassen werden, entwickelt sich aus Verwirrung rasch Verärgerung – mit vielerlei unerwünschten, weitreichenden Konsequenzen. Eine offene Kommunikation des Incident-Teams hilft, Vertrauen zu bewahren und Folgeschäden einzudämmen.
Öffentliche Statusseiten, Status-Widgets in der Web-Anwendung, Social-Media-Posts, Beiträge in einschlägigen Foren – all diese Mitteilungen kann das Team mit einem Tool wie Statuspage zentral steuern und auf diese Weise effizient öffentliche Sichtbarkeit schaffen. Das spart Zeit, die im Zweifel mit der Suche nach Zugangsdaten für ein bestimmtes Profil verschwendet wird, und vermeidet zudem, dass das Team Kanäle vergisst und nicht adäquat bedient.
Valide Daten als Analysebasis
Modernes Incident-Management ist ein Zyklus, der in seinem fünften Stadium das Lernen umfasst, um für künftige Vorfälle besser gerüstet zu sein. Für solche sogenannten Postmortem-Analysen braucht das Team freilich belastbare Daten und eine Software, die eine strukturierte Nachuntersuchung unterstützt.
Opsgenie bietet detaillierte, automatisch generierte Reports, die eine solche Datenbasis bereitstellen und die Analyse erleichtern. Das Tool trackt sämtliche Aspekte, die im Zusammenhang mit Alarmierungen und Incidents stehen. Aus diesen Daten erstellt Opsgenie per Klick konsistente, einfach lesbare Postmortem-Basisdokumente mit den Schlüsselinformationen zum Vorfall. Das Team hat die Möglichkeit, dieses Dokument zu editieren, Notizen hinzuzufügen und eigene Ergänzungen vorzunehmen, sodass schließlich ein umfassender individueller Report entsteht.
Für die Erstellung des eigentlichen Postmortem-Dokuments gibt es eine praktische Confluence-Vorlage, mit der das Team auf Knopfdruck einen hilfreichen Rahmen aufsetzen kann, um die Auswertung und die Learnings an zentraler Stelle abzubilden. Folgeaufgaben, die sich daraus ergeben, legt das Team aus Confluence heraus in einer verknüpften Jira-Instanz an, sodass die nachgelagerten To-dos nicht in der Versenkung verschwinden, sondern direkt in die Workflows des Teams integriert werden.
Modernes Incident-Management mit Atlassian
Mit den richtigen Tools und durchdachten Automatisierungen wird das Incident-Management zu einem konzentrierten, systematischen Prozess, der es dem Team ermöglicht, sich auf das Wesentliche zu fokussieren: die schnelle Lösung des Problems.
Möchtest du mehr darüber wissen, wie die bewährten Service-Management-Lösungen von Atlassian deine Teams bei der Incident-Bearbeitung und anderen Service-Management-Praktiken unterstützen? Dann melde dich bei uns: Unsere erfahrenen Fachleute freuen sich darauf, mit dir über Service-Management ins Gespräch zu kommen!