Was ist IT-Problem-Management? Den tiefen Ursachen von IT-Vorfällen auf der Spur

ITSM Problem-Management

Heutige IT- und Software-Infrastrukturen sind komplexer als je zuvor. Vielfältige Räder greifen ineinander, Teams liefern iterative Änderungen so schnell und häufig wie nie aus, monolithische Produkte sind Microservice-Architekturen gewichen. Deshalb ist es zwangsläufig und unvermeidbar, dass häufiger Probleme auftreten, denn Komplexität geht immer mit Überraschungen und unvorhergesehenen Ereignissen einher.

Leider gehören auch IT-Incidents wie Störungen oder Ausfälle zu den unvermeidlichen Erscheinungen in Organisationen. Dieser Realität müssen sich Unternehmen stellen: Die Frage ist nicht, ob ein Incident eintritt, sondern wann das geschieht und wie schwerwiegend er ist.

Das ändert natürlich nichts an der Tatsache, dass IT-Vorfälle mit den damit verbundenen Ausfallzeiten für das Unternehmen nicht nur teuer sind; sie kosten auch Reputation und Kundenvertrauen. Deshalb haben moderne ITSM-Teams systematische Methoden etabliert, die einen effektiven und effizienten Umgang mit Incidents und ihren zugrundeliegenden Problemen gewährleisten. Einer dieser Ansätze aus dem Werkzeugkasten, den das ITIL-Framework bereitstellt, ist das Problem-Management.

Der Zweck des Problem-Managements

Ein systematisches Problem-Management als Bestandteil eines umfassenden IT-Service-Managements hat das Ziel, standardisierte Abläufe zur Analyse von Incidents und IT-Prozessen zu etablieren, um künftige ähnlich gelagerte Vorfälle zu vermeiden und potenzielle Gefahrenquellen zu eliminieren. Insbesondere geht es darum, die tieferliegenden Gründe für einen Vorfall zu ermitteln, sie zu verstehen und den besten Ansatz zu identifizieren, um diese Ursache ein für allemal zu beseitigen.

Durch diese Praxis wollen ITSM-Teams dem Auftreten reproduzierbarer Incidents vorbeugen und die Auswirkungen von Vorfällen, die sich nicht verhindern lassen, so gering wie irgend möglich halten. Aber ist das nicht bereits die Aufgabe des Incident-Managements?

Die Differenzierung zwischen Incident-Management und Problem-Management

Worin bestehen die Unterschiede zwischen Incident- und Problem-Management? Beide Praktiken drehen sich um Vorfälle und Störungen und weisen diverse Überschneidungen auf. Doch im Kern behandeln sie unterschiedliche Ebenen. Das Incident-Management ist die Feuerwehr; sie setzt direkt beim Vorfall an.

Hier geht es erst einmal mit höchster Priorität darum, den Incident schnell zu beheben, seinen Wirkungsbereich möglichst einzugrenzen und den betroffenen Service wieder vollumfänglich herzustellen. Dem folgen die Analyse und Nachbetrachtung, beispielsweise in Form von Post-mortem-Dokumenten. Und dort knüpft das Problem-Management an: Denn hier geht es dann um die tiefergehenden Ursachen eines Vorfalls, also die Analyse und Lösung des eigentlichen Problems.

Die oberflächliche Ursache eines Vorfalls ist meist schnell identifiziert: Oft erweist sich eine triviale Einstellung, ein Konfigurationsfehler, ein fehlerhafter Commit als offensichtlicher Übeltäter. Doch nur selten ist ein Vorfall tatsächlich auf einen einzelnen, strikt isoliert zu betrachtenden Grund zurückzuführen – und die initial erkannte Ursache ist oft nur der Tropfen gewesen, der das Fass zum Überlaufen gebracht hat. Der Vorfall mag fürs Erste behoben sein, doch das Problem besteht weiterhin.

Es ist die Aufgabe des Problem-Managements, diesen tiefen Ursachen mit ihren begünstigenden Aspekten analytisch auf den Grund zu gehen und sie aus der Welt zu schaffen. Kann ein ähnlicher Incident erneut auftreten? Welche Faktoren fördern ihn? Das sind die zentralen Fragen, auf die das Problem-Management Antworten finden soll.

Gibt es einen Prozess?

Das ITIL-Framework sieht in der aktuellen Iteration (Version 4) keinen strikt definierten Prozess mehr vor. Vielmehr sollen ITSM-Teams die Praxis in einer Form adaptieren, die zu ihren spezifischen Services, Rahmenbedingungen, Systemen und Tools passt. Doch Teams fahren erfahrungsgemäß gut, wenn sie in ihrem Problem-Management einen Mix aus reaktiven und proaktiven Elementen adaptieren.

Beim reaktiven Problem-Management greift der oben bereits beschriebene Ansatz: Ein Vorfall ist aufgetreten oder eine potenzielle Herausforderung oder Schwachstelle wurde erkannt. Nun ist eine tiefschürfende Analyse notwendig, die darin münden sollte, eine möglichst dauerhafte Lösung zu implementieren. Dadurch will das Team sicherstellen, dass ähnlich gelagerte Incidents künftig vermieden werden beziehungsweise dass aus der erkannten Gefahr kein tatsächlicher Vorfall erwächst.

Das proaktive Problem-Management braucht hingegen keinen externen Anstoß, sondern erfolgt aus sich selbst heraus, um potenzielle Risiken zu finden und zu eliminieren, sodass aus ihnen keine Vorfälle entstehen können. Dieser Ansatz ist als fortlaufende Maßnahme zu verstehen. Er kann beispielsweise die regelmäßige Analyse von Incident-Aufzeichnungen, Logs und Daten aus anderen ITSM-Prozessen umfassen mit dem Ziel, Muster zu ermitteln und Auffälligkeiten zu identifizieren, die das Potenzial haben, sich zu größeren Herausforderungen zu entwickeln.

Atlassian-Tools im Incident- und Problem-Management

Das alles geht freilich nicht ohne unterstützende Software, die nicht nur leistungsstarke Features in den Bereichen Vorfallsbearbeitung, Workflows, Dokumentation und Zusammenarbeit mitbringt, sondern die auch der Individualität des ITSM-Teams mit seinen spezifischen Abläufen gerecht wird.

Die Atlassian-Toolsuite erfüllt diese Anforderungen. So liefert Jira Service Management in Verbindung mit Statuspage und Opsgenie das flexible Rüstzeug für ein methodisches Incident-Management, während Confluence das Wissensmanagement-Tool ist, um gemeinsam Post-mortem-Berichte zu erstellen und zu teilen, die Ursachenforschung zu dokumentieren und die kontinuierlichen, proaktiven Analysetätigkeiten des Teams zentral verfügbar zu machen.

Whitepaper ITSMMöchtest du mehr darüber erfahren, wie Jira Service Management und Confluence ITSM-Prozesse unterstützen und Teams zu mehr Effektivität und Effizienz verhelfen? Dann melde dich bei uns: Gerne diskutieren unsere Expert*innen mit dir die Anwendungsfälle und Anforderungen deines Unternehmens im Hinblick auf ein modernes IT-Service-Management!

PS: Viele Tipps und Informationen zum Thema findest du auch in unserem Whitepaper "Wie funktioniert IT-Service-Management?", das du hier herunterladen kannst.

Weiterführende Infos

SOS, IT! Was ist eigentlich Incident Management? Und welche Tools können dich dabei unterstützen?
ITSM, ITIL und DevOps: Was ist was? Fachchinesisch für IT-Newbies einfach erklärt
Inventur 24/7: Was ist eigentlich IT-Asset-Management?

Spacecraft - The ultimate theming tool for Confluence Spacecraft - The ultimate theming tool for Confluence Spacecraft - The ultimate theming tool for Confluence