Disaster Recovery und Atlassian Data Center

Auch ITSM-Teams brauchen „Fluchtwege“ und „Notfallkoffer“

Jedes Bürogebäude, jede Produktionsanlage, jede Schule ist für Notfälle ausgestattet. Es gibt ausgewiesene Notausgänge, Rauchmelder in jedem Raum, Erste-Hilfe-Kästen an zentralen Stellen und so weiter. Auch wenn der Ernstfall unwahrscheinlich ist und hoffentlich nie eintritt, sollen die Menschen, wenn es darauf ankommt, gerüstet sein.

Verantwortungsvolle IT-Teams denken ähnlich. Natürlich wollen sie nicht den Teufel an die Wand malen und Katastrophen herbeireden. Doch ein modernes IT-Servicemanagement umfasst die Verantwortung, den Anwendern funktionierende, verfügbare Software-Systeme zur Verfügung zu stellen.

Keine Organisation ist vor schweren IT-Vorfällen gefeit, für die diverse Ursachen denkbar sind – von Cyber-Angriffen über Hardware-Schäden bis zu Bränden oder Überschwemmungen. Im Zweifel können solche Ereignisse unabsehbare Folgen haben und ein Unternehmen von einem Moment auf den anderen an den Rand der Funktionsfähigkeit (und darüber hinaus) katapultieren.

Deshalb hat es nichts mit Panikmache und Schwarzmalerei zu tun, wenn Organisationen sich auf Notfälle vorbereiten. Im IT-Jargon spricht man von „Disaster Recovery“. Dabei geht es darum, Prozesse, Werkzeuge und infrastrukturelle Voraussetzungen bereitzuhalten, die es ermöglichen, nach einem katastrophalen Ereignis schnell wieder auf die Beine zu kommen und den produktiven Betrieb fortsetzen zu können.

Disaster Recovery ermöglichen: Cold-Stand-by-Instanzen für Atlassian Data Center

Eine solche Notfallplanung kann für geschäftskritische Applikationen, auf die die Mitarbeiter*innen angewiesen sind, von entscheidender Bedeutung sein. Das gilt nicht zuletzt für die Atlassian-Anwendungen, mit denen die Teams ihre Projekte planen und ihre Aufgaben organisieren (Jira), ihre Inhalte dokumentieren (Confluence) oder ihre Code-Repositories verwalten (Bitbucket).

Die Lösungen der Produktreihe Atlassian Data Center bieten Administrator*innen nativ die Option, sogenannte Cold-Stand-by-Instanzen der Systeme einzurichten. Diese können, falls die Primärsysteme ausfallen, innerhalb kurzer Zeit den Betrieb übernehmen. Admin-Teams sind also in der Lage, die Anwendungen mit all ihren Daten auch angesichts schwerwiegender Vorfälle oder Havarien rasch wieder an den Start zu bringen und die Verfügbarkeit sicherzustellen, wenn die Primärinstanzen nicht mehr funktionieren.

Was sollten ITSM-Teams bei der Entwicklung einer solchen Failover-Strategie beachten?

Konfiguration und Datenreplikations-Strategie

Cold-Stand-by-Instanzen helfen dabei, die Systemkontinuität und eine kurze Wiederherstellungszeit zu gewährleisten. Zunächst muss das Admin-Team ein Stand-by-System konfigurieren. Der nächste Schritt besteht darin, eine Strategie zur Datenreplikation aufzusetzen.

Eine möglichst redundante Datenhaltung am Stand-by-Standort ist für eine wirksame Failover-Strategie extrem wichtig, denn beim Wechsel auf die Stand-by-Instanz sollen die User ja sofort produktiv weiterarbeiten können. Dann wäre es natürlich ungünstig, veraltete und unvollständige Informationen vorzufinden oder erst einmal eine langwierige Neuindizierung der Datenbank vornehmen zu müssen.

Praxis zum Aufdecken von Schwachstellen

Verantwortungsvolle Brandschutzbeauftragte oder Ersthelfer*innen legen Wert auf regelmäßige Übung und Praxis, damit die Dinge im Fall der Fälle möglichst reibungsarm und geordnet ablaufen. Das ist für Disaster-Recovery-Pläne ebenfalls eine gute Idee, denn: Die initiale Vorbereitung mit den theoretischen Abläufen ist eine Sache, die Umsetzung (und das unter Hochdruck und Stress) eine andere.

Die Alternative bestünde darin, bis zum tatsächlichen Eintreten einer Havarie zu warten, um zu evaluieren, ob die Failover-Strategie wie gewünscht funktioniert. Erst die Praxis zeigt Schwachpunkte, Probleme und Hürden auf, die die Bereitstellung der Stand-by-Systeme im Ernstfall womöglich dramatisch verzögern würden.

Absicherung durch geographische Verteilung

Je nachdem, wie die Organisation aufgebaut ist, kann der Standort ein wesentlicher Einflussfaktor für die Wirksamkeit eines Disaster-Recovery-Plans sein. Bei einem Brand ist jede Failover-Strategie wertlos, wenn die Stand-by-Instanzen im selben Gebäude stehen wie die Primärsysteme.

Unternehmen, die über mehrere Standorte verteilt sind, sind gut beraten, ihre Primär- und Stand-by-Systeme geographisch getrennt zu betreiben. Für Organisationen, die das aufgrund ihrer Struktur nicht können, ist es erwägenswert, sich abzusichern, indem sie das Hosting und den Betrieb der Data-Center-Systeme auslagern.

Wir bieten Kunden umfangreiche Betriebspakete für ihre Atlassian-Produkte an. Das hat Vorteile auf zwei Ebenen: Einerseits entlastet die Auslagerung die administrativen Teams von zeit- und ressourcenfressenden Routineaufgaben. Andererseits stellt der externe Betrieb auf lange Sicht ein höheres Maß an Sicherheit und Verfügbarkeit her.

Hast du Fragen zum Betrieb der Data-Center-Produkte von Atlassian? Gerne besprechen wir mit dir und deinem Team eure Anforderungen und Wünsche. Melde dich einfach bei uns! Und falls du tiefer in die Welt des modernen IT-Servicemanagements einsteigen möchtest, haben wir noch mehr Lesestoff für dich: Lade dir jetzt unser neues Whitepaper „Wie funktioniert IT-Servicemanagement?“ herunter!