ADMIN

2025

11

2025-10-28T12:00:00

Disaster Recovery

SCHWERPUNKT

094

Disaster Recovery

Automatisiertes Notfallmanagement

Reaktionsstrategien für Datacenter

Business Continuity Management für den Ernstfall

Shutdown mit System

von Jürgen Kolb

Veröffentlicht in Ausgabe 11/2025 - SCHWERPUNKT

Mit logikbasierter Automatisierung auf Notfälle reagieren zu können, ist nicht nur ein frommer Wunsch von IT-Admins. Die EU-Richtlinie CER schreibt Systeme für Business Continuity Management in kritischen Infrastrukturen bereits seit Oktober 2024 zwingend vor. Was für die Daseinsvorsorge vom Krankenhaus bis zum Abwasserreinigungsunternehmen gilt, ist auch für Datacenter-Betreiber von höchster Wichtigkeit.

Neben der NIS2-Richtlinie im IT-Security-Umfeld trat mit der CER-Richtlinie (EU 2022/2557) auch ein Regelwerk für IT-Resilienz und physische Sicherheit in Kraft. Sie verpflichtet Betreiber kritischer Infrastrukturen, BCM-Systeme (Business Continuity Management) einzuführen, um Ausfallzeiten zu minimieren und Schäden zu begrenzen. Auch Unternehmen außerhalb der KRITIS – insbesondere Rechenzentrumsbetreiber – profitieren von solchen Werkzeugen.
Trotz laufender Umsetzung führen Krisenursachen wie Naturkatastrophen, Sabotage oder Terroranschläge weiterhin täglich zu IT-Ausfällen und Datenverlusten. Menschliches und technisches Versagen münden also noch immer und zu oft in Betriebsunterbrechungen und Millionenschäden, die bis in die Insolvenz führen.
Trotzdem spielte der Aufbau eines Business-Continuity-Management-Systems zu lange eine untergeordnete Rolle; viele Organisationen setzten bislang lediglich auf Akkus und Notstromaggregate.
Neben der NIS2-Richtlinie im IT-Security-Umfeld trat mit der CER-Richtlinie (EU 2022/2557) auch ein Regelwerk für IT-Resilienz und physische Sicherheit in Kraft. Sie verpflichtet Betreiber kritischer Infrastrukturen, BCM-Systeme (Business Continuity Management) einzuführen, um Ausfallzeiten zu minimieren und Schäden zu begrenzen. Auch Unternehmen außerhalb der KRITIS – insbesondere Rechenzentrumsbetreiber – profitieren von solchen Werkzeugen.
Trotz laufender Umsetzung führen Krisenursachen wie Naturkatastrophen, Sabotage oder Terroranschläge weiterhin täglich zu IT-Ausfällen und Datenverlusten. Menschliches und technisches Versagen münden also noch immer und zu oft in Betriebsunterbrechungen und Millionenschäden, die bis in die Insolvenz führen.
Trotzdem spielte der Aufbau eines Business-Continuity-Management-Systems zu lange eine untergeordnete Rolle; viele Organisationen setzten bislang lediglich auf Akkus und Notstromaggregate.
Umfassender All-Gefahren-Ansatz
Notfallhandbücher, Planspiele und sehr viel Verwaltungsaufwand: Risiko- und Notfallmanagement gelangen zunehmend in den Fokus der Verantwortlichen. So werden auch Was-wäre-wenn-Szenarien in allen Varianten durchgespielt, Redundanzen geschaffen, die USVs mit Dieselaggregaten verstärkt und die eine oder andere Schnittstelle zu Virtualisierungsumgebungen erzeugt, um das Disaster Recovery zu gewährleisten.
Was bisher aber zu wenig Beachtung erfährt: Eine integrierte Plattform sollte in Sekundenschnelle einsetzbar sowie hilfreich bei Audits sein und automatisiert agieren, also nach vorher geplanten und erprobten Szenarien vorgehen. Ob Stromausfall, vom Bagger durchtrennte Kabel oder ausgefallene Klimaanlagen: Ein softwarebasiertes BCM-System muss diese Standardszenarien selbstständig abhandeln können.
Ein IT-Administrator ist in solchen Fällen bestenfalls in der Lage, Daten live zu migrieren, den automatisierten IT-Shutdown zu overrulen und/oder nach der Gefahrenlage den Wiederanlauf so schnell wie möglich durchzuführen (oder durchführen zu lassen). Damit das gelingt, muss er über sämtliche Rechte, Zugänge und Übersichten der Abhängigkeiten verfügen. Diese vollständige Handlungsfähigkeit ist eine der wichtigsten Voraussetzungen für ein erfolgreiches IT-Krisenmanagement und wird durch die BCM-Software sichergestellt.
Admin-Herausforderungen längst gelöst
In den heute oft global verteilten und virtualisierten IT-Infrastrukturen fehlt häufig die Übersicht über die Netzwerk-, Server- und Applikationslandschaften. Bei einem IT-Notfalleinsatz entsteht schnell eine Kettenreaktion, da der Zeitfaktor entscheidend ist. Einerseits ist oft unklar, wie lange Notstromsysteme durchhalten. Andererseits muss frühzeitig entschieden werden, ob ein umfassender oder teilweiser IT-Shutdown notwendig ist.
Scripting ist hier längst überholt, da nicht dokumentiertes Expertenwissen nicht auditierbar ist. Herstellerunabhängige Ansätze ermöglichen die Integrationen von verschiedenen USV-Herstellern genauso wie das Anbinden der führenden Virtualisierungsanbieter in ein einheitliches Konzept. Natürlich müssen Server, Cluster und Domain Controller, Netzwerkkomponenten oder Sensoren ebenfalls integrierbar sein, um ein abgestimmtes Verhalten von Hardware und Software zu ermöglichen. Dies alles erlaubt ein koordiniertes Vorgehen, wenn Daten rasch in Ausweichrechenzentren migriert werden müssen.
Kontrollierter IT-Shutdown
Wenn-Dann-Szenarien entfalten ihre volle Stärke beim Durchspielen "individueller" Sicherheitsvorfälle, wie auch beim Abbilden aller Standardkrisen wie Strom- und Hardwareausfälle, Cyberattacken oder Überhitzung im Serverraum. Die Software iQSol PowerApp etwa ermöglicht dies alles auch im Simulations- und Testmodus, wodurch jedem IT-Auditor ein Testreport auf Knopfdruck vorgelegt werden kann. Aufwendige reale Tests werden damit überflüssig: Die Erfahrung zeigt, dass zwar Fehlkonfigurationen, Missverständnisse oder nicht dokumentierte Vorgänge unvermeidbar sind, deren Erkennung und Beseitigung aber für eine höhere IT-Resilienz und deutlich weniger Fehler in der Zukunft sorgt.
Über eine mandantenfähige Webkonsole ermöglicht die iQSol PowerApp eine einfache Administration und Konfiguration sowohl von Windows- als auch Linux-Rechnern. Auch ältere Legacy-Systeme wie die IBM AS/400 lassen sich nach vordefinierten Kriterien herunter- oder hochfahren – und das agentenlos. Individuell anpassbare Schnittstellen erleichtern die Integration heterogener Infrastrukturen und senken so den Aufwand für die Administration.
Über die vCenter- und SCVMM-Anbindung können schnell alle virtuellen Maschinen importiert und das Herunter- und Hochfahren automatisiert oder individuell gesteuert werden. Ein netzwerktechnischer Zugriff auf die Zielsysteme sollte nicht notwendig sein, um die vorgegebenen Aktionen durchführen zu können. Falls vCenter oder SCVMM nicht zur Verfügung stehen, lassen sich die VMs auch direkt über die VMware- beziehungsweise Hyper-V-Hosts verwalten. Alle Befehle wie Shutdown/Startup lassen sich zudem bei Bedarf manuell über das GUI anstoßen, verzögern oder abbrechen.
Über Konfigurationsgruppen können mit iQSol PowerApp alle Vorgänge zeitlich gesteuert werden, zum Beispiel Servergruppe 1 nach fünf Minuten, Servergruppe 2 nach zehn Minuten und so weiter. Mittels LDAP-Integration ist es zudem möglich, neben lokal angelegten Benutzern auch AD-Accounts für den Zugriff auf die Webkonsole zu berechtigen. Schaltet die USV beispielsweise auf Batteriebetrieb, ist eine Alarmierung via E-Mail beziehungsweise über die Integration in ein Alarmierungswerkzeug auch per SMS und Sprachanruf möglich. Es sind beliebige Shutdown-Trigger-Kriterien definierbar. Bestehende Sensoren wie Temperatur- und Feuchtigkeitsmesser sowie Brandmelder können ebenfalls einen Shutdown auslösen.
Schon vor der Krise testen und simulieren
Über eine Simulationsfunktion sollten Admins außerdem regelmäßig testen, ob die Notfallkonfiguration korrekt ist, wobei der reale IT-Shutdown noch nicht erfolgt. Ein umfangreiches Logging mit Filterfunktion erleichtert die nachträgliche Rekonstruktion von Shutdown-Vorgängen. Hier greifen also bereits die Mechanismen, die einen fehlerhaften IT-Shutdown-Test verhindern sollen.
Generell empfiehlt sich für derartige Anwendungen eine gut abgesicherte Hardware-Appliance, die auf Linux basiert. Der Standort in zentraler Lage der IT-Landschaft ermöglicht via SNMP die zeitlich beliebige Abfrage des Zustandes der USVs und der Sensoren. Wenn die USV auf Batteriebetrieb schaltet, muss ein logikbasierendes Shutdown-System zügig und nach vordefinierten Kriterien agieren.
So kann es unter anderem einen Shutdown der Windows- beziehungsweise Linux-Systeme durchführen oder auch einen gewissen Zeitraum abwarten, ob Notstromaggregate oder weitere Stromspeicher eingreifen.
Kein Strom, kein Zugriff
Abseits gelegene und technisch nicht permanent betreute Außenstellen und Filialen sollten ebenfalls in das unternehmensweite Notfallkonzept einfließen. Gefragt ist eine eigenständige Instanz, die in der Niederlassung platziert wird und somit dezentral für die Abfrage der USV beziehungsweise das Herunter- und Hochfahren der Server verantwortlich ist. Gerade in exponierten Lagen treten Stromausfälle oder andere Störungen besonders häufig auf.
Darum ist eine robuste Plattform anzuraten, die einfach zu administrieren und ohne Fachpersonal vor Ort handelbar ist. Es gilt, auch Umstände wie Zeitverschiebungen, Abwesenheiten, Öffnungszeiten oder Anreisezeiten zu beachten. Genauso muss berücksichtigt sein, dass nicht jeder IT-Ausfall überraschend passiert – geplante Abschaltungen sollten abgebildet sein. Bei einem Notfall ist eine Shutdown-Appliance die letzte "lebende" und beim IT-Wiederanlauf die erste aktive Instanz im Netzwerk. Daraus ergibt sich der besondere Blick auf die Notstromabsicherung für die Applikation.
Der geordnete IT-Wiederanlauf
Die Abhängigkeiten unzähliger Dienste und Zugänge in großen IT-Infrastrukturen lassen einen möglichst zügigen Wiederanlauf aller Systeme rasch komplex erscheinen. Wird dies bereits im Vorfeld berücksichtigt, ist eine effiziente Verfahrensweise jedoch gut realisierbar. Die Sicherstellung der notwendigen Berechtigungen lässt sich etwa auch für das Herunter- und Hochfahren von Servergruppen nach dem Patchen nutzen.
Andere Mehrwerte ergeben sich aus einer verringerten Verwundbarkeit und Stromeinsparung von Systemen, die zum Beispiel über das Wochenende nicht benötigt werden. Beispiele dafür sind Test- oder Labsysteme beziehungsweise Reservekapazitäten. Zu Bedenken ist zudem, dass der zeitliche Ablauf beim Hochfahren der Systeme so angelegt ist, dass zum Beispiel bei 3-Tier-Anwendungen (Datenbank-Applikation-Webserver) diese in der richtigen zeitlichen Abfolge gestartet werden.
Fazit
Eine Spezialsoftware für das technische Business Continuity Management bietet zahlreiche Vorteile. Gerade in Krisensituationen zeigt sich, wie detailliert die Planung ist, wie schnell IT-Verantwortliche handeln können und wie sich Betriebsunterbrechungen verhindern lassen. Entscheidend ist die Wahl einer Software mit hohem Sicherheitsstandard und guten Referenzen – schließlich geht es um den Zugang zum gesamten IT-Netzwerk mit umfassenden Berechtigungen.
(ln)
Jürgen Kolb ist Managing Director der iQSol.