»Mit Konsequenz und Mut auch unbequeme Änderungen angehen«
Redaktion IT-Administrator
Veröffentlicht in Ausgabe 03/2025 - AKTUELL
Für eine wirklich hochverfügbare IT müssen sich IT-Teams gewaltig strecken und nicht zuletzt auch tief in die Kasse greifen. Doch dann legen Ereignisse wie CrowdStrike trotzdem komplette Unternehmen lahm. Wir sprachen mit Rob Mason, Chief Technology Officer bei Applause, darüber, was sich aus diesem Vorfall in Sachen HA lernen lässt.
IT-Administrator: Der CrowdStrike-Vorfall legte vergangenes Jahr zahlreiche IT-Infrastrukturen lahm, auch von weltweit agierenden Konzernen, die gewiss ausreichend in HA investiert hatten. Schildern Sie das Ereignis doch bitte kurz aus Ihrer Sicht.
Rob Mason: Der CrowdStrike-Vorfall war ein globales Ereignis, das Millionen von Geräten betroffen und weltweit kritische Dienste unterbrochen hat. Er macht deutlich, wie stark moderne Systeme miteinander vernetzt und wie anfällig sie für Störungen sind. Soweit bekannt, handelte es sich um ein Softwareupdate, das unbeabsichtigte Fehler in die Infrastruktur einführte. Das Problem war, dass dieses Update nicht schrittweise, sondern direkt für alle Nutzer ausgerollt wurde. Dadurch wurde der Fehler erst bemerkt, als er bereits großen Schaden angerichtet hatte. Besonders betroffen waren Unternehmen, die sich vollständig auf CrowdStrike verlassen haben, ohne zusätzliche Sicherungssysteme oder alternative Anbieter. Auch Unternehmen mit hohem HA-Investment sind nicht immun gegen solche Fehler. Außerdem zeigt es, wie wichtig Tests, Rückfallmechanismen und die Diversifizierung von Systemen sind.
Wie hätten sich Unternehmen gegen diese Probleme wappnen können?
IT-Administrator: Der CrowdStrike-Vorfall legte vergangenes Jahr zahlreiche IT-Infrastrukturen lahm, auch von weltweit agierenden Konzernen, die gewiss ausreichend in HA investiert hatten. Schildern Sie das Ereignis doch bitte kurz aus Ihrer Sicht.
Rob Mason: Der CrowdStrike-Vorfall war ein globales Ereignis, das Millionen von Geräten betroffen und weltweit kritische Dienste unterbrochen hat. Er macht deutlich, wie stark moderne Systeme miteinander vernetzt und wie anfällig sie für Störungen sind. Soweit bekannt, handelte es sich um ein Softwareupdate, das unbeabsichtigte Fehler in die Infrastruktur einführte. Das Problem war, dass dieses Update nicht schrittweise, sondern direkt für alle Nutzer ausgerollt wurde. Dadurch wurde der Fehler erst bemerkt, als er bereits großen Schaden angerichtet hatte. Besonders betroffen waren Unternehmen, die sich vollständig auf CrowdStrike verlassen haben, ohne zusätzliche Sicherungssysteme oder alternative Anbieter. Auch Unternehmen mit hohem HA-Investment sind nicht immun gegen solche Fehler. Außerdem zeigt es, wie wichtig Tests, Rückfallmechanismen und die Diversifizierung von Systemen sind.
Wie hätten sich Unternehmen gegen diese Probleme wappnen können?
Der Vorfall unterstreicht die Notwendigkeit von Vorsichtsmaßnahmen auf mehreren Ebenen. So als Erstes die Diversifizierung der Anbieter, denn Unternehmen sollten nicht ausschließlich auf einen Hersteller setzen, besonders bei kritischen Systemen wie Sicherheit oder Endpunktschutz. Zweitens sollten Updates nur bei einer kleinen Nutzergruppe getestet werden. A/B-Tests oder Canary-Releases helfen, Fehler frühzeitig zu erkennen. Drittens müssen Organisationen durch Rückfallmechanismen in der Lage sein, bei Problemen schnell auf eine vorherige stabile Version zurückzugreifen. Und last, not least: Umfassende Regressionstests in realitätsnahen Umgebungen sind unerlässlich, um potenzielle Probleme zu erkennen, bevor Updates veröffentlicht werden.
Und welche Lehren bringt CrowdStrike für IT-Verantwortliche?
Eine wichtige Lehre für IT-Verantwortliche ist wohl: Schon kleine Fehler können große Ausfälle nach sich ziehen. Das klingt banal, hat aber weitreichende Konsequenzen. Unternehmen müssen aus solchen Vorfällen lernen und die richtigen Schlüsse ziehen. Das erfordert Konsequenz und den Mut, auch unbequeme Änderungen anzugehen. Ein Punkt, der dabei oft unterschätzt wird, ist die Transparenz während eines Incidents. Kunden wollen in solchen Momenten keine Floskeln oder Ausreden hören, sondern klare Informationen und das Gefühl, dass das Problem aktiv angegangen wird. Gute Kommunikation ist hier oft die halbe Miete – und kann entscheidend für das Vertrauen sein. Langfristig zahlen sich vor allem Investitionen aus. Ob in die Weiterbildung der Mitarbeiter, die Verbesserung von Prozessen oder in eine stabile Infrastruktur – das trägt dazu bei, die Ausfallsicherheit zu erhöhen. Es ist keine schnelle Lösung, aber genau das macht den Unterschied, wenn es darauf ankommt.
Gerade KMU betrachten HA oft als teuer und technisch zu komplex. Welche Ansätze lassen sich hier verfolgen und was würden Sie als Mindestmaß in Sachen HA definieren?
Hochverfügbarkeit ist auch für KMU erreichbar. Wenn es um hochverfügbare IT geht, haben KMU heute deutlich mehr Möglichkeiten als noch vor einigen Jahren. Cloudanbieter spielen hier eine zentrale Rolle, da sie skalierbare und kostengünstige HA-Dienste bereitstellen. Unternehmen benötigen dafür keine eigene, teure Infrastruktur, sondern können flexibel genau das nutzen, was sie benötigen. Auch Virtualisierung ist ein wichtiger Baustein. Mit entsprechenden Technologien lassen sich IT-Ressourcen nicht nur effizienter nutzen, sondern auch redundante Systeme viel einfacher bereitstellen. Ein oft unterschätzter Faktor ist Open-Source-Software, die mittlerweile verlässliche HA-Funktionen bietet, die gerade für KMU eine interessante Alternative darstellen können – sowohl in Bezug auf die Kosten als auch auf die Flexibilität.
»Hochverfügbarkeit ist auch für KMU erreichbar«
Was ist in Sachen Verfügbarkeit unverzichtbar?
Es gibt ein Pflichtenheft an Maßnahmen, die jedes Unternehmen umsetzen sollte: Redundanz ist hier das A und O – sei es bei Servern, Netzwerken oder Daten. Es darf keine einzelnen Ausfallpunkte geben. Ebenso wichtig ist ein gutes Monitoring. Die IT-Infrastruktur sollte in Echtzeit überwacht werden, um Probleme frühzeitig zu erkennen und direkt eingreifen zu können. Dazu kommen automatisierte, regelmäßige Backups und ein getesteter Disaster-Recovery-Plan, um im Ernstfall schnell reagieren zu können.
Ein anderes Problem, auf das insbesondere kleinere Unternehmen treffen, die stark wachsen, ist das Skalieren der HA-Umgebung. Was sollten IT-Verantwortliche dabei beachten?
Bei der Skalierung von HA-Umgebungen sollten IT-Verantwortliche frühzeitig planen, da eine gründliche Bedarfsanalyse dazu beiträgt, potenzielle Engpässe zu vermeiden. Darüber hinaus ist der Einsatz von Automatisierung essenziell: Prozesse wie die Serverbereitstellung oder die Durchführung von Backups gilt es zu automatisieren, um die Verwaltung zu erleichtern und Fehler zu minimieren. Ein umfassendes Monitoring spielt ebenfalls eine entscheidende Rolle, da es hilft, Kapazitätsgrenzen frühzeitig zu erkennen und entsprechend darauf zu reagieren. Schließlich sollten regelmäßige Tests erfolgen, um sicherzustellen, dass die Skalierung auch unter hoher Belastung zuverlässig funktioniert.
Doch einmal aufgesetzt, muss ein HA-System auch Tests unterzogen werden. Gibt es hierfür Best Practices?
Bei den Tests von Hochverfügbarkeitssystemen gibt es in der Tat einige Best Practices. Zunächst sind Komponententests wichtig, die jede Systemkomponente einzeln prüfen, um sicherzustellen, dass sie zuverlässig funktioniert. Darüber hinaus spielen Szenariotests eine große Rolle, die beispielsweise Server- oder Netzwerkausfälle simulieren. So lässt sich sehen, wie das System auf unvorhergesehene Störungen reagiert. Ebenso wichtig sind Lasttests, bei denen das System unter hoher Belastung getestet wird, um potenzielle Engpässe frühzeitig zu identifizieren. Ein weiterer zentraler Punkt sind Failover-Tests. Hier geht es darum, zu überprüfen, ob der Mechanismus zur Übernahme durch ein Backupsystem im Ernstfall reibungslos funktioniert. Und nicht zuletzt sollten regelmäßige Disaster-Recovery-Tests durchgeführt werden, um sicherzustellen, dass der Wiederherstellungsplan im Notfall wirklich greift.
Viele Experten sind der Meinung, verteilte HA-Systeme böten eine größere Angriffsfläche und verringern somit die IT-Sicherheit. Wie sehen Sie diese Bedrohung?
Das stimmt insofern, als verteilte Systeme aufgrund ihrer Komplexität mehr Angriffsvektoren bieten können. Deshalb ist es besonders wichtig, gezielt Maßnahmen zu ergreifen, um diese Risiken zu minimieren. Ein zentraler Punkt ist die Netzwerksegmentierung, die dafür sorgt, dass sich potenzielle Angreifer im System nicht ungehindert bewegen können. Auch Verschlüsselung spielt eine große Rolle. Daten sollten sowohl im Ruhezustand als auch während der Übertragung geschützt werden. Zusätzlich sind strenge Zugriffsrechte wichtig, bei denen jeder nur auf die Ressourcen zugreifen kann, die er wirklich benötigt. Und schließlich ist eine regelmäßige Sicherheitsüberprüfung essenziell, um Schwachstellen frühzeitig zu erkennen und zu beheben.
Ein Mindestmaß in Sachen HA schreibt ja auch die DSGVO vor. Wie unterscheidet sich diese Forderung nach dem Schutz personenbezogener Daten von der allgemeinen HA?
Die Forderungen der DSGVO und die allgemeine Hochverfügbarkeit haben unterschiedliche Schwerpunkte, überschneiden sich aber in bestimmten Bereichen. Die allgemeine HA zielt darauf ab, IT-Systeme stabil und unterbrechungsfrei zu betreiben, um die Geschäftskontinuität sicherzustellen und wirtschaftliche Verluste zu vermeiden. Sie ist vor allem auf betriebliche Effizienz und Verfügbarkeit ausgerichtet. Die DSGVO hingegen stellt den Schutz personenbezogener Daten in den Mittelpunkt. Neben der Verfügbarkeit zählen hier insbesondere die Integrität und Vertraulichkeit dieser Daten. Unternehmen müssen gewährleisten, dass personenbezogene Daten auch im Falle eines Systemausfalls sicher und zugänglich bleiben, beispielsweise durch verschlüsselte Backups und Notfallwiederherstellungspläne. Ein wesentlicher Unterschied liegt somit in der Zielsetzung: Während HA auf technische und wirtschaftliche Stabilität abzielt, fordert die DSGVO explizit Maßnahmen, die die Rechte der betroffenen Personen wahren. In der Praxis bedeutet dies, dass HA-Maßnahmen gesetzeskonform ergänzt werden müssen, etwa durch Datenverschlüsselung, Zugriffsrechte und regelmäßige Überprüfung der Sicherheitsmechanismen.