ADMIN

2022

02

2022-01-30T12:00:00

Cloudmanagement

SCHWERPUNKT

098

Cloud

Monitoring

Netzwerkinfrastruktur

Anforderungen an das Cloudmonitoring

Neue Blickwinkel

von Stefan Marx

Veröffentlicht in Ausgabe 02/2022 - SCHWERPUNKT

Die jahrelange Zurückhaltung gegenüber der Cloud ist offenbar überwunden. Neue Architekturansätze und Technologien wie das IoT setzen als Basis auf die Cloud. Diese Veränderungen in den IT-Strukturen muss auch das Monitoring berücksichtigen, um valide Daten liefern zu können. Wir betrachten, an welchen Punkten die IT-Abteilung ihre Systemüberwachung anpassen muss.

In einer Pressemitteilung verkündete das Bundesamt für Statistik im Mai 2021, dass inzwischen jedes dritte Unternehmen aus Deutschland im von der Coronakrise geprägten Jahr 2020 die Cloud genutzt hat. Zwar sind in diesen Zahlen naturgemäß auch die Firmen enthalten, die lediglich eine via Cloud bereitgestellte Anwendung einsetzen, unter anderem die Buchhaltung oder das Spesenmanagement per Browser, aber die über viele Jahre in Umfragen immer wieder auftauchende Skepsis gegenüber der Cloud scheint zumindest überwunden.
Das Cloud Computing erobert inzwischen auch Branchen, die bisher aus unterschiedlichsten Gründen auf lokale IT setzten, wobei primär Sicherheitsgedanken im Vordergrund standen, wie etwa Banken und Versicherungsunternehmen. Die Cloud gehört in Organisationen auf jeden Fall zur oft zitierten "Neuen Realität" nach der von Covid-19 verursachten Zäsur. So zeigen Unternehmen, die bereits stark auf die Cloud setzten, eine größere Resilienz während der Corona-Krise. Insofern überrascht das Ergebnis einer Studie der Harvard Business Review kaum, demzufolge 69 Prozent der befragten Unternehmen angaben, dass die Cloud sehr wichtig für die künftige Strategie und das Wachstum sei.
Cloud wird technisch anspruchsvoller
In der Welt der Statistik ist es einfacher von "der Cloud" zu sprechen, die es in diesem Sinne aber bekanntlich gar nicht gibt. Die IT-Landschaft vieler Unternehmen besteht heute aus einer Vielzahl eng verwobener Lösungen: Physische und virtuelle Server, Private sowie Public Clouds, Anwendungen, die als SaaS zum Einsatz kommen, und IoT-Devices. Das alles muss dann auch noch mit einer mehr oder weniger großen Zahl von Legacy-Anwendungen zusammenarbeiten, die aus Kosten- und Aufwandsgründen erhalten bleiben.
In einer Pressemitteilung verkündete das Bundesamt für Statistik im Mai 2021, dass inzwischen jedes dritte Unternehmen aus Deutschland im von der Coronakrise geprägten Jahr 2020 die Cloud genutzt hat. Zwar sind in diesen Zahlen naturgemäß auch die Firmen enthalten, die lediglich eine via Cloud bereitgestellte Anwendung einsetzen, unter anderem die Buchhaltung oder das Spesenmanagement per Browser, aber die über viele Jahre in Umfragen immer wieder auftauchende Skepsis gegenüber der Cloud scheint zumindest überwunden.
Das Cloud Computing erobert inzwischen auch Branchen, die bisher aus unterschiedlichsten Gründen auf lokale IT setzten, wobei primär Sicherheitsgedanken im Vordergrund standen, wie etwa Banken und Versicherungsunternehmen. Die Cloud gehört in Organisationen auf jeden Fall zur oft zitierten "Neuen Realität" nach der von Covid-19 verursachten Zäsur. So zeigen Unternehmen, die bereits stark auf die Cloud setzten, eine größere Resilienz während der Corona-Krise. Insofern überrascht das Ergebnis einer Studie der Harvard Business Review kaum, demzufolge 69 Prozent der befragten Unternehmen angaben, dass die Cloud sehr wichtig für die künftige Strategie und das Wachstum sei.
Cloud wird technisch anspruchsvoller
In der Welt der Statistik ist es einfacher von "der Cloud" zu sprechen, die es in diesem Sinne aber bekanntlich gar nicht gibt. Die IT-Landschaft vieler Unternehmen besteht heute aus einer Vielzahl eng verwobener Lösungen: Physische und virtuelle Server, Private sowie Public Clouds, Anwendungen, die als SaaS zum Einsatz kommen, und IoT-Devices. Das alles muss dann auch noch mit einer mehr oder weniger großen Zahl von Legacy-Anwendungen zusammenarbeiten, die aus Kosten- und Aufwandsgründen erhalten bleiben.
Eng verzahnt mit dem Thema Cloud ist die immer weiter um sich greifende Nutzung von Microservices bei der Anwendungsentwicklung. Die dafürsprechenden Gründe sind bekannt: Statt monolithischer Programme entstehen Workflows in kleineren Einheiten. Das verspricht kürzere Entwicklungszeiten, häufigere Releases und korrespondiert mit agilen Methoden. Ein Argument, das beispielsweise Netflix dazu bewogen hat, seine Plattform auf Microservices umzustellen. Offizielle Zahlen dazu sind nicht verfügbar, doch inzwischen dürften es mehr als die vor einigen Jahren erwähnten 500 davon sein. Ein Anbieter wie Netflix steht ohne Zweifel vor besonderen Herausforderungen, insofern sind diese Zahlen nicht typisch und ohne Weiteres übertragbar, aber symptomatisch. Denn die Umgebungen werden zunehmend unübersichtlich und letztlich anfälliger für Performance- und Sicherheitsprobleme.
Herausforderungen heterogener Umgebungen
Die wachsende Komplexität der IT-Strukturen sorgt für größere Herausforderungen beim Monitoring des Konstrukts. Es liegt auf der Hand, dass klassisches Application-Performance- oder Infrastrukturmonitoring hier zwangsläufig an seine Grenzen stoßen muss. So gut auch die einzelnen Monitoringtools sein mögen, die von Cloudanbietern und Hyperscalern zur Verfügung gestellt werden: Für den notwendigen Überblick sind diese spätestens dann nicht mehr geeignet, wenn es um die Überwachung über mehrere Umgebungen hinweg geht.
So ist es also notwendig, zwischen verschiedenen Tools zu wechseln, um unterschiedliche Daten zu aggregieren und zu vergleichen, um überhaupt Korrelationen herstellen zu können. Oder es fließen Ressourcen in Eigenentwicklungen, die dann anderweitig fehlen. Ein Verzicht auf dezidiertes Monitoring kommt kaum in Frage. Denn fällt die Performance der IT-Struktur ab, geht es um mehr als ein paar verärgerte Kunden: Zuverlässigkeit, Stabilität und Performance bilden inzwischen die Grundlage des Geschäftsmodells vieler Unternehmen.
Visualisierung wichtiger Kennzahlen und Prognosen
Ein Monitoring, das seinen vollen Nutzen entfalten soll, darf sich nicht auf die reine Problemerkennung beschränken. Hängen Geschäftsmodell und unternehmerische Resilienz an der Cloud, genügt es nicht, ad hoc Probleme zu erkennen. Vielmehr sollten auch Vorhersagen möglich sein, um Probleme zu entdecken, noch bevor sie sich zu Störungen oder Ausfällen auswachsen.
Ein gutes Monitoringwerkzeug vereint Problemidentifizierung und Prognose. Dazu erfasst es systematisch eine Reihe von operativen Kennzahlen (Work Metrics) und Werte, die die Ressourcen betreffen (Resource Metrics). Typische Vertreter für operative Kennzahlen sind Throughput, prozentuale Anteile erfolgreicher und fehlerbehafteter Operationen und Performancegrößen wie Latenzen und Antwortzeiten. In ihrer Gesamtheit erlauben die Werte dann übergreifende Rückschlüsse auf die Systemgesundheit und Leistungsfähigkeit des Systems.
Aus den historischen Werten kann ein zeitgemäßes Monitoring dann Prognosen darüber anstellen, wann Engpässe etwa beim Durchsatz zu erwarten sind. Dazu ist es aber wichtig, dass die historischen Daten eine entsprechende Granularität aufweisen. Wie bei anderen selbstlernenden Anwendungen spielt die Datenbasis eine entscheidende Rolle. Zu selten oder zu selektiv erhobene Werte mindern die Aussagekraft und führen zu falschen Annahmen. Um beispielsweise saisonale Schwankungen wie etwa die Auslastung eines Shopsystems im Zuge von Sales-Events wie Black Friday überhaupt zu erkennen, müssen die erfassten Rohdaten über einen ausreichend langen Zeitraum vorgehalten werden. Empfehlenswert ist hier mindestens ein Jahr oder sogar länger.
Eine zweite wichtige Perspektive, die ein für die Cloud optimiertes Monitoring vermitteln soll, liegt in der Erhebung von Ressourcenkennzahlen. Mit deren Hilfe erhalten IT-Verantwortliche die Möglichkeit, einzelne Elemente ihrer Systeminfrastruktur genauer zu betrachten, um hier Problemen auf die Spur zu kommen oder Gegenmaßnahmen zu ergreifen. Parameter wie Nutzung, Sättigung, Verfügbarkeit und Fehler liefern Hinweise auf potenzielle Schwachstellen, die zu größeren Problemen eskalieren könnten. So sollte möglichst zeitnah einer wachsenden Fehlerzahl bei einer Datenbank auf den Grund gegangen werden, um die Ursachen für Speicher- oder Replikationsprobleme zu ermitteln.
Um auf Anwenderebene die Nutzung des Monitorings zu erleichtern, ist eine umfangreiche Visualisierung der erhobenen Werte unabdingbar. Die grafische Aufbereitung gerade von operativen Kennzahlen und deren prognostizierte Veränderung schafft insbesondere bei Budgetverantwortlichen ein größeres Verständnis für in Zukunft möglicherweise auftretende Begrenzungen und Flaschenhälse. Zudem lassen sich die gewonnenen Daten auch im Arbeitsalltag schneller erfassen, was mehr Zeit für die eigentlichen Aufgaben lässt.
Bild 1: Obwohl die Cloud Hardware in der Regel abstrahiert, müssen IT-Verantwortliche auch die physischen Systeme stets im Blick haben.
Sicherheit wird Teil des Monitorings
Datenbasiertes Arbeiten ("Data-Driven-Teamwork") nimmt in immer mehr Unternehmen neben agilen Projektmethoden einen größeren Raum ein. Der Paradigmenwechsel vom Data Warehouse in Richtung von Data Lakes im Bereich der Business Intelligence ist ein Beispiel dafür.
Der datengetriebene Ansatz sorgt im Alltag dafür, dass das DevOps-Konzept sich in Richtung DevSecOps weiterentwickelt. Dabei bringen Entwicklung, Operations und die Mitglieder von IT-Security-Teams ihre Kenntnisse und Sichtweisen gemeinsam in die Entwicklung eines gemeinsamen Produkts ein. Das sollte sich auch in der gewählten Monitoringanwendung niederschlagen. Daten aus Infrastruktur, Netzwerk, Anwendungen und IT-Security-Systemen laufen an einer zentralen Stelle zusammen.
Die Analyse von Echtzeitdaten, um Gefahren zu erkennen und aufzudecken, wird zu einer essenziellen Forderung beim Einsatz von Monitoring. Auch in diesem Zusammenhang ist der möglichst einfache Zugang zu den erhobenen Werten und Prognosen wichtig. Denn die mit Sicherheitsfragen beschäftigten Mitarbeiter sollten sich genauso schnell einen Überblick verschaffen können wie Infrastrukturteams und Entwicklung.
Monitoring der Entwicklung
Der Wunsch nach schnellen Release-Zyklen und knappe Time-to-Market-Zeitpläne setzen agile Teams unter enormen Druck. Die Vorstellung, auftretende Fehler und Probleme rasch beheben zu können, führt in der Konsequenz dann leider dazu, dass Testszenarien zu kurz kommen oder im Extremfall darauf komplett verzichtet wird. In verwobenen und komplexen Strukturen kann das ein kapitaler Fehler sein.
Automatisierte Testumgebungen, die bereits während der Entwicklung Benutzerinteraktionen simulieren und Workflow-Tests absolvieren, sind ein probates Mittel, um frühzeitig mögliche Probleme zu erkennen. Dazu sollte der Aufwand, ein Testszenario zu entwickeln, möglichst gering bleiben, um die Ressourcen von Entwicklungsteams nicht zu stark zu beanspruchen. Zum anderen fließen die Tests auch direkt in das Monitoring ein, um so Auswirkungen auf die Performance aufzudecken.
Verbessertes Nutzererlebnis
In Zeiten, in denen die App eines Konkurrenten auf dem Smartphone der User nur einen Fingertipp entfernt ist, sind Kundenerlebnis und funktionierendes On-Boarding entscheidend. Im Zweifel muss bei auftretenden Problemen schnell Abhilfe erfolgen – doch die Herausforderung besteht darin, herauszufinden, ob es sich um einen Fehler im Backend oder Frontend handelt.
Um die Diagnose zu vereinfachen, hat beispielsweise Datadog für sein Monitoring eine Zwei-Wege-Korrelation der Messwerte entwickelt. Damit wird die Trennung vieler Monitoringanwendungen in das "Real User Monitoring" und "Application Performance Monitoring" aufgehoben, was häufig isoliert erfolgt und daher mehrere Arbeitsabläufe für die Fehlerbehebung erfordert.
Fazit
Die von Cloudanbietern zur Verfügung gestellten Monitoringtools genügen in der Praxis nicht aus, um die gewachsenen Ansprüche und Herausforderungen im Management und Orchestrierung von komplexen Cloudstrukturen zu bewältigen. Visualisierung, Prognostik, Berücksichtigung veränderter Arbeitsweisen und bessere Korrelation von Backend- und Frontenddaten sind heute notwendig.
(jp)
Stefan Marx ist Director Product Management für die EMEA-Region bei Datadog.