ADMIN

2021

08

2021-08-01T12:00:00

Hochverfügbarkeit und Monitoring

SCHWERPUNKT

080

Monitoring

Warnmeldungen beim Monitoring reduzieren

Den Sumpf trockenlegen

von Simon Pangerl

Veröffentlicht in Ausgabe 08/2021 - SCHWERPUNKT

Um Störungen zeitnah zu entdecken und zu beheben, überwachen große Unternehmen mit ihren Monitoringtools oft tausende Geräte. Bei der Flut an Warnmeldungen fällt es dem Admin jedoch nicht leicht, wirklich kritische Probleme zu identifizieren. Um die Anzahl von Alarmen zu reduzieren, bedarf es einer Kombination aus sorgfältiger Planung und den richtigen Überwachungswerkzeugen.

Monitoringtools schlagen Alarm, wenn es Probleme bei der Infrastruktur, dem Netzwerk, dem Speicher, den Clouddiensten oder anderen IT-Komponenten gibt. Auch im KMU-Bereich sind 1000 Sensoren und mehr keine Seltenheit. Zu viele Warnmeldungen erschweren es allerdings, ernsthafte Probleme zu identifizieren. Darüber hinaus kann eine hohe Alarmanzahl langfristig sogar dazu führen, dass die Verantwortlichen diese Meldungen ganz ignorieren und das wirklich Wichtige übersehen. Das beeinträchtig die Monitoringleistung und die Servicequalität sinkt. Deshalb sollten Administratoren die Warnmeldungen beim Monitoring auf die wichtigen reduzieren.
Darum sind zu viel Warnmeldungen gefährlich
IT-Umgebungen sind komplex und heterogen. Sie bestehen aus einer Masse von Geräten und Applikationen vieler Anbieter. Normalerweise verfügen IT-Teams gerade im Enterprise-Bereich über eine hohe Anzahl an verschiedenen Monitoringwerkzeugen, von denen jedes einzelne mehrere Aspekte der IT überwacht. Jedes Tool sendet eine Menge Benachrichtigungen sowie Alarme für jedes Detail innerhalb seines Bereichs. Hier ist es fast unmöglich, eine Meldung dem zuständigen Teammitglied zuzuordnen. Alle Alarme landen in dem zentralen Posteingang der IT-Abteilung, wo dann der Überblick verloren geht.
Ein weiteres Problem ist die Zuordnung der Priorität eines Alarms. Ein einfaches Beispiel: Es geht eine Warnung ein, dass auf einem Server nicht genügend Speicherplatz vorhanden ist. Diese Meldung ist hilfreich, wenn in einem Raum nur fünf Server betrieben werden und der Ausfall direkte Konsequenzen hat. Bei 5000 Servern in einem Rechenzentrum hat diese Warnmeldung eine geringere Wichtigkeit. IT-Verantwortliche müssen also vorab Prioritäten setzen und sich auf die wichtigsten Problemmeldungen konzentrieren, die zu größeren Ausfällen und Störungen führen können.
Monitoringtools schlagen Alarm, wenn es Probleme bei der Infrastruktur, dem Netzwerk, dem Speicher, den Clouddiensten oder anderen IT-Komponenten gibt. Auch im KMU-Bereich sind 1000 Sensoren und mehr keine Seltenheit. Zu viele Warnmeldungen erschweren es allerdings, ernsthafte Probleme zu identifizieren. Darüber hinaus kann eine hohe Alarmanzahl langfristig sogar dazu führen, dass die Verantwortlichen diese Meldungen ganz ignorieren und das wirklich Wichtige übersehen. Das beeinträchtig die Monitoringleistung und die Servicequalität sinkt. Deshalb sollten Administratoren die Warnmeldungen beim Monitoring auf die wichtigen reduzieren.
Darum sind zu viel Warnmeldungen gefährlich
IT-Umgebungen sind komplex und heterogen. Sie bestehen aus einer Masse von Geräten und Applikationen vieler Anbieter. Normalerweise verfügen IT-Teams gerade im Enterprise-Bereich über eine hohe Anzahl an verschiedenen Monitoringwerkzeugen, von denen jedes einzelne mehrere Aspekte der IT überwacht. Jedes Tool sendet eine Menge Benachrichtigungen sowie Alarme für jedes Detail innerhalb seines Bereichs. Hier ist es fast unmöglich, eine Meldung dem zuständigen Teammitglied zuzuordnen. Alle Alarme landen in dem zentralen Posteingang der IT-Abteilung, wo dann der Überblick verloren geht.
Ein weiteres Problem ist die Zuordnung der Priorität eines Alarms. Ein einfaches Beispiel: Es geht eine Warnung ein, dass auf einem Server nicht genügend Speicherplatz vorhanden ist. Diese Meldung ist hilfreich, wenn in einem Raum nur fünf Server betrieben werden und der Ausfall direkte Konsequenzen hat. Bei 5000 Servern in einem Rechenzentrum hat diese Warnmeldung eine geringere Wichtigkeit. IT-Verantwortliche müssen also vorab Prioritäten setzen und sich auf die wichtigsten Problemmeldungen konzentrieren, die zu größeren Ausfällen und Störungen führen können.
Insbesondere große Unternehmen und Konzerne sind oftmals auf verschiedene Standorte verteilt; so auch ihre Netzwerke und IT-Infrastrukturen, die oft über mehr als ein Rechenzentrum verfügen. Wenn ein Admin beispielsweise an einem ganz anderen Standort die Meldung bekommt, ist es schwierig, das Problem schnell zu finden und zu beheben. Findet die Verwaltung der Netzwerke an einem zentralen Standort statt, werden wahrscheinlich alle Alarme an das zentrale Team gesendet.
Warnmeldungen können also leicht aus dem Ruder laufen. Tatsache ist: Gibt es zu viele, können sie an Relevanz verlieren und wichtige Fehlermeldungen sowie Hinweise untergehen.
Zentrales Monitoringtool nutzen
Um die Anzahl von Alarmmeldungen in der Enterprise-IT zu reduzieren, bedarf es einer Kombination aus sorgfältiger, strategischer Planung und dem richtigen Monitoringwerkzeug. Anstatt mehrere Tools für unterschiedliche Bereiche der Infrastruktur einzusetzen, bietet sich die Nutzung einer einzigen Plattform an, die die gesamte IT- und auch die OT-Infrastruktur (Operational Technology) überwacht. So gibt es bei Alarmen lediglich eine Quelle, die die Administratoren auswerten müssen, um das zugrundeliegende Problem zu finden.
Darüber hinaus werden in den verschiedenen Tools Alarme und Benachrichtigungen unterschiedlich konfiguriert. Findet lediglich ein Tool Verwendung, lässt sich eine übergreifende Struktur und Konfiguration für alle Bereiche festlegen.
Richtige Schwellenwerte setzen
Alarme basieren auf Schwellenwerten. Wird zum Beispiel ein Gerät heißer als eine vorab festgelegte Temperatur oder sinkt der verfügbare Speicherplatz unter eine bestimmte Anzahl von GBytes, muss es zur Auslösung von Warnmeldungen kommen. Setzen IT-Verantwortliche die Schwellenwerte zu niedrig an, werden sie mit Alarmen überschwemmt. Legen Sie sie zu hoch fest, kommt es bei einem Problem oft erst dann zu einer Benachrichtigung, wenn es schon zu spät ist.
Die Regulierung durch Schwellenwerte mag einfach klingen, aber wie lässt sie sich realisieren, wenn in einer Enterprise-IT Tausende Geräte und Applikationen im Einsatz sind, die es zu überwachen gilt? Genau deshalb ist es entscheidend, über ein Monitoringwerkzeug zu verfügen, das Automatisierungsfunktionen und andere Mechanismen wie zum Beispiel das Vererben von Schwellenwerten für Gerätegruppen bietet.
Response-Teams einsetzen
Diese Maßnahme setzt voraus, dass die Enterprise-IT ein Monitoringtool mit umfassender Rechte- und Rollenfunktionalität nutzt. Damit lassen sich recht einfach Rollen und Verantwortlichkeiten für bestimmte Teams (oder sogar Einzelpersonen) erstellen und Alarme entsprechend filtern.
Bei Monitoringkonzepten ist es wichtig, die Usergruppen nach den Bereichen zu definieren, in denen ihre Verantwortung im Arbeitsalltag liegt. Während sich beispielsweise das eine Team um den Online-Shop kümmert, ist das andere für die E-Mail-Services zuständig. Jedes Team sollte dann auch nur die Alarmmeldungen erhalten, die in seinen Zuständigkeitsbereich fallen.
Zu viele unstrukturierte Alarme erschweren die Übersicht beim Monitoring.
High-Level-Warnungen definieren
Nicht jeder Mitarbeiter im Unternehmen muss wissen, was hinter den Kulissen der Infrastruktur vor sich geht. Während die IT-Teams ihre Umgebung bis ins Detail kennen müssen, benötigen Entscheider, das Management und andere Teilhaber lediglich einen groben Überblick über den Zustand des Netzwerks.
Eine gute Strategie ist es beispielsweise, die Infrastruktur bei IT-Diensten nach Geschäftsprozessen zu organisieren. So sind zum Beispiel der E-Mail-Service eines Unternehmens, das Lizenzierungssystem oder Software-Build-Prozesse allesamt IT-Dienste, die von mehreren miteinander verbundenen IT-Komponenten wie Hardware, Applikationen oder auch Bandbreiten abhängen.
Beispiel E-Mail-Service: Hier lassen sich die Komponenten Mail- und Storage-Server sowie Internetverbindung dem Business-Service "E-Mail" zuordnen. Kommt es nun zu einem kleineren Ausfall einer dieser Komponenten – etwa ein redundanter Mailserver mit Performanceproblemen – ist der E-Mail-Dienst selbst nicht gefährdet, da es ausfallsichere Mailserver gibt. In diesem Fall werden nur die zuständigen IT-Teams über die Leistungsprobleme des Servers informiert. Tritt jedoch ein Problem auf, dass sich kritisch auf die Dienste auswirkt, etwa der Absturz des Core-Switch, über den alle E-Mail-Daten laufen, dann ist der E-Mail-Service selbst gefährdet. In einem solchen Fall sollten auch relevante Mitglieder des Managements eine Benachrichtigung erhalten.
Fazit
Es zeigt sich, dass bei dem Monitoring von IT-Umgebungen und den gesendeten Alarmen Qualität vor Quantität zählt. Um Warnmeldungen zu reduzieren, ist es wichtig, bei der Bekämpfung der Ursachen zu beginnen. Nur so lässt sich gewährleisten, dass die Service-Qualität hoch bleibt und die Admins wichtige Warnmeldungen sofort erkennen und beheben können.
(ln)
Simon Pangerl ist Team Manager Sales DACH bei der Paessler AG.