Controlware ist nicht nur Systemintegrator, sondern nutzt mit Webex und Teams unterschiedliche Tools zur Kollaboration. Der folgende Beitrag beschreibt, wie der Dietzenbacher IT-Dienstleister durch die Integration verschiedener Monitoring- und Analysewerkzeuge - darunter ThousandEyes, Splunk, M365, Webex Chat und Webex Control Hub - lückenlose Transparenz erreichte, um die Fehleranalyse und Fehlerbehebung zu beschleunigen.
Kollaborationswerkzeuge wie Microsoft Teams oder Cisco Webex sind die wohl meistgenutzten Tools im Arbeitsalltag: Egal ob E-Mail, Chat, Telefonie, Videokonferenz oder das gemeinsame Arbeiten an Dokumenten - es handelt sich um kritische Anwendungen, auf die auch kritisch geschaut werden muss. Insbesondere bei der Audio- und Videoübertragung sind die Anwender anspruchsvoll. Sie stellen hohe Erwartungen an die Qualität der Services und sind nicht bereit, Abbrüche, Aussetzer oder blecherne Roboterstimmen der Gesprächspartner hinzunehmen.
Schwer nachstellbare Probleme
IT-Administratoren stehen damit vor der Herausforderung, allen Anwendern gerecht zu werden, auch wenn deren Probleme mitunter schwer nachvollziehbar und ebenso schwer nachstellbar sind. Nicht selten kommen Aussagen wie "bei mir funktioniert es aber", "ich habe diese Probleme nie" oder "das liegt bestimmt am Netzwerk". Beim anschließenden Blick in die Managementkonsolen (etwa den Webex Control Hub oder das MS Teams Admin Center) bestätigen sich die Performanceprobleme in der Regel zumindest teilweise: zum Beispiel, weil für einzelne Verbindungen ein hoher MOS-Wert (Mean Opinion Score, eine Kennzahl für die Sprach- und Bildqualität) angezeigt wird oder weil Latenzen und Verbindungsabbrüche dokumentiert sind.
Dann stellt sich dem Admin zwangsläufig die Frage, woher die Probleme ursächlich kommen. Doch dies lässt sich nicht ohne Zusatzinformationen beantworten:
Kollaborationswerkzeuge wie Microsoft Teams oder Cisco Webex sind die wohl meistgenutzten Tools im Arbeitsalltag: Egal ob E-Mail, Chat, Telefonie, Videokonferenz oder das gemeinsame Arbeiten an Dokumenten - es handelt sich um kritische Anwendungen, auf die auch kritisch geschaut werden muss. Insbesondere bei der Audio- und Videoübertragung sind die Anwender anspruchsvoll. Sie stellen hohe Erwartungen an die Qualität der Services und sind nicht bereit, Abbrüche, Aussetzer oder blecherne Roboterstimmen der Gesprächspartner hinzunehmen.
Schwer nachstellbare Probleme
IT-Administratoren stehen damit vor der Herausforderung, allen Anwendern gerecht zu werden, auch wenn deren Probleme mitunter schwer nachvollziehbar und ebenso schwer nachstellbar sind. Nicht selten kommen Aussagen wie "bei mir funktioniert es aber", "ich habe diese Probleme nie" oder "das liegt bestimmt am Netzwerk". Beim anschließenden Blick in die Managementkonsolen (etwa den Webex Control Hub oder das MS Teams Admin Center) bestätigen sich die Performanceprobleme in der Regel zumindest teilweise: zum Beispiel, weil für einzelne Verbindungen ein hoher MOS-Wert (Mean Opinion Score, eine Kennzahl für die Sprach- und Bildqualität) angezeigt wird oder weil Latenzen und Verbindungsabbrüche dokumentiert sind.
Dann stellt sich dem Admin zwangsläufig die Frage, woher die Probleme ursächlich kommen. Doch dies lässt sich nicht ohne Zusatzinformationen beantworten:
- Wer ist von dem Problem betroffen? Ist es ein Einzelschicksal oder betrifft es mehrere Anwender?
- Woher kommen die Auffälligkeiten? Ist es die User-Umgebung, das VPN, das eigene Firmennetz, die Firewall, der Proxy, das DNS, der lokale Internet-Breakout, der Internet-Serviceprovider oder gar der Serviceprovider?
- Über welchen Weg war der Mitarbeiter zum Zeitpunkt der Problemmeldung verbunden?
- Wann tritt das Problem auf und wie lange besteht es schon?
Visualisierung mit ThousandEyes und Splunk
Um diese Informationen zu sammeln und zu visualisieren, setzt Controlware zwei dedizierte Tools ein: Cisco ThousandEyes sowie Splunk. Beide Hersteller wurden von Cisco übernommen - ThousandEyes bereits vor einigen Jahren, Splunk im März 2024 - und lassen sich in heterogenen Umgebungen nutzen. Für die hier geschilderte Methodik ist es also nebensächlich, von welchem Hersteller die Netzwerkinfrastruktur oder das Collaboration-Tool stammt.
Mit ThousandEyes misst das Controlware-Team die Netzwerkperformance, die der Mitarbeiter an seinem Laptop erlebt (oder erleidet), sowie die Leistung an neuralgischen Punkten im Firmennetz und den einzelnen Niederlassungen. Für Messpunkte außerhalb des Firmennetzes kommen dabei Cloudagenten zum Einsatz, die ThousandEyes bereitstellt.
Dedizierte Agenten auf den Laptops (Endpoint-Agenten) messen zyklisch die Verfügbarkeit diverser Dienste, darunter interne Services wie das ERP-System, aber auch externe SaaS-Plattformen und Collaboration-Tools. Anschließend liefert das System eine visualisierte, grafische Darstellung der Verfügbarkeit, der Latenz, der Paketverluste oder anderer Indikatoren auf der kompletten Strecke. Ähnlich wie bei Traceroute wird dabei der komplette Layer-3-Pfad erkannt und als Pfad von der Quelle bis zum Ziel dargestellt. Alle öffentlichen Hops werden zusätzlich noch mit AS-Nummer sowie Geolocation angereichert.
So lässt sich genau nachvollziehen, welchen Weg der Netzwerk-Traffic nimmt. Allerdings gab es auch da schon Überraschungen - zum Beispiel ein ungeschicktes Provider-Routing durch halb Europa. Zusätzlich wird eine Reihe weiterer Parameter des Betriebssystems abgefragt, etwa die CPU- und Memory-Auslastung, und, ganz wichtig: die Verbindungsart des Geräts, also per Ethernet oder WLAN. Bei WLAN-Verbindungen kommen dann noch Informationen zur Funkverbindung hinzu, beispielsweise Frequenz, Kanal, Funkstandard, Retransmissionsrate und vieles mehr.
Automatisierte Performancetests
Zusätzlich zu solchen zyklischen Tests erfolgen automatisierte Tests bei laufenden Webex-, Teams- und Zoom-Sessions: Erkennt der Agent aufgrund des Netzwerkverkehrs eine laufende Konferenz, misst er den in diesem Meeting zugewiesenen Collaboration-Host. Die entsprechenden Daten werden dann auch in den Webex Control Hub zurückgeliefert. Die Agenten sind dabei nicht nur auf Mitarbeiter-PCs, sondern auch auf RoomOS-Geräten verfügbar. So stehen auch Messergebnisse aus Meeting-Räumen oder von Standalone-Systemen im Homeoffice zur Verfügung.
Ähnliche Daten liefern auch die "Enterprise Agents", die allerdings unabhängig vom Benutzerverhalten erhoben werden und damit gut als Baseline zu betrachten sind. Die Agenten laufen dabei typischerweise als virtuelle Appliance, Docker-Container oder nativ auf Linux, oder sie werden über Application Hosting auf diversen Cisco- und Meraki-Komponenten installiert. Die Kombination der Testergebnisse innerhalb und außerhalb des Netzes liefert auf einen Blick Aufschluss darüber, ob ein Problem innerhalb des eigenen Netzes oder beim Serviceprovider vorliegt.
Ein Beispiel aus der Praxis: Angenommen, ein Mitarbeiter beschwert sich über Probleme bei einer Teams-Session. Dann lässt sich sehr schnell klären, ob es sich um einen globalen, firmenweiten Ausfall handelt oder ob sich dieser auf einen spezifischen Standort oder User begrenzt. Ist der Ausfall auf die Benutzerumgebung zurückzuführen, sehen die Administratoren über die Pfadansicht sofort, wie der Mitarbeiter angebunden ist - und können daraus weitere Rückschlüsse ziehen.
Im Tagesgeschäft wurden so schon ungünstige WLAN-Verbindungen als Ursache ausgemacht, obwohl der Mitarbeiter sicher war, dass er per Kabel verbunden ist. Mit einer einfachen Anpassung des Netzwerktreibers ließ sich sicherstellen, dass das Betriebssystem künftig die Ethernet-Verbindung favorisiert. Auch WLAN-Repeater haben mitunter schon zu Verschlechterungen der Servicequalität geführt. Und in einem dritten Fall konnten Verbindungsabbrüche aufseiten des Providers eines Mitarbeiters nachgewiesen werden.
Monitoringtools greifen ineinander
Um Störungen noch schneller zu bearbeiten und die Messergebnisse möglichst vielen Fachbereichen zur Verfügung zu stellen, hat es sich bewährt, die verschiedenen Analysetools eng miteinander zu verzahnen und zusammenarbeiten zu lassen. Im Folgenden betrachten wir deshalb die verschiedenen Kombinationsmöglichkeiten etwas näher.
Für die Integration von ThousandEyes und Webex Control Hub existiert eine vorkonfigurierte API. Der Administrator muss im Control Hub lediglich den API-Access freischalten und den "OAuthBearerToken" hinterlegen. Unmittelbar danach erscheint im Control Hub - neben den bekannten Metriken - auch der Netzwerkpfad aus ThousandEyes.
Ebenfalls über die API erfolgt die Integration von ThousandEyes in Splunk. Um alle Alarme in Splunk zu konsolidieren, hat Controlware eine Splunk-App erstellt, die die Daten abgreift und visualisiert. Um bei der Kombination von M365 mit Splunk ein komplett rundes Bild zu erhalten, wird in Splunk zusätzlich der Health Status von Microsoft abgefragt. Dies erfolgt auch hier über die API unter Verwendung des "Splunk Add-on for Microsoft Office 365". Die Applikation und die Berechtigungen werden dabei in Entra ID angelegt. Anschließend lässt sich der entsprechende Tenant in der Splunk-App hinterlegen.
In Splunk selbst wurde ein Dashboard implementiert, das alle Messdaten konzentriert wiedergibt und zum Beispiel für den Service "MS Teams" verschiedene Messwerte gegenübergestellt: Laptop zu Teams vs. Firmennetz zu Teams vs. M365-Status. Hinzu kommen noch Meldungen und Messungen aus der Webex-Umgebung sowie weitere systemrelevante Informationen, die das Team aus anderen Use Cases in Splunk eingebunden hat.
Alerts laufen über einen Webex-Bot noch in einen Webex-Team-Kanal, was natürlich ganz ähnlich auch mit Teams möglich ist. Im Falle von Webex wird einfach der entsprechende Bot angelegt und einem Kanal zugeordnet. Über eine API-Integration gelangen die Meldungen dann zu Webex. Auf diese Weise können auch Administratoren und Anwender, die nicht in die eigentliche Ticketbearbeitung eingebunden sind, jederzeit auf aktuelle Problemmeldungen zugreifen.
Mithilfe dieser Integrationen konnte das Controlware-Team dem IT-Support eine Reihe von Tools und Dashboards an die Hand geben, mit denen sich Fehlersuche und -behebung nachhaltig beschleunigen lassen. Die Informationen stehen dabei nicht nur dem Support, sondern auch den für die jeweiligen Collaboration-Tools zuständigen Fachabteilungen zur Verfügung und sollen künftig auch den Mitarbeitern über eine Service-Status-Anzeige bereitgestellt werden.
Ein entscheidender Faktor ist bei all diesen Tools nicht zu unterschätzen: Collaboration steht für Zusammenarbeit - und ohne eine enge Zusammenarbeit der Mitarbeiter aus den verschiedenen Teams wäre es kaum möglich gewesen, all diese Integrationen in kürzester Zeit umzusetzen. Den Antrieb dazu brachten die jeweiligen Kollegen schon aus eigenem Interesse mit: Je schneller sie die benötigten Informationen bereitstellen, desto flotter lassen sich ihre Probleme aus der Welt schaffen und die Tickets schließen.
Nächster Schritt: Einbindung des Ticketsystems
Controlware ist mit seinen Plänen und Ideen aber noch nicht am Ende: Im nächsten Schritt will das Unternehmen zunächst das Ticketsystem an die Monitoringwerkzeuge koppeln. Da für jeden aktiven Endpoint-Agenten eine eigene Lizenz erforderlich ist, wurden die Agenten zwar flächendeckend per Softwareverteilung ausgerollt - aktiv ist aber stets nur ein bestimmter Prozentsatz.
Die Aktivierung erfolgt derzeit über das Webinterface, soll aber künftig über die API automatisiert werden: Sobald ein Ticket eröffnet wird, das sich auf Performanceprobleme eines Mitarbeiter-PCs bezieht, wird der entsprechende Client automatisch in ThousandEyes für Messungen aktiviert. Im ersten Schritt stößt dies der First-Level Support an, später wird dann aber automatisch durch KI unterstützt. Und noch eine weitere Neuerung befindet sich für ThousandEyes in der Pipeline: Zukünftig soll es möglich sein, auch Netflow-Daten zu analysieren. Dies wird ein wesentlich detaillierteres Bild der Netzwerkperformance liefern und ausführlich anzeigen, welche Netzwerkströme die Leitungen auslasten.
Fazit
Der Alltag in der heutigen Arbeitswelt ist von einem bunten Mix unterschiedlichster Kommunikations- und Kollaborationstools geprägt. Die Anwender stellen dabei hohe Ansprüche an die Stabilität und Performance der entsprechenden Services - und erwarten von ihren Administratoren vor allem, dass Fehler und Qualitätseinbrüche rasch behoben werden. Den Themen Monitoring und Observability kommt dabei eine Schlüsselrolle zu. Das Beispiel von Controlware illustriert, wie Unternehmen leistungsfähige Analyseplattformen kombinieren können, um lückenlose Transparenz über den Traffic und die Performance-Parameter der Collaboration-Werkzeuge zu erhalten - und so proaktiv die Weichen für eine hochwertige Quality-of-Service zu stellen.
(ln)
Roland Kaiser ist Teamleiter und Senior Consultant im Competence Center IT-Management bei Controlware.