ADMIN

2025

05

2025-04-29T12:00:00

Künstliche Intelligenz

SCHWERPUNKT

086

Künstliche Intelligenz

Maschinellem Lernen

Artificial Intelligence for IT Operations

IT-Administration mit AIOPs

Make it simple!

von Ariane Rüdiger

Veröffentlicht in Ausgabe 05/2025 - SCHWERPUNKT

AIOps hat das Zeug, das Leben von Admins zu vereinfachen – allerdings nur, wenn das gewählte Produkt auch zur vorhandenen Umgebung passt. Wir geben nach einer Abgrenzung zu MLOps einen Überblick zu einem noch recht neuen Gebiet der IT und schildern, wie Sie am besten Nutzen daraus ziehen. Auch ein Überblick über die gängigen AIOps-Anbieter und deren jeweilige Schwerpunkte darf dabei nicht fehlen.

Künstliche Intelligenz krempelt viele Wirtschafts- und Arbeitsbereiche komplett um. Das gilt selbstverständlich auch für die IT selbst, die diesen Technikbereich ja hervorgebracht hat. Eine Anwendungsform von KI, die vor allem IT-Administratoren und -Verantwortlichen nutzt, ist AIOPs.
Der Begriff setzt sich aus den Komponenten "AI" und "IT Operations" zusammen. Erfunden hat ihn schon 2016 (nach anderen Quellen 2017) wieder einmal das Marktforschungsunternehmen Gartner mit der Studie "Market Guide for AIOps Platforms", die danach jährlich wiederholt wurde. In der 2022er-Ausgabe definiert Gartner AIOps wie folgt: "AIOPs-Plattformen ermöglichen die Entscheidungsfindung über Design, Bereitstellung, die Nutzung und den Betrieb von IT-Umgebungen durch die automatische Kontextualisierung großer Mengen unterschiedlichster Betriebsdaten." Derartige Plattformen liefern dadurch beispielsweise Informationen über den Lebenszyklus von Applikationen und tragen so zur Transparenz digitaler Geschäftsmodelle bei.
Dabei kombinieren sie Big-Data- und ML-Funktionen (Machine Learning). Typische Einsatzbereiche sind laut Gartner das Korrelieren von Events, die Analyse entsprechender Situationen, das Feststellen von Anomalien, Ursachenanalysen oder die Verarbeitung natürlicher Sprache. Grundvoraussetzung dafür ist ein möglichst breiter Datenzugang.
Künstliche Intelligenz krempelt viele Wirtschafts- und Arbeitsbereiche komplett um. Das gilt selbstverständlich auch für die IT selbst, die diesen Technikbereich ja hervorgebracht hat. Eine Anwendungsform von KI, die vor allem IT-Administratoren und -Verantwortlichen nutzt, ist AIOPs.
Der Begriff setzt sich aus den Komponenten "AI" und "IT Operations" zusammen. Erfunden hat ihn schon 2016 (nach anderen Quellen 2017) wieder einmal das Marktforschungsunternehmen Gartner mit der Studie "Market Guide for AIOps Platforms", die danach jährlich wiederholt wurde. In der 2022er-Ausgabe definiert Gartner AIOps wie folgt: "AIOPs-Plattformen ermöglichen die Entscheidungsfindung über Design, Bereitstellung, die Nutzung und den Betrieb von IT-Umgebungen durch die automatische Kontextualisierung großer Mengen unterschiedlichster Betriebsdaten." Derartige Plattformen liefern dadurch beispielsweise Informationen über den Lebenszyklus von Applikationen und tragen so zur Transparenz digitaler Geschäftsmodelle bei.
Dabei kombinieren sie Big-Data- und ML-Funktionen (Machine Learning). Typische Einsatzbereiche sind laut Gartner das Korrelieren von Events, die Analyse entsprechender Situationen, das Feststellen von Anomalien, Ursachenanalysen oder die Verarbeitung natürlicher Sprache. Grundvoraussetzung dafür ist ein möglichst breiter Datenzugang.
Markt wächst stark
Dass AIOps eine große Zukunft bevorsteht, wird von kaum jemandem angezweifelt. Marketsandmarkets etwa beziffert den globalen Markt für AIOPs-Plattformen auf 11,7 Milliarden US-Dollar 2023 und prognostiziert bis 2028 eine Marktgröße von 32,5 Milliarden. Das entspricht in dieser Zeit einem durchschnittlichen jährlichen Wachstum von 22,7 Prozent. Fortune Business Insights schätzt das Marktvolumen 2023 auf 1,6 Milliarden US-Dollar weltweit, 2032 sollen es 8,6 Milliarden sein. Das durchschnittliche jährliche Wachstum taxiert Fortune auf 21,1 Prozent. Research Nester bringt folgende Daten zur Marktentwicklung: Ein weltweites Marktvolumen im Jahr 2022 von 40,4 Millionen US-Dollar, für Ende 2032 sind 3,2 Milliarden prognostiziert – bei einem durchschnittlichen jährlichen Wachstum von rund 38 Prozent. Die Daten divergieren also deutlich. Klar ist, dass ein starkes Wachstum zu erwarten ist.
Abgrenzung zu MLOps
Nicht verwechselt werden sollten AIOps und MLOps. MLOps bezieht sich auf die Handhabung und Verwaltung unterschiedlicher ML-Pipelines. Denn die sind je nach Aufgabe anders und müssen daher meistens aufgabenspezifisch neu zusammengestrickt werden. Dabei arbeiten Data Scientists, Dateningenieure und das Betriebspersonal zusammen. Red Hat spricht im Zusammenhang mit MLOps von "DevOps für ML-Pipelines". Diese Disziplin ist dringend nötig, denn laut derselben Quelle erreichen nur 13 Prozent der Data-Science-Projekte jemals die Umsetzung.
Eine Form der Kategorisierung von AIOps-Systemen ist die nach Einsatzfeldern. Microsoft Research unterscheidet beispielsweise zwischen Infrastruktur- und Systemintelligenz, DevOps- und kundenbezogener Intelligenz. Typische Anwendungsfelder sind danach KPI-bezogene Messungen (Key Performance Indicators) der Dienstgüte, das Erkennen ungewöhnlichen Systemverhaltens, diesbezügliche Prognosen und selbsttätige Anpassung und Wiederherstellung der Infrastruktur.
Als Beispiele für DevOps-Intelligenz benennt Microsoft Programmier- und CI/ CD-Intelligenz, Auto-Triage und Diagnose sowie Entscheidungen zwischen Reparatur oder anderen Lösungen. Kundenbezogene Intelligenz analysiert das Ver- halten von Kunden, versucht, diesen proaktiv zu mehr Engagement zu bewegen und kann zudem intelligentere Supportsysteme ermöglichen.
Im Idealfall herstellerübergreifend
Es gibt Plattformen, die nur in einem Bereich arbeiten, etwa die Systeme eines bestimmten Herstellers überwachen. Hier liegen die Anfangsgründe von AIOps: Hardwarehersteller sammelten mit Einwilligung ihrer Kunden kundenübergreifend so viele Betriebsdaten wie möglich aus den jeweiligen Infrastrukturen, interpretierten die Befunde und konnten so den Support verbessern. Diese Produkte gibt es schon länger. Die meisten AIOps-Systeme arbeiten allerdings herstellerübergreifend und können an vielfältige existierende Systeme andocken. Sie verstärken insofern den Nutzen und die Analysetiefe beispielsweise von Tools für das Applikations- oder Infrastrukturmanagement.
Typische Aufgaben für AIOPs-Plattformen sind die Integration von Daten aus Quellen wie Infrastruktur, Netzen, Apps, der Cloud oder vorhandenen Monitoringtools. Die Plattformen analysieren Echtzeit-Streaming und historische Daten gemeinsam, speichern entsprechenden Daten und eröffnen den Zugang zu ihnen.
Bild 1: Dringender Vereinfachungsbedarf: Laut einer Studie der HPE-Tochter OpsRamp aus dem Jahr 2023 kommt beim IT-Management eine Vielzahl an Werkzeugen zum Einsatz. (Quelle: OpsRamp)
Muster erkennen und Schlüsse ziehen
Ziel von AIOPs ist, Muster zu erkennen, die auf Zwischenfälle oder auffälliges Verhalten hindeuten. Solche Muster lassen auf die Ursache von Fehlern oder geringer Leistung schließen oder auch auf Angriffe, die sonst möglicherweise länger unentdeckt geblieben wären. Mit intelligenter Automatisierung können AIOPs-Plattformen solche Umstände optimalerweise auch beheben. Außerdem machen die Plattformen den Nutzern Vorschläge, wie sie auf die gefundenen Erkenntnisse reagieren oder ihre IT-Umgebung optimieren können.
Der Hauptnutzen von AIOPs besteht in einem höheren Automatisierungsgrad der IT-Operations-Aufgaben. Bei kniffligen Routineaufgaben, etwa der Topologie-Aufstellung einer umfangreichen Unternehmensinfrastruktur, kann AIOps die Geschwindigkeit erheblich beschleunigen und gleichzeitig die Fehlerwahrscheinlichkeit senken. Bei der bestehenden und sich voraussichtlich weiter verschärfenden Personalknappheit im Bereich IT-Administration sind solche Arbeitserleichterungen nur willkommen.
Vorhandenen Kräfte können sich so auf die wichtigsten Tasks und auch strategische Planung der IT konzentrieren. Die Daten, die AIOps liefert, helfen zudem die Argumentation von IT-Verantwortlichen gegenüber Vorgesetzten zu untermauern.
Einstieg oft mit Widerständen
Allerdings ist der Einstieg in AIOps nicht banal. Schließlich brauchen die Nutzer Fachwissen im Umgang damit. Die nötige Software und gegebenenfalls auch Infrastruktur müssen beschafft werden – in Zeiten knapper Budgets erfordert das stringentes Argumentieren.
Weil die üblichen Arbeitsabläufe geändert werden, beispielsweise durch eine einheitliche Benutzeroberfläche für alle Management- und Überwachungstools einer IT-Landschaft, können Widerstände aufkommen. Niemand sieht gern mühevoll erworbenes, spezialisiertes Toolwissen obsolet werden, weil die KI die Daten jetzt besser und schneller übergreifend integriert und auswertet. Zudem kann herausfordernd sein, das AIOps-Dach über die bisherige Tools zu ziehen. Fehlende offene Schnittstellen und Inkompatibilitäten können Aufwand und Kosten erhöhen, wenn viel händisch nachzuprogrammieren ist.
Das gilt auch für die Qualität der verwendeten Daten. Wer hier nicht vorgearbeitet hat, wird womöglich erst einmal viel Arbeit in die Hebung ihrer Qualität stecken müssen. Die Aktualität der Daten ist bei den häufigen Veränderungen, denen aktuelle Infrastrukturen unterliegen, sehr wichtig. Das bedeutet: Die gewählte Plattform sollte auch mit Streaming-Informationen umgehen können.
Unterschiedliche Anbietertypen
Bei AIOps gibt es unterschiedliche Gruppen von Anbietern. Da sind zunächst einmal die großen Cloudprovider, die zum Betrieb ihrer eigenen Plattformen selbst AIOps verwenden (etwa Microsoft, AWS, Google, aber auch IBM und Oracle) und die Nutzung dieser Fähigkeiten auch ihren Kunden anbieten.
Eine weitere Gruppe bilden die Unternehmen, die unabhängig von ihrer eigenen Cloud Nutzern AIOps-Plattformen als Produkt offerieren (beispielsweise IBM, BMC, Solarwinds, USU, Dynatrace oder Datadog). Hier ist das Angebot am größten, und hier finden sich auch am ehesten Produkte hiesiger Softwarespezialisten.
Andere Anbieter haben AIOps ausschließlich als Service im Programm (zum Beispiel Cloud4c, IBM, Splunk oder Logic Monitor). Und schließlich gibt es Firmen, die AIOps für Endanwender im Angebot haben (etwa Coty, DNB oder Cambia).
Wichtigste derzeitige Anwendungsfelder sind Telekommunikation, Finanzwesen, Gesundheitswesen, Produktion und Handel, also Bereiche, wo komplexe und betriebswichtige Infrastrukturen zu steuern und zu überwachen und hohe Compliance-Anforderungen einzuhalten sind.
AWS und BMC mit eigenen Tools
AWS bietet neben seinem Cloud-Überwachungstool Cloudwatch mit AWS DevOps Guru ein Werkzeug an, das, so der Cloudprovider, den gesamten AWS-Account monitoren und analysieren kann. DevOps Guru erkennt mithilfe von ML automatisch ungewöhnliche Muster in Metriken, Logs und Events. Bei Problemen mit dem Betrieb korreliert das Werkzeug Daten aus mehreren Quellen und verringert so die Zeit bis zu einer Lösung.
DevOps Guru liefert Empfehlungen, um potenzielle Probleme zu vermeiden. Dabei nutzt das Werkzeug Best Practices und historische Daten. Außerdem schlägt das Tool vor, wie sich Ressourcen optimal und kostengünstiger nutzen lassen und wie sie mehr leisten. Die Performance relationaler und nicht relationaler Datenbanken wird bewertet. DevOps Guru prognostiziert auch den zukünftigen Ressourcenbedarf. Dafür nutzt die Software Verkehrsmuster und Nutzungstrends.
Zu den führenden Anbietern von prozesszentrierter AI für den AI-Betrieb gehört BMC. Dessen Tool "Helix Management Operations" kann neben den Grundfunktionen beispielsweise Geschäftsservices und deren Status mittels Heat Maps und Kacheln überwachen. Tools von Drittherstellern lassen sich mit mitgelieferten Adaptern und REST-APIs, Metriken, Events und Topologien ins eigene System integrieren. Sich wiederholende Situationen werden automatisch erkannt. Die Formulierung von Anfragen an das System gestaltet sich mithilfe des Werkzeugs einfacher.
Das Rauschen durch die Vielzahl eingehender Daten reduziert das BMC-Tool nach Herstellerangaben durch Filtermechanismen um 90 Prozent. Außerdem lassen sich Daten mit BMC Helix Dashboards mittels kundenspezifischer und vordefinierter Display-Formate individualisieren. Das Monitoring verzahnt sich auf Wunsch mit vorhandenen ITSM-Systemen (IT-Service-Management).
Bild 2: Bei der Ursachenanalyse mit BMC Helix sind die Prioritäten für die IT-Administration sauber aufgelistet. (Quelle: BMC)
IBM und Dynatrace mischen mit
IBM hat seit Neuestem mit IBM Concert ein generatives AIOps-Werkzeug für das Anwendungsmanagement und den Technologiebetrieb im Portfolio. Es bringt die Priorisierung von Events und auf die individuelle Anwendungsumgebung zugeschnittene Empfehlungen, analysiert automatisch die Daten unterschiedlicher Systeme und Tools und liefert Einsichten und Lösungsvorschläge. Das gilt auch proaktiv.
Die Funktion "IBM Concert Resilience Lens" stimmt den Status der Anwendungsumgebung mit den strategischen Geschäftszielen ab. Dazu werden Datensilos integriert, Applikationen je nach ihrer Bedeutung für das Geschäft überwacht und analysiert und Ausfälle von Anwendungen proaktiv verhindert. Das Werkzeug erkennt plattformübergreifend Lücken in der Resilienzarchitektur. Dabei wird auf IBMs Best-Practises-Framework zurückgegriffen. Das Ziel ist, Resilienzmechanismen möglichst früh in den Zyklus der Anwendungsentwicklung zu integrieren.
Außerdem baut IBM in immer mehr andere Tools AIOps-Funktionen ein. Beispiele sind IBM Turbonomic, das in die Ressourcenoptimierung von IBM Instana integriert wurde. Damit lässt sich der Bedarf in Echtzeit zentralisiert und kontextbasiert ermitteln. Mit Turbonomic können VMware-Administratoren ihre Umgebungen automatisiert und kontinuierlich in Echtzeit optimieren. Dafür arbeitet das Tool mit vCenter zusammen.
Dynatrace Open AIOps ist ein modulares System, das auch in Multicloud-Systemen seinen Dienst tut. Für die Discovery des gesamten Stacks findet die Funktion OneAgent Verwendung. Sie kommt automatisch und über APIs an die nötigen Daten. Smartscape überwacht kontinuierlich die Topologie der Beziehungen und Interdependenzen der gesamten Umgebung. Diese Topologien lassen sich durch weitere Daten und Events erweitern. Angebunden werden können beispielsweise F5, IBM Data Power, Citrix NetSCALER, Service Now, Puppet, Chef und andere. Die AI-Engine Davis lernt mit jeder Erweiterung der IT-Umgebung dazu. Anwender haben automatisch Zugriff auf die gesamte Plattform.
Weil Dynatrace seine Preisgestaltung als einer von wenigen Herstellern recht transparent darstellt, hier ein paar Beispiele: Die Überwachung des gesamten Stacks kostet 0,08 US-Dollar pro Stunde für einen 8-GibiByte-Host. Infrastrukturmonitoring kostet 0,04 US-Dollar pro Stunde und jede Host-Größe. Die Überwachung von Kubernetes-Pods ist für 0,002 US-Dollar pro Stunde für beliebig große Pods zu haben. Die Anwendungssicherheit wird für 0,018 US-Dollar pro Stunde für einen 8-GibiByte-Host angeboten. Synthetische Requests schlagen mit je 0,01 US-Dollar zu Buche, pro überwachter User-Session werden 0,00225 US-Dollar fällig.
Weitere Anbieter
USU sieht seine Stärke im IT-Servicemanagement und reichert seine Tools mit AIOps-Funktionen an. Durchschnittlich sollen Tickets durch die AI-Funktionen in nur noch einer Minute an die richtige Stelle geleitet werden. Durch die automatische Analyse historischer Daten lassen sich Tickets laut Anbieter angemessen kategorisieren. Schnellere Weiterleitung und sofortige passende Zuordnung sollen Vorfälle insgesamt einfacher lösbar machen. Das, so USU, reduziere die Ausfallzeiten deutlich. Kunden können über einen Chatbot mit integriertem ChatGPT schneller und automatisiert Antworten auf häufig gestellte Fragen erhalten. Das soll das Ticketaufkommen insgesamt wirksam reduzieren.
Solarwinds gehört zu den Spezialisten für IT-Management mit langjähriger Erfahrung. Der Anbieter integriert eingehende Verbindungen über ihre Anwendungsstacks und ihr Speichervolumen mit automatisch koordinierten Ansichten. Zu den genutzten AIOps-Funktionen gehören auch Statistikmodelle und statistische Transformationen. Zur Kapazitätsplanung kommen Regressionsmodelle auf Verlaufsdaten zum Einsatz. Anwendungsprobleme erkennt AppStack – die Funktion zeigt alle Anwendungsschichten bis hinunter zu Speichervolumen und APIs. PerfStack, ein Drag-and-Drop-Dashboard, korreliert Metriken, Ereignisse und Konfigurationsänderungen in einer einheitlichen Ansicht.
Darauf ist beim AIOps-Einstieg zu achten
Zum Schluss noch einige Punkte, die IT-Verantwortliche bei der Anschaffung einer AIOps-Plattform auf jeden Fall berücksichtigen sollten. Vor allem sollte eine Plattform imstande sein, sich mit möglichst wenig Aufwand in die bestehende Toollandschaft der IT-Administration und -Sicherung zu integrieren. Das bedeutet, dass sie die Daten dieser Applikationen lesen und auswerten sowie die nötigen Vorgänge an den einzelnen überwachten Systemen anstoßen kann, die einen Fehler beheben.
Wichtig ist auch, dass sich die Arbeit durch eine AIOps-Plattform wirklich und nicht nur in den Marketingunterlagen des Herstellers vereinfacht. Dazu gehören eine übersichtliche Benutzerschnittstelle und Darstellung. Grafiken sind besser dafür geeignet als ellenlange Zeichenstrings. Die Benutzerschnittstelle sollte den Durchgriff auf alle angebundenen Tools erlauben.
Die Bedienung sollte möglichst selbsterklärend sein und nicht das ausgiebige Studium umfassender Handbücher oder viele teure Schulungen erfordern. Vorteilhaft sind vordefinierte Workflows und Templates für Standardaufgaben, die nur noch angepasst werden müssen. Am besten ist es, wenn eine Plattform Routinetasks weitestgehend automatisiert.
Automatische Fehlerbehebung und Modellqualität
Darüber hinaus wird es für Admins erst richtig interessant, wenn die gewählte Plattform Fehler nicht nur automatisch erkennt, sondern auch behebt, ihre Ursachen analysiert und nur dann, wenn es wirklich nötig ist, auf persönliche Eingriffe der Admins zurückgreift. Dazu gehört es auch, dass die AIOps-Umgebung dem Admin-Personal persönliche Handlungsnotwendigkeiten deutlich zu erkennen gibt. Mithilfe ihrer Intelligenz sollte die Plattform mehrere Aufgaben so priorisieren und verteilen, dass das ausfallfreie Funktionieren der essenziellen Teile der IT-Infrastruktur möglichst weitreichend sichergestellt ist.
Nutzer sollten sich zudem vom Anbieter gründlich erklären lassen, wie – also mit welchen Modellen und Verfahren – die gewählte Plattform mit den Daten der einzelnen Tools umgeht. Dazu gehören auch Informationen bezüglich der Aktualität der Modelle und darüber, wie häufig sie nachtrainiert werden müssen oder ob sie ihr Wissen ausschließlich "on the job" erwerben.
Denn ein Modell, dessen Algorithmen mit veralteten Daten trainiert wurde oder dessen Struktur an sich veraltet ist, weil es inzwischen Besseres gibt, wird kaum optimale Ergebnisse liefern. Außerdem sollte natürlich klar sein, welche Aufgaben der Lieferant bei Wartung und Support übernimmt, wie häufig Updates kommen und so weiter. Nicht vergessen werden darf, dass sensible Daten, mit denen die AIOps-Plattform arbeitet oder auf die sie Zugriff hat, entsprechend geschützt und dafür beispielsweise anonymisiert werden. Sonst begeht die IT möglicherweise ungewollt Verstöße gegen die DSGVO.
Fazit
Gerade bei komplexeren Infrastrukturen dürfte die Investition in eine AIOps-Plattform meist lohnend sein. Denn sie verspricht der IT-Administration nach einer Anlaufzeit wirksame Erleichterung ihres anstrengenden Jobs. Da sich die IT-Landschaft ständig verändert, ist allerdings mit einer stetigen Weiterentwicklung auch der Steuerungs- und Überwachungsinfrastruktur zu rechnen: Neue Aufgaben müssen in weiteren Tools oder Plattformfunktionen abgebildet und diese wiederum in die AIOPs-Plattform eingebunden werden. Für Admins dürfte also genug zu tun bleiben.
(ln)