ADMIN
2021
07
2021-07-01T12:00:00
Container- und Applikationsmanagement
RUBRIKEN
105
Forschungslabor
Aus dem Forschungslabor Folge 31
Räum doch mal auf
von John Pardey
Veröffentlicht in Ausgabe 07/2021 - RUBRIKEN
Unternehmen setzen zunehmend auf künstliche Intelligenz und Machine Learning, um aus ihren Datenbeständen Trends oder Handlungsempfehlungen abzuleiten. Die größte Hürde ist dabei längst nicht mehr die Lernfähigkeit von Computern, sondern die schlechte Qualität, in der Daten vorliegen. Dubletten, Tippfehler oder fehlende Werte in Tabellen verursachen bis zu 25 Prozent der Kosten eines KI-Projekts. Die neue Programmiersprache PClean vom MIT soll Abhilfe schaffen.

Data Scientists sind heute weltweit gesuchte Spezialisten und gehören zu den am besten bezahlten Berufen in der IT. Gewiss, dieser zahlen- und datenorientierte Job ist nicht für jeden etwas, doch wer ihn ergreift, hatte sicher nicht vor Augen, einen großen Teil seiner Arbeitszeit mit der Korrektur von Schreibfehlern und Ähnlichem zu verbringen. Und doch ist genau dies Alltag für viele Datenwissenschaftler, was zur Folge hat, dass KI-Projekte länger dauern als geplant und mehr kosten. Gleichzeitig führt für Unternehmen aber auch kein Weg an dieser Datenhygiene vorbei, wenn sie planen, mit ihren gewachsenen Datenbeständen einen KIAlgorithmus lernen zu lassen. Denn "schlechte" Daten führen zu unbrauchbaren Auswertungen durch die künstliche Intelligenz. So geht unweigerlich ein großer Anteil der Kosten für ein solches Projekt in die Aufbereitung der Daten.
Aufräumen automatisiert
Forscher des MIT haben nun mit PClean eine Programmiersprache entwickelt, die helfen soll, die Aufräumarbeiten in den Daten zu automatisieren. Mit der Software entwickeln Programmierer oder Data Scientists einen wissensbasierten Ansatz, um die Daten automatisiert in einen Zustand zu bringen, der erlaubt, sie an den KI-Algorithmus zu übergeben.
Dies geht dabei weit über eine Software zur Korrektur von beispielsweise einfachen Schreibfehlern hinaus. Dies lässt sich an einem Beispiel gut verdeutlichen: Nehmen wir an, eine Versicherung hat im prä-digitalen Zeitalter Verträge zunächst auf Papier erfasst und später in Datenbanken eingepflegt. Von Millionen Versicherten leben schon rein statistisch eine große Anzahl in einem Ort namens "Hausen", dem in Deutschland weitverbreitetsten Ortsnamen. Nun fehlt jedoch bei einer gewissen Anzahl dieser Versicherten das zugehörige Bundesland – entweder wurde es bei Vertragsabschluss nicht erfasst oder ist in der Datenbank falsch hinterlegt worden, sodass es nun ebenfalls abhandengekommen ist. PClean ist nun, versorgt mit menschlichem Wissen und ergänzenden Daten in der Lage, herauszufinden, um welches Hausen es im Einzelnen geht.
Data Scientists sind heute weltweit gesuchte Spezialisten und gehören zu den am besten bezahlten Berufen in der IT. Gewiss, dieser zahlen- und datenorientierte Job ist nicht für jeden etwas, doch wer ihn ergreift, hatte sicher nicht vor Augen, einen großen Teil seiner Arbeitszeit mit der Korrektur von Schreibfehlern und Ähnlichem zu verbringen. Und doch ist genau dies Alltag für viele Datenwissenschaftler, was zur Folge hat, dass KI-Projekte länger dauern als geplant und mehr kosten. Gleichzeitig führt für Unternehmen aber auch kein Weg an dieser Datenhygiene vorbei, wenn sie planen, mit ihren gewachsenen Datenbeständen einen KIAlgorithmus lernen zu lassen. Denn "schlechte" Daten führen zu unbrauchbaren Auswertungen durch die künstliche Intelligenz. So geht unweigerlich ein großer Anteil der Kosten für ein solches Projekt in die Aufbereitung der Daten.
Aufräumen automatisiert
Forscher des MIT haben nun mit PClean eine Programmiersprache entwickelt, die helfen soll, die Aufräumarbeiten in den Daten zu automatisieren. Mit der Software entwickeln Programmierer oder Data Scientists einen wissensbasierten Ansatz, um die Daten automatisiert in einen Zustand zu bringen, der erlaubt, sie an den KI-Algorithmus zu übergeben.
Dies geht dabei weit über eine Software zur Korrektur von beispielsweise einfachen Schreibfehlern hinaus. Dies lässt sich an einem Beispiel gut verdeutlichen: Nehmen wir an, eine Versicherung hat im prä-digitalen Zeitalter Verträge zunächst auf Papier erfasst und später in Datenbanken eingepflegt. Von Millionen Versicherten leben schon rein statistisch eine große Anzahl in einem Ort namens "Hausen", dem in Deutschland weitverbreitetsten Ortsnamen. Nun fehlt jedoch bei einer gewissen Anzahl dieser Versicherten das zugehörige Bundesland – entweder wurde es bei Vertragsabschluss nicht erfasst oder ist in der Datenbank falsch hinterlegt worden, sodass es nun ebenfalls abhandengekommen ist. PClean ist nun, versorgt mit menschlichem Wissen und ergänzenden Daten in der Lage, herauszufinden, um welches Hausen es im Einzelnen geht.
Gesunder Maschinenverstand
Dabei ist laut Alex Lew vom Department of Electrical Engineering and Computer Science am MIT besonders beeindruckend, dass sich PClean im Prinzip wie ein Mensch zu seiner Aufgabe führen lässt. Während normalen Anwendungen Schritt für Schritt einprogrammiert werden muss, was sie zu tun haben, arbeitet PClean kognitiv und erfasst Probleme fast wie ein Mensch.
Bleiben wir bei unserem Beispiel, könnte dies so aussehen: Lotte Müller aus Hausen (ohne Bundesland) hat eine Versicherung für ihr Boot abgeschlossen. PClean kann nun einfach beigebracht werden, dass Lotte wohl eher in Schleswig-Holstein wohnt als in Baden-Württemberg, einfach weil dort viel weniger Menschen ein Boot haben und auch weil die Küstenlinie bedeutend kürzer ist. Diese Rückschlüsse kann PClean aus dem bereitgestellten Wissen ableiten.
Aufräumen nach dem Aufräumen
Denn eine weitere Stärke von PClean ist, dass es sich anhand seiner Erfolge oder Misserfolge beim Aufräumen selbst verbessern kann. So läuft der Vorgang in der Software immer in zwei Phasen ab: Zunächst erfolgt die Bereinigung der Daten auf Basis des gegebenen menschlichen Inputs als bestmögliche Annäherung oder "Informed Guess". Anschließend prüft es die Logik seiner Korrekturen gegen sich selbst.
Und schließlich gibt es ja auch immer noch die Datenwissenschaftler, die mit PClean interagieren können und der Software nach ersten Versuchsrunden ein Feedback geben können, um die Ergebnisse weiter zu verbessern. Um letztmalig auf unser Beispiel zu sprechen zu kommen: Stellt sich nämlich heraus, dass es gar keinen Ort Hausen gibt, der an der Küste liegt, sollte PClean in kommenden Durchläufen vielleicht besser einen Blick auf entsprechende Ortschaften werfen, die an einem Fluß oder See liegen.