ADMIN
2022
07
2022-06-29T12:00:00
Mobiles Arbeiten
RUBRIKEN
097
Forschungslabor
Aus dem Forschungslabor Folge 43
Talentiertes Kätzchen
von John Pardey
Veröffentlicht in Ausgabe 07/2022 - RUBRIKEN
Alphabets Forschungslabor Deepmind hat eine neue künstliche Intelligenz vorgestellt, die über 600 verschiedene Aufgaben löst – darunter das Spielen eines Videogames und die Steuerung eines robotischen Arms. Darüber hinaus lernte das neuronale Netz, seine eigene Präzenz in realen Räumen wahrnehmen zu können, was es für den Einsatz in physischen Robotern prädestiniert.
Gato nennt Deepmind seine neue KI mit Referenz auf das spanische Wort für Katze und ordnet sie in die Gruppe der Systeme mit künstlicher allgemeiner Intelligenz (AGI, Artificial General Intelligence) ein. Darunter fallen laut Definition Systeme mit der Fähigkeit, jede Aufgabe zu verstehen und zu erlernen, die auch ein Mensch erledigen kann. Unterstützt wird Gato zudem durch eine Technologie namens "multiples Embodiment" (Verkörperung im Raum). Sie simuliert durch räumliche Sensorik die physische Präsenz mit den dazugehörigen Sinneswahrnehmungen. Laut Deepmind ist Gato ein Allzwecksystem, das die Lösung vieler verschiedener Arten von Aufgaben lernen kann. Gato wurde auf 604 Aufgaben trainiert, darunter das Beschriften von Bildern, das Führen von Dialogen, das Stapeln von Blöcken mit einem echten Roboterarm und das Spielen von Atari-Spielen.
600 Fähigkeiten antrainiert
Wie alle KI-Systeme musste Gato anhand realer Beispiele trainieren. Dazu fütterten es die Forscher mit Milliarden von Wörtern, Bildern aus realen und simulierten Umgebungen, Steuerungsinteraktionen, Gelenkdrehmomenten und mehr. Die Darreichung dieser Daten erfolgte in Form von Tokens, die dazu dienen, Daten in einer für Gato verständlichen Form darzustellen. Damit war es dem System möglich, beispielsweise die Spielmechanik des Atari-Spieleklassikers "Breakout" selbstständig herauszufinden.
Im Detail wurde Gato in seiner Trainingsphase wie erwähnt über Tokens serialisiert, dann als Batch gestapelt und schließlich durch ein neuronales Transformer-Netzwerk ähnlich verarbeitet, wie es von großen KI-Sprachmodellen bekannt ist. Bei dem Verfahren maskierten Machine-Learning-Ingenieure den "Schwund" (Verlust- oder auch Loss-Funktion, die die Genauigkeit der Ergebnisse misst) und trainierten das Modell dahingehend, dass es nur Handlungs- und Textziele "vorhersagt". Zurzeit beruhen die bekannten Transformer-Modelle auf dem Ansatz der Predictions (Vorhersagen), indem sie bei einer Eingabeaufforderung aus ihrem Datensatz und den gelernten Verknüpfungen die wahrscheinlichsten Antworten berechnen und ausgeben.
Gato nennt Deepmind seine neue KI mit Referenz auf das spanische Wort für Katze und ordnet sie in die Gruppe der Systeme mit künstlicher allgemeiner Intelligenz (AGI, Artificial General Intelligence) ein. Darunter fallen laut Definition Systeme mit der Fähigkeit, jede Aufgabe zu verstehen und zu erlernen, die auch ein Mensch erledigen kann. Unterstützt wird Gato zudem durch eine Technologie namens "multiples Embodiment" (Verkörperung im Raum). Sie simuliert durch räumliche Sensorik die physische Präsenz mit den dazugehörigen Sinneswahrnehmungen. Laut Deepmind ist Gato ein Allzwecksystem, das die Lösung vieler verschiedener Arten von Aufgaben lernen kann. Gato wurde auf 604 Aufgaben trainiert, darunter das Beschriften von Bildern, das Führen von Dialogen, das Stapeln von Blöcken mit einem echten Roboterarm und das Spielen von Atari-Spielen.
600 Fähigkeiten antrainiert
Wie alle KI-Systeme musste Gato anhand realer Beispiele trainieren. Dazu fütterten es die Forscher mit Milliarden von Wörtern, Bildern aus realen und simulierten Umgebungen, Steuerungsinteraktionen, Gelenkdrehmomenten und mehr. Die Darreichung dieser Daten erfolgte in Form von Tokens, die dazu dienen, Daten in einer für Gato verständlichen Form darzustellen. Damit war es dem System möglich, beispielsweise die Spielmechanik des Atari-Spieleklassikers "Breakout" selbstständig herauszufinden.
Im Detail wurde Gato in seiner Trainingsphase wie erwähnt über Tokens serialisiert, dann als Batch gestapelt und schließlich durch ein neuronales Transformer-Netzwerk ähnlich verarbeitet, wie es von großen KI-Sprachmodellen bekannt ist. Bei dem Verfahren maskierten Machine-Learning-Ingenieure den "Schwund" (Verlust- oder auch Loss-Funktion, die die Genauigkeit der Ergebnisse misst) und trainierten das Modell dahingehend, dass es nur Handlungs- und Textziele "vorhersagt". Zurzeit beruhen die bekannten Transformer-Modelle auf dem Ansatz der Predictions (Vorhersagen), indem sie bei einer Eingabeaufforderung aus ihrem Datensatz und den gelernten Verknüpfungen die wahrscheinlichsten Antworten berechnen und ausgeben.
Nicht immer perfekt
Bezogen auf die Vielzahl der gestellten Aufgaben sieht Gatos Leistungsbilanz allerdings nicht durchweg gut aus. Häufig antwortet das System falsch, verwechselt beim Beschriften von Bildern die Geschlechter von Personen und stapelt die Blöcke mit dem robotischen Arm ebenfalls nur zu 60 Prozent richtig. Dennoch ist Deepmind zufrieden, denn bei 450 der 604 Aufgaben soll Gato überwiegend besser abschneiden als ein menschlicher Experte im jeweiligen Fachgebiet. Dies ist insofern nachvollziehbar, als dass bislang auch einfachste KIs anfangs mit schlechten Erfolgsquoten aufwarteten und sich im Laufe der Zeit durch Training zu Spitzenleistungen weiterentwickelten.
Allerdings ist Gato in Bezug auf die Anzahl der Parameter um Größenordnungen kleiner als etwa GPT-3 (eine Sprachsoftware aus Deutschland). Parameter sind hierbei die Teile des Systems, die es aus Trainingsdaten erlernt. Sie sind im Wesentlichen kongruent zu den Fähigkeiten, die ein System aufbieten kann – Gato hat 1,2 Milliarden, während GPT-3 über mehr als 170 Milliarden Parameter verfügt. Diese geringe Ausstattung ist jedoch laut Deepmind beabsichtigt. Gato soll in Echtzeit agieren können, was mit steigender Zahl der Parameter schwieriger würde. Würde Gato nun aber vergrößert, so könnte es nach Ansicht der Google-Forscher "jede Aufgabe, jedes Verhalten und jede Verkörperung von Interesse" bewältigen.
Roboter-Betriebssystem?
Bei genauer Betrachtung aller von Gato erlenten Fähigkeiten liegt die Vermutung nicht fern, dass Deepmind hier zumindest einen Prototyp für ein Roboter-OS entwickelt. Gato kann sich in realen Welten zurechtfinden, diese mit einem Roboterarm manipulieren und darüber hinaus eine sehr große Anzahl von Funktionen ausführen. Und dies alles in Echtzeit, was Gato beispielsweise zu einem sehr ordentlichen Butler oder Lagerarbeiter machen würde. Dies sind aber nur Spekulationen der Redaktion – Deepmind hat sich dahingehend nicht geäußert.