ADMIN

2022

08

2022-07-28T12:00:00

Verzeichnisdienste und Benutzermanagement

RUBRIKEN

097

Forschungslabor

Aus dem Forschungslabor Folge 44

Aus Wort mach Bild

von Daniel Richey

Veröffentlicht in Ausgabe 08/2022 - RUBRIKEN

Heutige KI-Systeme – oder neuronale Netze – sind so komplex, dass selbst ihre Erschaffer die Vorgänge dahinter nicht mehr gänzlich nachvollziehen können. Ein Weg, um die Sicht von KIs auf unsere Welt besser zu verstehen, bietet Dall-E 2. Die KI erzeugt aus natürlich klingenden Beschreibungen beeindruckende Bilder und soll uns so dabei helfen, ihren Blick auf die Dinge besser zu verstehen.

Kreativität liegt uns Menschen in den Genen. Und während wir uns schwer damit tun, mathematische Gleichungen aufzulösen oder uns die Geburtstage der Kollegen – oder deren Namen – zu merken, fällt dies einem Rechner überaus leicht. Andererseits weiß eine Maschine mit abstrakteren Dingen wie etwa Kunst in der Regel wenig anzufangen. Ihr fehlt es an der nötigen Vorstellungskraft, die schon kleine Kinder ohne Probleme aufbringen. Die KI Dall-E 2 soll dies ändern.
Seit Januar 2022 als Nachfolger von Dall-E am Start, ist das System in der Lage, aus für Menschen natürlich klingenden Beschreibungen Bilder zu erstellen, zum Beispiel von einem Astronauten im Raumanzug, der an einem Pool liegt oder mit Katzen im Weltall Basketball spielt. Dadurch verknüpft die KI Dinge miteinander, die normalerweise keinen Bezug haben – also zum Beispiel ein Astronaut und ein Swimmingpool. Oder ein motorradfahrender Koala.
Zunächst muss Dall-E 2 mit Bildern und den zugehörigen Labels angelernt werden, also etwa Fotos von Autos, bestimmten Tieren oder Gebäuden. Danach kann die KI anfangen, Bilder zu verknüpfen, indem sie beispielsweise lernt, wie ein Motorradfahrer typischerweise auf seiner Maschine sitzt. Dieses Wissen wiederum überträgt das System dann auf ein neu zu erstellendes Bild, auf dem ein Koala Motorrad fährt. Dadurch konnten die Forscher einerseits zeigen, dass neuronale Netze durch menschliche Sprache gesteuert werden können und aus den verwendeten Sätzen die richtigen Schlussfolgerungen ziehen. Andererseits bewiesen sie durch Dall-E, dass ebensolche Netze hochauflösende Bilder erzeugen können, und das in unterschiedlichen Stilen – als realistisches Foto, Pixel-Art oder Gemälde in Wasserfarben.
Kreativität liegt uns Menschen in den Genen. Und während wir uns schwer damit tun, mathematische Gleichungen aufzulösen oder uns die Geburtstage der Kollegen – oder deren Namen – zu merken, fällt dies einem Rechner überaus leicht. Andererseits weiß eine Maschine mit abstrakteren Dingen wie etwa Kunst in der Regel wenig anzufangen. Ihr fehlt es an der nötigen Vorstellungskraft, die schon kleine Kinder ohne Probleme aufbringen. Die KI Dall-E 2 soll dies ändern.
Seit Januar 2022 als Nachfolger von Dall-E am Start, ist das System in der Lage, aus für Menschen natürlich klingenden Beschreibungen Bilder zu erstellen, zum Beispiel von einem Astronauten im Raumanzug, der an einem Pool liegt oder mit Katzen im Weltall Basketball spielt. Dadurch verknüpft die KI Dinge miteinander, die normalerweise keinen Bezug haben – also zum Beispiel ein Astronaut und ein Swimmingpool. Oder ein motorradfahrender Koala.
Zunächst muss Dall-E 2 mit Bildern und den zugehörigen Labels angelernt werden, also etwa Fotos von Autos, bestimmten Tieren oder Gebäuden. Danach kann die KI anfangen, Bilder zu verknüpfen, indem sie beispielsweise lernt, wie ein Motorradfahrer typischerweise auf seiner Maschine sitzt. Dieses Wissen wiederum überträgt das System dann auf ein neu zu erstellendes Bild, auf dem ein Koala Motorrad fährt. Dadurch konnten die Forscher einerseits zeigen, dass neuronale Netze durch menschliche Sprache gesteuert werden können und aus den verwendeten Sätzen die richtigen Schlussfolgerungen ziehen. Andererseits bewiesen sie durch Dall-E, dass ebensolche Netze hochauflösende Bilder erzeugen können, und das in unterschiedlichen Stilen – als realistisches Foto, Pixel-Art oder Gemälde in Wasserfarben.
"Ein Astronaut, der im Weltall Basketball mit Katzen spielt, gemalt mit Wasserfarben": So lautete die Anweisung, aus der Dall-E 2 dieses Bild kreiert hat.
Neue und interpretierte Gemälde
Dieses Vorgehen bezeichnen die Forscher als Diffusion. Es beginnt mit einer Reihe zufällig angeordneter Bildpunkte, die Dall-E 2 dann solange umsortiert, bis ein Bild mit den gewünschten Aspekten daraus entsteht. Doch nicht nur eigene, wilde Kreationen erschafft die KI derart, sondern interpretiert auch existierende Gemälde neu. So kann sie Porträts abwandeln, indem sie den Blickwinkel ändert oder der Person andere Gesichtszüge verpasst.
Die zweite Generation der KI schafft dabei eine viermal höhere Auflösung als ihr Vorgänger und kann insbesondere fotorealistischere Bilder erzeugen. Am Ende soll Dall-E 2 dabei helfen, das Verständnis, das KIs von unserer Welt haben, nachzuvollziehen. Denn längst ist Forschern nicht mehr klar, wie künstliche Intelligenzen unsere Realität wahrnehmen und zu bestimmten Entscheidungen kommen.
Link-Codes