DALL-E

Computerprogramm zum Erstellen von fotorealistischen Bildern aus Textdateien

DALL-E (stilisiert als DALL·E) und die Nachfolger DALL-E 2 und DALL-E 3 sind von OpenAI entwickelte Computerprogramme, die Bilder aus Textbeschreibungen aufgrund von maschinellem Lernen erstellen können. Der Name ist ein Kofferwort aus dem kleinen animierten Roboter Wall-E aus dem gleichnamigen Film und dem spanischen Surrealisten Salvador Dalí.[1] Das Programm nutzt künstliche neuronale Netzwerke, ⁣um Wörter als Input in Anordnungen von Pixeln als Output zu transferieren. Mithilfe von Textanordnungen können von dem Programm fotorealistische Bilder erstellt werden.[2] Die künstliche Intelligenz kann dabei völlig neue Konzepte abbilden und Bilder in verschiedenen künstlerischen Stilrichtungen kreieren.[3] Um Bilder erzeugen zu können, wurde das Modell mithilfe von Millionen im Internet verfügbaren Bildern trainiert. Das Programm basiert auf dem ebenfalls von OpenAI entwickelten Generative Pre-trained Transformer 3 (GPT-3), einem Textgenerator, welcher Texte, Textzusammenfassungen und sogar Gedichte verfassen kann.[4]

DALL-E
Ein Bildgenerator basierend auf einer AI mit modernster Technik
Bild-Generator
SprachenEnglisch
GründerOpenAI
BetreiberOpenAI
Benutzermehr als 1.500.000
RegistrierungJa
Onlineseit Jan. 2021
(aktualisiert 12. Mai 2023)
https://labs.openai.com/

Technologie

Von DALL-E 2.0 generiertes Bild zum Text “A Shiba Inu dog wearing a beret and black turtleneck”

Das Generative Pre-Trained-Transformer-(GPT)-Modell wurde ursprünglich von OpenAI im Jahr 2018 unter Verwendung einer Transformer-Architektur entwickelt.[5] Die erste Iteration, GPT, wurde skaliert, um GPT-2 im Jahr 2019 zu produzieren; 2020 wurde es erneut skaliert, um GPT-3 mit 175 Milliarden Parametern zu produzieren. Das Modell von DALL-E ist eine multimodale Implementierung von GPT-3 mit 12 Milliarden Parametern, die „Text gegen Pixel austauscht“, trainiert mit Text-Bild-Paaren aus dem Internet. DALL-E 2 verwendet 3,5 Milliarden Parameter, weniger als sein Vorgänger.[5]

DALL-E wurde in Verbindung mit CLIP (Contrastive Language-Image Pre-training) entwickelt und der Öffentlichkeit vorgestellt. CLIP ist ein separates Modell, das auf Zero-Shot-Lernen basiert und mit 400 Millionen Bildpaaren mit Textbeschriftungen aus dem Internet trainiert wurde. Seine Aufgabe besteht darin, die Ausgabe von DALL-E zu „verstehen und einzustufen“, indem vorhergesagt wird, welche Beschriftung aus einer Liste von 32.768 zufällig aus dem Datensatz ausgewählten Beschriftungen (von denen eine die richtige Antwort war) für ein Bild am besten geeignet ist. Dieses Modell wird verwendet, um eine größere anfängliche Liste von Bildern zu filtern, die von DALL-E generiert wurden, um die am besten geeigneten Ausgaben auszuwählen.

DALL-E 2 verwendet ein Diffusionsmodell, das auf CLIP-Bildeinbettungen konditioniert ist, die während der Inferenz aus CLIP-Texteinbettungen durch ein früheres Modell generiert werden.

Versionsüberblick

DALL-E wurde am 5. Januar 2021 von OpenAI vorgestellt.[6] Bei der Ankündigung hieß es, die Software befinde sich noch in der Forschungsphase und der Zugang sei auf vorab ausgewählte Betanutzer beschränkt. Das Modell kann immer noch schwerwiegende Fehler machen, auch solche, die kein Mensch machen würde.[7] Die verbesserte Version DALL-E 2.0 wurde im April 2022 vorgestellt.[8] Öffentlich verfügbar ist seit dem 21. April 2022 die weniger leistungsfähige Version Craiyon (anfangs bekannt als DALL-E mini), welche auf dem Quellcode von DALL-E beruht. Die surrealen Bilder des Modells wurden prompt von Internetnutzern zur Erstellung von Memes benutzt.[9][10]

Im September 2022 wurde die allgemeine Verfügbarkeit von DALL-E 2.0 bekannt gegeben.[11][12]

Meinungen zu DALL-E

Die Leistungsfähigkeit des Modells wurde als „beeindruckend“[1] und „unheimlich“[13] bezeichnet. Manche Beobachter sahen es als Zeichen für die starken Fortschritte im Machine Learning. Entwickler von OpenAI und Sam Altman, der CEO, erklärten DALL-E zu einem entscheidenden Schritt auf dem Weg zu Artificial General Intelligence. Andere widersprachen, es handle sich bei DALL-E um keine mit dem Menschen vergleichbare Intelligenz, da es keinerlei generelles Verständnis von Konzepten ausweist. Zudem würde es weiterhin viele Fehler machen, die auf dem fehlenden Verständnis für Objekte in der physischen Welt beruhen.[14] Das Modell könnte dennoch starken Einfluss auf Künstler und Grafikdesigner haben.[15] Die Generierung von Desinformation und gefälschten Bildern wurde in einem Artikel der New York Times befürchtet.[16] Auch könnte das Programm eine kulturelle Voreingenommenheit besitzen, da es allein auf der englischen Sprache beruht und die Bilder zum Training des Programms zum größten Teil aus dem westlichen Kulturkreis stammen und generierte Bilder deshalb stereotype Vorstellungen widerspiegeln können.[9]

Siehe auch

Weblinks

Commons: DALL-E – Sammlung von Bildern

Literatur

  • Jens Knappe: Genesis. Eine Schöpfungsgeschichte in Zusammenarbeit mit einer Künstlichen Intelligenz. Berlin 2022, ISBN 978-3-940948-45-8.

Einzelnachweise