Lohnt sich DALL-E 3? Bester KI-Bildgenerator – trotz Zensurdiktatur

Was die Qualität von KI-generierten Bildern angeht, gab Midjourney lange Zeit den Takt vor. Nicht ohne Grund ist es die namentlich wohl bekannteste Bild-KI. Seit Oktober gibt es mit DALL-E 3 allerdings eine neue Konkurrenz von OpenAI, die zudem direkt mit dessen bekannten Chatbot ChatGPT verknüpft ist. Lohnt sich DALL-E 3 oder hat sich die Qualität nur leicht gegenüber der Vorgängerversion verbessern können?

Im Test konnte mich DALL-E 3 sowohl faszinieren, als auch das ein oder andere graue Haar verursachen. Die Zeiten, in denen KI-Kunst noch deutlich als solche erkennbar ist, ist aber langsam vorbei. Doch ist DALL-E 3 jetzt besser als Midjourney? Und ebenso wichtig: Ist DALL-E 3 den Preis eines ChatGPT Plus-Abos wert? Eines kann ich euch bereits verraten: Die Zugänglichkeit ist dabei ein ganz wichtiger Faktor.   

Prompten war nie einfacher

Um gute KI-Kunst zu erschaffen brauchte man bislang ein sehr großes technisches Verständnis des Handwerks. Gute Bildprompts, das sind die schriftlichen Bildanfragen, enthielten sehr detailierte Anweisungen bis hin zu verwendeten Kamera-Objektiven. Ebenso musste man sehr gut verstehen, wie die KI die Anfragen am besten verarbeitet. In geübten Händen ist gerade in Midjourney damit viel möglich. Für Laien endet dagegen die anfängliche Euphorie über die „KI-Magie“ bald in Frustration, wenn die eigene Idee einfach nicht zum Ergebnis passt.

Ganz anders ist DALL-E 3. Die Prompts sind sprachlich viel natürlicher und sehr simple Anfragen werden von der KI passend etwas weiter ausgestaltet – was auch gute Ansatzpunkte bietet, wenn man den Prompt noch weiter anpassen möchte.

So entstehen auch als Laie sehr tolle Ergebnisse für grobe Anfragen. Zugleich versteht es die KI auch überraschend gut, komplexere Anfragen zu verarbeiten. Da tut sich selbst Hauptkonkurrent Midjourney deutlich schwerer, vor allem die Interaktion mehrerer Elemente richtig zu interpretieren. Auch DALL-E ist dabei noch nicht perfekt und manche Elemente erscheinen auch mal etwas unpassend versetzt. Trotzdem lohnt sich DALL-E 3 für sein starkes Verständnis von Beschreibung zu Bild.

Als Beispiel nehmen wir eine ganz simple Anfrage für ein Bild zum Artikel „Künstliche Intelligenz zerstört die Kreativität nicht“. Aus der daraus generierten ausführlicheren englischen Anfrage erstellte ich somit eine nochmal deutlich präzisere, dessen Ergebnisse mir deutlich besser gefielen.

Das Problem mit der Zensur

Dass man auch mit kostenpflichtigem Abo eine KI nicht völlig unbegrenzt nutzen darf ist üblich. Midjourney limitiert etwa die monatliche Zeit, für die ihr schnellere GPU nutzt. Bei DALL-E kommt irgendwann nach vielen Anfragen eine Meldung, dass ihr bis zu einer bestimmten Uhrzeit warten müsst, bis ihr wieder weitermachen dürft. Das ist manchmal echt ärgerlich, aber verschmerzbar.

Nicht so verschmerzbar ist die Zensur, die den Umgang mit DALL-E stark erschwert. Diese schlägt entweder Alarm, wenn Copyrights verletzt oder aber sensible Inhalte erzeugt werden. Wegen der Copyrights ist es euch nicht möglich, Stile aktueller Künstler (zumindest namentlich) nachahmen zu lassen oder Figuren bekannter Franchises explizit zu verwenden. Das geht sogar so weit, dass das der Begriff „Tiefling“ – ein Volk aus dem Rollenspielsystem „Dungeons & Dragons“ nicht verwendet werden darf – obwohl diese durchaus auch in Konkurrenzprodukten vorkommen. Stattdessen muss ich eine menschenähnliche Lebensform mit roter oder lilafarbener Haut und gebogenen, von der Stirn ausgehenden Hörnern umschreiben.

Noch nerviger wird der Zeigefinger. Das Wort „Bikini“ ist selbst im unverfänglichen Strand-Kontext zu anrüchig und auch mit an sich harmlosen Wörtern wie reiten muss man vorsichtig sein. Auch Dämonen, Tote oder Blut sind problematische Themen, um die man sich etwa mit „auf dem Bauch liegende Menschen“ herumlaviert. Selbst das explizite Vorschreiben von Ethnien sieht DALL-E 3 nicht gerne. Es ist gut und wichtig, dass die KI möglichst divers darstellt – aber es zu erzwingen ist ebenfalls ein Problem. DALL-E 3 versucht aktuell jegliche Verfänglichkeiten zu umschiffen und zensiert gleich alles was potentiell problematisch ist.

Es ist echt nervig, wenn man dadurch plötzlich einen Tag von dem Service gesperrt ist, für den man auch noch zahlt. Allerdings: Auch DALL-E 3 ist in einer Testphase und probiert noch vieles aus. Trotzdem ist der moralische Zeigefinger kritisch zu beobachten.

Darum lohnt sich DALL-E 3 mit ChatGPT zu nutzen

Nicht nur, aber auch wegen der Zensur lohnt sich DALL-E 3 vor allem zusammen mit ChatGPT. Der Vorteil von Dall-E gegenüber Midjourney oder anderer Konkurrenz ist nämlich die Chatfunktion. Stoße ich auf ein Problem mit den Content-Filtern kann ich die KI direkt fragen. Aber Achtung: Nicht jeder Content-Verstoß scheint auch direkt kommuniziert zu werden. Ein Signal ist aber, wenn mehrfach kein Bild auf die Anfrage geliefert wird.

Wechselt am besten explizit zu ChatGPT und fragt die KI etwa „Wie kann ich diesen Prompt für die DALL-E 3 Content-Filter verbessern?“, natürlich zusammen mit eurer DALL-E-Anfrage. Hier analysiert ChatGPT eure Anfrage, nennt kritische Wörter und bietet zugleich Alternativen an.

Auch sonst ist es praktisch für Anreize. Lasst euch beispielsweise Perspektiven oder Darstellungsstile vorschlagen, die für eine von euch gedachte Szene passend sind. Auch das Übersetzen eurer Anfrage in englisch kann die Ergebnisse mitunter verbessern. DALL-E 3 hat nicht nur einfachere Anfragen als bekannte Konkurrenz-Produkte, sondern zusätzlich einen Helfer der das System versteht und darauf ausgelegt ist, verständliche Antworten zu geben.

Fallbeispiel 1: Einen YouTube-Avatar mit DALL-E 3 erzeugen

Logos und Avatare sind ein großer potentieller Anwendungsbereich für künstliche Intelligenz. Professionelle Designer sind oft für ein Hobby oder für den Start in die Selbstständigkeit zu teuer, Hobbydesigner die es kostenlos oder sehr günstig anbieten liefern dagegen oft entsprechend amateurhafte Qualität. Eine Bild-KI ist da eine willkommene Alternative. Nicht nur liefert sie mittlerweile beeindruckende Ergebnisse: Man kann auch beliebig viel ausprobieren ohne den Designer in den Wahnsinn oder die Kosten in die Höhe zu treiben.

Ich habe mit Dall-E 3 ein neues Logo für einen Let’s Play-Kanal erstellen lassen. Meine Idee: Ich möchte das ganze in Form einer Silhouette auf rotem kreisförmigen Grund haben. Diese Silhouette soll auf einer Hälfte den Videospieler zeigen, auf der anderen Hälfte den Heldencharakter, den dieser verkörpert.

Von Anfang an bekam ich dafür Ergebnisse, die erstaunlich nah an meiner Vorstellung waren. Es brauchte natürlich trotzdem einige Durchgänge bis ich zufrieden war. Dann habe ich mich aber so in eine Version verliebt, bei der es mir egal war, dass die Darstellung vielleicht etwas komplex für ein meist sehr klein dargestelltes Logo ist. Außerdem musste ich es noch händisch außerhalb transparent machen, damit es sich etwas dynamischer von diversen Hintergrundfarben absetzt.

Zusätzlich habe ich mir dann auch noch einen Kanalbanner erstellen lassen. Für diesen wollte ich eigentlich eine seitliche Darstellung einer sitzend spielenden Person, die sich zu einer Seite mehr und mehr in die Spielwelt transformiert. Am Ende kam allerdings mehr eine spielende Silhouette vor einem Bildschirm raus mit dem Abenteuer auf dem Bildschirm – das hatte mir dann doch so gut gefallen, dass ich dabei geblieben bin.

Fallbeispiel 2: Pimp my Pen & Paper

Am exzessivsten nutze ich DALL-E aktuell, um meine Rollenspielcharaktere aus Dungeons & Dragons und ähnlichen Systemen zum Leben zu erwecken. Vorbei sind die Zeiten, wo man sich als erstes ein Charakterbild auf Google suchen sollte, bevor man den Charakter dazu erstellt. Denn es war fast sicher: Hat man sich vorweg einen Charakter erstellt, findet man nur selten ein Artwork, das einem absolut passend erscheint.

Jetzt gibt es KI und damit einen endlosen Pool möglicher Artworks, den man allerdings auch erst zu nutzen lernen muss. Hier habe ich am meisten Probleme mit den Content-Filtern der Bild-KI bekommen. Die oft komplexeren Anfragen sorgen zudem oft für mindestens einen Fehler der sauer aufstößt. Mal ist es ein sechster Finger, mal ein zusätzliches Bein, dass irgendwo versehentlich erscheint. Das fliegende Bike hat trotz expliziter Erwähnung manchmal doch Räder, Energydrink und Nudelsuppe werden irgendwie zu ein und dem selben Gegenstand gemischt, Mündungsfeuer erscheint versetzt zur futuristischen Waffe oder die Hälfte des Geigenbogens taucht irgendwo jenseits des Instruments nochmal auf.

Mit den vielen Wiederholungen ist die Generierung am Ende doch sehr zeitspielig, wenn man auf das „perfekte Ergebnis“ wartet. Trotzdem macht es ungemein Spaß die Anfragen immer wieder anzupassen. Nachträglich lohnt sich DALL-E 3 für mich aber auch aus Charaktersicht. Ein Charakter den ich spiele ist nebenbei auch ein Maler. Mittlerweile habe ich angefangen einige seiner Kunstwerke dann auch tatsächlich generieren zu lassen. Sei es dass er ein Gruppenmitglied beim meditieren malt oder für einen Auftraggeber ein altes Hochzeitsbild restauriert. So entsteht eine neue Art Charakter-Tagebuch in Form von Bildern.

 

Lohnt sich DALL-E 3, um ChatGPT Plus zu abonnieren?

Ob sich DALL-E 3 lohnt, um ChatGPT Plus zu abonnieren, hängt vor allem davon ab, wie stark man DALL-E 3 und ChatGPT nutzt. ChatGPT Plus kostet nämlich stolze 20 US-Dollar im Monat. Zuzüglich der Mehrwertsteuer kommen wir umgerechnet auf rund 22 Euro

Doch auch wenn das zunächst ein ziemlich hoher Preis scheint, muss man es auch mit der Konkurrenz vergleichen. Midjourney verlangt beispielsweise für den Basis-Plan 10 US-Dollar im Monat. Diese beinhalten 3,3 Stunden schnelle Rechenzeit – was wohl ungefähr 200 Bildern entspricht. Außerhalb dessen lassen sich noch weitere Bilder mit weniger Rechenleistung erstellen. Es gibt aber auch noch einen Standardplan für 30 Dollar, sowie weitere Stufen, die aber wirklich mehr auf Heavyuser ausgelegt sind. Es lässt sich auch hohe Rechenleistung einzeln dazubuchen, wenn man doch mal das Limit überzieht.

Ich habe selbst kurz Midjourney gebucht, aber die Ergebnisse waren auch nach einigem Tuning der Anfragen deutlich weiter weg von meinen Vorstellungen. Außerdem hat man mit ChatGPT Plus gleichzeitig auch noch den bekannten Chatbot in vollem Umfang. Für mich gibt es entsprechend eine klare Empfehlung zu ChatGPT Plus.

Auch der Vergleich mit Stockportalen bietet sich an. Adobe Stock bietet etwa Abos für ~40 Standard-Stockmedien oder 6 HD-Videos für 79,99 Euro im Monat an. Auch hier hatte ich das Gefühl, dass mir die KI oft bessere Bilder erstellt als im Stock-Angebot. Wo Fotos von Menschen gewünscht ist, wirkt Adobe Stock natürlich noch realistischer – auch wenn Stockfotos auch nicht gerade für Authentizität bekannt sind.

Konzeptbild einer KI, umrankt von Nachtschatten. Im Fokus steht ein digitales Gehirn mit Schaltkreisen und leuchtenden Knoten, umgeben von dunklen Beeren und grünen Blättern der Pflanze. Der Hintergrund verläuft von Dunkelblau zu Schwarz, was eine mysteriöse und gefährliche Stimmung erzeugt.
KI-Bild statt Stock-Fotografie. Etwa für das Programm „Nightshade“, welches KI-Generatoren vergiften soll, lässt sich per KI schnell ein passendes Bild dazu erstellen.

 

DALL-E kostenlos mit Bing nutzen / ausprobieren

Wer einfach mal ausprobieren möchte, wie sich DALL-E anfühlt, sollte den Image Creator von Bing ausprobieren. Das ist eine in Bing integrierte DALL-E 3-Version, die kostenlos nutzbar ist. Pro Tag habt ihr bis zu 15 Generierungen, die euch jeweils 4 Ergebnisse pro Anfrage liefern. Auch danach habt ihr die Möglichkeit, mit etwas mehr Wartezeit den Image Creator zu nutzen. Bedingung dafür ist lediglich ein Bing-Konto.

Im Gegensatz zum kostenpflichtigen DALL-E 3 in ChatGPT Plus gibt es aber auch Einschränkungen. Eure Eingaben sind auf 380 Zeichen beschränkt, was eine deutlich präzisere Formulierung abverlangt um komplexere Szenen zu beschreiben. Auch bekommt ihr lediglich quadratische Bilder als Ergebnisse. Die 1024×1024 Pixel lassen aber zumindest Raum zum Beschneiden und ihr könnt eventuell tricksen, dass ihr gleich zwei Varianten eurer Anfrage in einem Bild haben möchtet. Für Chat-Hilfe greift ihr hier außerdem am besten zur kostenpflichtigen ChatGPT-Version 3.5

Der Bing Image Creator muss aber nicht nutzlos sein, wenn ihr bereits ChatGPT Plus euer Eigen nennt. In manchen Bereichen scheint die Bing-Version schlechter trainiert, in anderen gefallen mir die Ergebnisse aber sogar besser. DALL-E 3 von openAI liefert für Anfragen zu einem „Gnom“ als Rollenspielcharakter immer eine viel zu üppige Bartpracht für den eigentlich nur gewollten „Ziegenbart“. Da gefällt mir die Interpretation von Bing irgendwie deutlich besser.

Fazit: DALL-E 3 ist ein Gamechanger und trotzdem nur der Anfang

Als der KI-Hype vor einem guten Jahr begann, hatten auch Bild-KIs bereits etwas magisches. Die Ergebnisse waren alles andere als perfekt, doch aus dem „nichts“ Bilder zu herbeizuwünschen fühlte sich nach gelebter Science Fiction an. Nur ein Jahr später haben sich Midjourney und DALL-E deutlich weiter entwickelt. Fotorealistische Gesichter lassen sich oft kaum von echten Gesichtern unterscheiden, verschiedenste Stile bekommt ihr zum Teil in erschreckend professioneller Qualität generiert. Sogar Hände haben zwar gerne mal einen sechsten Finger, sind aber längst kein Fallstrick mehr.

DALL-E 3 liefert zusätzlich zwei starke Vorteile: Per ChatGPT können wir mit der Bild-KI kommunizieren. Wir können Fragen stellen oder nach Tipps fragen und DALL-E wandelt unsere beschreibenden Umfragen in optimierte DALL-E 3-Prompts um – die trotzdem weniger technisch sind als etwa Midjourney.

Der zweite Vorteil ist, dass DALL-E 3 den Kontext sehr gut versteht. Komplexe Bildanfragen bei denen mehrere Elemente miteinander interagieren, werden deutlich besser verstanden als von Midjourney. Zwar hat Midjourney stilistisch oft noch die Nase vorn, aber die aktuelle DALL-E Version versteht deutlich besser die Idee unseres Prompts.

Nervig sind dagegen die übermäßig sensiblen Content-Filter, die aktuell auch noch bedenklich extrem den moralischen Zeigefinger heben und teils ohne große Vorwarnungen Sperren aussprechen. Es besteht aber zumindest Hoffnung, dass openAI nur so rigoros agiert, bis die KI noch besser die Intention der Anfrage versteht.

Allgemein stehen wir aber noch am Anfang einer Entwicklung. Die Entwicklung innerhalb des letzten Jahres ist so gigantisch, dass sich nur vage erahnen lässt, was in einem weiteren Jahr alles möglich ist. Mittlerweile gibt es sogar erste Bild-KIs wie Adobe Firefly, die bereits in eine Bildbearbeitungs-Umgebung eingebaut sind und professionellere Mittel zur Weiterbearbeitung bieten. Auch für Laien wird es so bald deutlich einfacher sein, den KI-Output nachträglich mehr der eigenen Wunschvorstellung anzupassen.


Image via DALL-E


Artikel per E-Mail verschicken