Der Trend zu KI-generierten Bildern und was es für NLG bedeuten könnte [Teil 2]

April 19, 2023

by Silvia Nguyen, NLP Engineer

Falls Sie den ersten Teil dieses Artikels verpasst haben, können Sie ihn hier nachlesen. Im vorherigen Teil ging es um das Thema Künstliche Intelligenz und KI-Kunst. Außerdem wurde erklärt, was KI-generierte Bilder sind und welche Trends und Nachrichten derzeit in den sozialen Medien viral gehen.

Dieser Teil des Artikels befasst sich mit dem äußerst kontroversen Thema der KI-generierten Bilder aus der Sicht eines Ella Lab-Familienmitglieds sowie eines Hobbykünstlers und zieht Verbindungen zu den Erkenntnissen und deren Parallelen zur Generierung natürlicher Sprache (Natural Language Generation – NLG).

Aus der Sicht eines Ella Lab-Familienmitglieds

Als Mitglied der Ella Lab-Familie war ich sehr interessiert, als ich zum ersten Mal über KI-generierte Bilder auf verschiedenen Social-Media-Plattformen stolperte. Ich hatte schon vorher mit einigen generativen Tools herumgespielt, aber die Ergebnisse der derzeit populären Tools übertrafen bei Weitem das, was diese anderen Tools leisten konnten. Sie produzierten mühelos Bilder von hoher Qualität und atemberaubender Schönheit. Und allein der Anblick dieser Bilder, noch lange bevor ich mehr über die dahinter stehenden Technologien recherchiert und gelesen hatte, erfüllte mich mit Spannung und Neugier auf die Möglichkeiten, die die KI-Technologie im Allgemeinen für die Zukunft noch bereithält.

Quelle: Midjourney Community Showcase

Außerdem stellte sich mir die Frage, wie KI-generierte Bilder in die heutige Gesellschaft integriert werden können. Und ist der Aufstieg ihrer Repräsentation in den sozialen Medien bereits die Grenze ihrer Verbreitung? Kann oder wird sie den Prozess des Kunstschaffens verändern und welche Auswirkungen hätte sie auf die Menschen, die in diesem Bereich arbeiten? Könnte es Künstlern neue Wege aufzeigen, sich auszudrücken, oder ihnen helfen, Kunstblockaden zu überwinden? Könnte es helfen, erste Konzepte zu entwerfen oder eine neue Inspirationsquelle sein?

So großartig die Ergebnisse auch sein mögen und so weit die KI-Technologien auch schon vorangeschritten sind, so gibt es noch viel Raum für Verbesserungen. Bei KI-generierten Bildern offenbart ein zweiter Blick oft Fehler. Offensichtliche Fehler wie zu viele Finger an der Hand einer Figur oder nicht identifizierbare Details machen es recht einfach, die Arbeit eines generativen Tools von der eines Menschen zu unterscheiden. Zusätzlich zu den Fehlern, die professionelle Künstler, die viel Zeit damit verbracht haben, zu üben und ihre Fähigkeiten zu verfeinern, höchstwahrscheinlich nie machen würden, gibt es noch einen weiteren Aspekt, den generative Tools derzeit nicht nachahmen können: Einen konsistenten, erkennbaren Stil.
KI-generierte Bilder sind, wenn bestimmte Themen mehr als einmal produziert werden sollen, nicht ganz konsistent, da das Modell nur in der Lage ist, ein zufriedenstellendes Ergebnis vorherzusagen, anstatt einen bestimmten Stil wiederholt zu reproduzieren. Dies lässt sich gut an dem bereits erwähnten Kinderbuch von Ammaar Reshi demonstrieren. Die Hauptfigur seiner Geschichte besitzt einige spezifische Merkmale, die es Kindern leicht machen, sie wiederzuerkennen, aber wie in Reshis Midjourney-Generierungsverlauf gezeigt wird, ändert sich die visuelle Darstellung der Hauptfigur im Laufe der Zeit leicht. Selbst wenn sie immer noch als eine etablierte Figur identifiziert werden kann, wirkt sie dennoch ein wenig anders. Und gerade diese Konsistenz ist beim visuellen Geschichtenerzählen besonders wichtig.

Abgesehen davon ist das Ergebnis von KI-generierten Bildern nur so gut wie die Eingabedaten, was in der Debatte über die Ethik künstlich erzeugter Bilder eine große Rolle spielt. Die derzeitige Technologie ist nicht in der Lage, etwas anderes als die Muster der gegebenen Daten nachzubilden, und Kreativität und Fantasie können nur bis zu einem gewissen Grad imitiert werden. Gleichzeitig gilt die berüchtigte Phrase des maschinellen Lernens „garbage in, garbage out“, was bedeutet, dass die Schöpfer von Technologien der künstlichen Intelligenz nach qualitativ hochwertigen Daten suchen müssen, damit ihre Werkzeuge eine gute Leistung erbringen und einen Output von ähnlicher Qualität produzieren können. Zusätzlich zur menschenähnlichen Kreativität, die über das Sammeln von Erfahrungen in Form von Trainingsdaten, das Analysieren der Muster und das Kombinieren dieser zu etwas Neuem hinausgeht, sind Text-Bild-Modelle auch durch die Aufforderung, die sie zur Generierung von Inhalten erhalten, eingeschränkt. Das Modell ist nur in der Lage, mit dem zu arbeiten, was es an Informationen erhält: Es kann weder eigenständig Entscheidungen treffen, noch Schlussfolgerungen ziehen und Verbindungen zwischen Details herstellen.

Genau aus diesem Grund ist der Prompt ein wichtiger Bestandteil, um die bestmöglichen Ergebnisse zu erzielen. Der Prozess der Verbesserung des Prompts – also das Ersetzen von Parametern, das Verändern von Variablen – wird als Prompt Engineering bezeichnet. Das ist auch ein weiterer Aspekt, der mich als NLP-Ingenieur besonders interessiert. Welcher Prompt führt zu welchen Ergebnissen? Wie muss ein Prompt strukturiert oder formuliert sein? Je besser der menschliche Benutzer versteht, wie er mit dem Modell „kommunizieren“ kann, desto besser sollten die Ergebnisse sein. Dieses Wissen und diese Erfahrung sowie die daraus resultierenden Erkenntnisse – was funktioniert, was nicht funktioniert und wo die Grenzen liegen – können schließlich auch im Bereich der NLG nützlich sein.

Apropos nützlich: Ein weiterer Punkt, der dieses Thema besonders spannend macht, ist die Aussicht auf die Zukunft der Technologie. Es ist denkbar, dass KI-Tools diejenigen, die sie nutzen wollen, in ihrem Workflow unterstützen können. Künstler könnten bei kreativen Blockaden Hilfe in Anspruch nehmen oder sich inspirieren lassen, bevor sie ein neues Kunstwerk schaffen. KI-Tools zur Bilderzeugung könnten zu einer Erweiterung des künstlerischen Schaffens werden und neue Perspektiven und Möglichkeiten jenseits jeglicher Vorstellungskraft eröffnen. Wie bei der Entwicklung von Maschinen während der Industrialisierung könnten KI-Tools Prozesse optimieren und vereinfachen.

Turn a sketch & prompt into several variations of an AI-generated imag

Wandeln Sie eine Skizze & einen Prompt in verschiedene Varianten eines KI-generierten Bildes um. Quelle: ControlNet ControlNet

Aus der Sicht eines Kunstliebhabers und Hobbykünstlers

Zu Beginn dieses zweiteiligen Artikels habe ich darauf hingewiesen, dass ich von KI-Tools erzeugte Bilder als KI-generierte Bilder und nicht als KI-Kunst bezeichnen werde. Warum genau bin ich also der Meinung, dass KI-generierte Bilder und Kunst getrennt betrachtet werden sollten?

Zunächst möchte ich die Frage „Was ist Kunst?“ beleuchten. Als jemand, der sich sehr für Kunst interessiert, bin ich der Meinung, dass Kunst wie der Mensch ist – sehr schwer in nur wenigen Worten zu fassen und sehr vielschichtig. Kunst hat viele Formen. Es gibt sie in Form von Musik, Malerei, Tanz oder Theater und Film. Und sie ist völlig der eigenen subjektiven Interpretation überlassen.

Für die einen ist Kunst ein Mittel, um sich selbst und ihre Gefühle über die Welt, um sie herum oder über die Gesellschaft selbst auszudrücken. Für andere ist es eine Flucht aus der Realität und die Visualisierung von Ideen oder einfach das Festhalten alltäglicher Erfahrungen, Erinnerungen und Gefühle. Es geht darum, der kreativen Energie freien Lauf zu lassen und die eigene Leidenschaft auszuleben. Manchmal umfasst Kunst das, was ein Mensch sehen kann und was er nicht sehen kann oder was er sich weigert zu sehen. Manchmal ist sie laut und bunt, manchmal leise, aber tiefgründig. Aber egal, was Kunst für den Einzelnen ist – sie ist zutiefst mit dem eigenen kreativen Geist und der eigenen Vorstellungskraft verbunden.

Und da eine KI nicht über einen freien, kreativen Geist verfügt, um sich etwas vorzustellen und nach diesen Ideen zu schaffen, weigern sich viele Künstler, KI-Kunst als solche zu bezeichnen. Drastisch ausgedrückt, besitzt die KI noch nicht einmal irgendeine Art von Intelligenz, geschweige denn Kreativität, da sie lediglich in der Lage ist, auf der Grundlage des riesigen Datenpools, auf den sie trainiert wurde, ein akzeptables Ergebnis vorherzusagen. Wenn man so will, könnte man auch sagen, dass KI keine Seele und kein Herz, keinen Schweiß und keine Tränen hat, die Künstler in ihre Werke stecken. Die Antwort auf diese Frage hängt also stark von der individuellen Perspektive ab: Messen wir den künstlerischen Wert eines Werks an seinem Schöpfer oder eher an der Wirkung, die es auf den Betrachter hat, wie es der Kunstforscher Bernd Flessner ausdrückte?

Artists protest AI-generated images on Artstation. Source: @joysilvart

Künstler protestieren gegen KI-generierte Bilder auf Artstation. Quelle: @joysilvart

Die Rufe nach einem Verbot von KI-generierten Bildern werden deshalb immer lauter. So haben sich beispielsweise Künstler auf der Plattform ArtStation zu einem Protest zusammengeschlossen und ihren Unmut über künstlich erzeugte Bilder auf der Explore-Seite der Plattform zum Ausdruck gebracht. Die von KI-Bildgeneratoren erzeugten Werke wurden als respektlos gegenüber der von Künstlern investierten Zeit und harten Arbeit empfunden. Ein generelles Verbot von KI-generierten Bildern auf Plattformen wie ArtStation könnte jedoch ein Schuss ins Blaue sein: Laut ArtNet wurde zum Beispiel ein Künstler aus einem Reddit-Forum verbannt, weil sein gepostetes Werk wie ein KI-generiertes Bild aussah. Dieser Fall zeigt, wie fortgeschritten die Technologie wirklich ist.

A picture that was banned from Reddit for looking like generated by an AI tool.

Ein Bild, das von Reddit gesperrt wurde, weil es so aussah, als wäre es von einem KI-Tool generiert worden. Quelle: @benmoran_artist

Ich persönlich kann Stunden damit verbringen, mir alle möglichen Bilder im Internet anzusehen – seien es Werke von menschlichen Künstlern oder von KI-Tools generierte Bilder. Aber so sehr mich die Technologie und ihre Ergebnisse auch faszinieren, ich bin immer noch ein Fan davon, Kunstbücher oder Drucke von meinem Lieblingskünstler zu kaufen. Wenn überhaupt, dann hoffe ich einfach, dass von Menschen geschaffene Kunst und KI-generierte Bilder unter angemessenen Bedingungen und Vorschriften, die die Rechte kreativer Köpfe schützen, nebeneinander existieren können.

Das größere Problem ist jedoch nicht die Technologie, die hinter KI-generierten Bildern steht, sondern die Daten, mit denen die Technologie arbeitet. Wie im vorherigen Teil dieses Blogbeitrags erwähnt, verwenden die Modelle, die hinter den generierten Bildern stehen, große Datensätze mit Text-Bild-Paaren als Trainingsdaten.

Es gibt verschiedene Möglichkeiten der Datenerfassung: z. B. die Erstellung eines Datensatzes und die damit verbundene manuelle Erfassung von Bildern sowie die manuelle Annotation von Bildbeschreibungen, um Text-Bild-Paare zu erhalten. Dies erfordert jedoch viel Zeit und Sorgfalt, wird aber mit einem spezifischen Datensatz von hoher Qualität belohnt. Dann gibt es die Möglichkeit, bestehende Datensätze wie COCO (Common Objects in Context) zu nutzen, die für Aufgaben wie die Bilderzeugung verwendet werden. Eine weitere Möglichkeit ist das sogenannte „Crawling“: Der Crawler, ein Computerprogramm, durchforstet systematisch und wiederholt das Internet und extrahiert Informationen, wie die Struktur und den Inhalt von Webseiten, um sie in einer Datenbank zu speichern. Das Projekt Common Crawl zum Beispiel stellt die auf diese Weise gesammelten Informationen Wissenschaftlern und Entwicklern zur Verfügung. Aus diesem riesigen Datenbestand kann dann ein Datensatz mit Text-Bild-Paaren gewonnen werden, um Modelle zu trainieren, die Bilder generieren können.

Gerade diese Form der Datenerhebung bereitet vielen Künstlern Bauchschmerzen: Sie befürchten, dass ihre veröffentlichten Arbeiten ohne ihre Zustimmung aus dem Netz gecrawlt und für das Training von Bildgenerierungsprogrammen missbraucht werden könnten. Die Besorgnis der Künstler beruht also nicht nur auf der Bedrohung ihrer Existenzgrundlage, sondern auch auf der Befürchtung, dass ihre Werke gestohlen und gegen ihren Willen für Trainingszwecke missbraucht werden.

Schon in der Zeit, bevor KI-generierte Bilder das Web überfluteten, hatten Künstler mit Kunstdiebstahl zu kämpfen, vor allem im Internet: So werden Kunstwerke oft von Dieben neu hochgeladen, die sie als ihre eigenen ausgeben oder ganz offen plagiieren. Darüber hinaus können potenzielle Kunden nun mithilfe von KI-gesteuerten Bildgenerierungs-Tools schnell und einfach selbst Bilder erstellen – und das auf dem Rücken derjenigen, aus deren Feder die Originalbilder stammen.

Die Anschuldigungen des Kunstdiebstahls waren ziemlich schwer zu beweisen, aber seit Stable Diffusion Open-Source wurde, konnte laut Andy Baio der Softwareentwickler Simon Willison die Daten extrahieren, auf denen das Modell trainiert war. Sie stellten die gefundenen Informationen der Öffentlichkeit zur Verfügung und bestätigten damit, was viele Künstler auf der ganzen Welt befürchtet hatten: Stable Diffusion wurde mit drei großen Datensätzen trainiert, nämlich LAION-2B-EN, LAION-High-Resolution sowie LAION-Aesthetics v2 5+. Diese bestehen aus HTML-Bild-Tags mit Bildbeschreibungen, Text-Bild-Paaren, die nach Sprache klassifiziert und nach Auflösung gefiltert wurden, Wasserzeichen sowie einer Bewertung auf der Grundlage ästhetisch ansprechender Bilder. Für das Training wurden Bilder von verschiedenen Websites wie Pinterest, Tumblr, RedBubble oder DeviantAr verwendet. Dies bedeutet wiederum, dass nicht nur professionelle Künstler, sondern auch Hobbykünstler betroffen sind.

Eine Sammlung von Künstlern, die für verschiedene Stile in Stable Diffusion werben. Quelle: @arvalis

Daher sind diese Angst und Wut gegenüber KI-generierten Bildern absolut verständlich und gerechtfertigt, aber ich denke auch, dass kreative Köpfe ihre Gefühle nicht auf die Modelle und Werkzeuge projizieren sollten, sondern sie stattdessen auf diejenigen lenken sollten, die sich weigern, ihre Arbeit anzuerkennen und sie unrechtmäßig zum Trainieren ihrer Modelle verwenden.

Was bedeutet das für die NLG?

Welche Schlussfolgerungen können wir also aus all dem ziehen?

Künstlich erzeugte Bilder und menschliche Kunst haben beide ihre Vor- und Nachteile. KI-Tools können zwar eine große Anzahl von Bildern erzeugen, die im Grunde sofort nach der Erzeugung schnell und einfach verwendet werden können, aber ihre Ergebnisse sind nur so gut wie die gegebenen Daten und der verwendete Prompt. Ohne menschliche Eingaben ist sie weder in der Lage, selbst etwas zu erschaffen, noch zu entscheiden, was als Nächstes erzeugt werden soll. Menschliche Kunst hingegen ist zeitaufwendiger, da Menschen – je nach Fähigkeit und Erfahrung des Künstlers – einen längeren Zeitraum benötigen, um eine Idee oder Inspiration zu finden, ein Konzept auszuarbeiten und schließlich an dem Werk selbst zu arbeiten. Aber gerade dieser Prozess, die Zeit und der Verstand, die in das entstehende Kunstwerk gesteckt werden, machen die menschlichen Kunstwerke so authentisch, charmant und einzigartig. Abgesehen davon ist Kunst nicht nur ein monetärer Markt für Künstler, sondern so viel mehr, weshalb sie nicht durch Urheberrechtsverletzungen oder Plagiate mit Füßen getreten werden sollte. Die besorgten Stimmen der Künstler sollten nicht ungehört bleiben.

Stattdessen sollten ungeklärte Fragen, die sich mit dem Wachstum der KI in der Gesellschaft stellen, beantwortet werden, da Regelungen zum Schutz des Urheberrechts dringend erforderlich sind: Wer genau hat das Urheberrecht an den generierten Bildern? Ist es das Tool, das sie erzeugt hat, der Programmierer, der das Modell programmiert hat, oder die Person, die es trainiert hat? Vielleicht auch der Benutzer, der den Prompt in das Tool eingegeben hat? Oder eher die Personen, deren Kunstwerke – ob mit oder ohne ihr Wissen – als Trainingsdaten verwendet wurden?

Regelungen für KI-generierte Bilder in unserer sich ständig weiterentwickelnden Gesellschaft könnten daher zum Beispiel Kunstplattformen für Profi- und Hobbykünstler umfassen, die nicht nach Bildern durchsucht werden dürfen. Modelle sollten nicht mit Daten von Künstlern trainiert werden dürfen, die der Verwendung ihrer Werke als Trainingsdaten nicht zugestimmt haben. Sowohl die Werkzeuge als auch der Datensatz, mit dem sie trainiert werden, müssen transparent und öffentlich zugänglich sein und Sicherheitsfilter enthalten, um sicherzustellen, dass die Technologie nicht z. B. für Deepfake-Pornos missbraucht werden kann. Sicherheitsfilter müssen daher nicht nur sicherstellen, dass keine Bilder mit expliziten oder gewaltverherrlichenden Inhalten erzeugt werden können, sondern auch explizite Abfragen, die z. B. Prominente betreffen, blockieren. Außerdem sollte die Kennzeichnung von KI-Generationen in Betracht gezogen werden, um Täuschungen zu vermeiden.

Vergleichbare Regelungen könnten auch auf andere KI-gestützte Bereiche wie die NLG übertragen werden. Ähnlich wie bei KI-generierten Bildern folgt NLG grundsätzlich dem Prinzip der Text-zu-Text-Erzeugung. Das heißt, es geht um die Produktion von Text nach einer menschlichen Eingabe, z. B. in Form eines Schreibprompts. Ein Beispiel für NLG ist ChatGPT von OpenAI, das im vergangenen November viral ging und in der Öffentlichkeit viel Aufmerksamkeit erregte. Mit der einfach zu bedienenden Benutzeroberfläche waren die Nutzer von den scheinbar endlosen Möglichkeiten der Texterstellung fasziniert. Ohne großen Aufwand konnten die Nutzer mit nur einem Prompt Rezepte oder ganze Aufsätze erstellen. Allerdings hat NLG – genau wie KI-generierte Bilder – auch seine Grenzen, die es zu kommunizieren gilt. In der Dokumentation von OpenAI heißt es, dass die Generationen „gelegentlich falsche Informationen generieren können“ und „gelegentlich schädliche Anweisungen oder voreingenommene Inhalte produzieren können“. Klarstellungen wie diese sind ein erster Schritt, damit KI-generierte Texte in den öffentlichen Gebrauch integriert werden können. Darüber hinaus müssen NLG-Tools schädliche oder höchst unangemessene Aufforderungen einschränken, um die Erstellung expliziter Inhalte auszuschließen und den Missbrauch dieser Tools zu verhindern. The Intercept zum Beispiel berichtete über ChatGPT, dass es stark rassistische Inhalte generiert.

Autoren aller Arten von Genres könnten in einen ähnlichen Aufruhr geraten wie Künstler über KI-generierte Bilder, sodass es unvermeidlich ist, dass klargestellt werden muss, dass die Werkzeuge dazu da sind, das menschliche Schreiben zu unterstützen und nicht zu ersetzen. Ein weiteres Problem bei künstlich generiertem Text, der von Tools wie ChatGPT erzeugt wird, ist das Potenzial für falsche Informationen in der erstellten Ausgabe. Ähnlich wie bei Deepfakes kann dies große Unruhe verursachen und Fehlinformationen verbreiten. Daher sollten die sachliche Korrektheit und die Vermeidung von Halluzinationen von Sprachmodellen für NLG besonders relevant sein.

KI im Allgemeinen ist zu einem riesigen Trendthema geworden und wird bald die technische und digitale Welt revolutionieren. Trotz der vielen Bedenken und Kritik, mit denen die KI-Gemeinschaft konfrontiert ist, wird KI unbestreitbar ihren Weg in alle Lebensbereiche finden. Angesichts der fortschreitenden Entwicklung der KI ist es daher wichtig, die ethischen Implikationen ihres Einsatzes bei der Erstellung und Weitergabe von Ergebnissen in den sozialen Medien oder bei ihrer Nutzung zu Gewinnzwecken zu berücksichtigen.

Aber da sich unsere Gesellschaft weiterentwickelt, werden sich auch die Menschen und ihr Bedarf an neuen Innovationen und Erfahrungen weiterentwickeln. Warum also nicht diese Innovationen nutzen, um andere Blickwinkel und erfrischende Perspektiven zu erkunden, die mit der neuen Technologie einhergehen? Bei den Tools der KI-Generation geht es darum, eine neue Form des Arbeitsprozesses zu schaffen, einen neuen Weg, der die Ergebnisse des menschlichen Denkens und der Algorithmen des maschinellen Lernens kombiniert. Durch KI-generierte Bilder und Texte können wir etwas schaffen, das den Fortschritt in Technologie, Kunst und Menschlichkeit widerspiegelt. Unabhängig davon, was man von der KI-Technologie hält, sollte sich jeder die Zeit nehmen und versuchen zu verstehen, wozu Maschinen heutzutage in der Lage sind. Auf diese Weise können sie vielleicht die Kreationen schätzen, die aus dieser faszinierenden Zusammenarbeit zwischen Menschen und neuen Technologien hervorgehen.

KI-Tools sollen schließlich diejenigen unterstützen, die sie nutzen wollen, und den Menschen helfen, Arbeitsprozesse zu optimieren und die Arbeit zu erleichtern. Es ist eine Technologie, die dazu gemacht ist, von Menschen genutzt zu werden, nicht um sie zu ersetzen. Weder bei KI-generierten Bildern noch bei NLG geht es darum, kreative Aufgaben zu übernehmen. Vielmehr werden beide Technologien entwickelt, um den Arbeitsablauf zu verbessern. Kunst und natürliche Sprache gehören zum menschlichen Geist und werden auch weiterhin existieren, mit oder ohne KI-Technologie.

Interessante Videos zu diesem Thema

AI art is going to have consequences

Artikel wurde aus dem englischen Original übersetzt.