+41 544 36 44
  • en
  • de
  • Der Trend zu KI-generierten Bildern und was er für NLG bedeuten könnte [Teil 1]

    von Sylvia Nguyen, NLP Engineer

    Einführung 

    Dieser Blogbeitrag befasst sich mit dem sogenannten „KI-Kunst“-Trend, der zurzeit soziale Medienplattformen wie TikTok oder Twitter überflutet. Er behandelt die Themen, was Künstliche Intelligenz (KI) ausmacht, was KI-Kunst und KI-generierte Bilder sind und was derzeit im Trend liegt.

    Was ist KI?

    Bevor in diesem Blogbeitrag das Thema KI-Kunst untersucht wird, sollte zunächst geklärt werden, was mit KI überhaupt gemeint ist. KI steht für „Künstliche Intelligenz“ und beschreibt ein weites Feld der Informatik, das neuronale Netze trainiert und komplexe Algorithmen verwendet, um bestimmte Aufgaben zu erfüllen. Zu diesen Aufgaben gehören z. B. Spracherkennung, Übersetzung oder Personalisierung von Inhalten.

    KI-Technologien setzen sich häufig aus Algorithmen für maschinelles Lernen, Deep Learning, Verarbeitung natürlicher Sprache und anderen Techniken zusammen, die es Computern ermöglichen, aus gegebenen Daten zu „lernen“, z. B. Muster zu erkennen und auf dieser Grundlage Vorhersagen zu machen oder Entscheidungen zu treffen. KI hat eine große Auswahl von Anwendungen in verschiedenen Branchen wie etwa dem Gesundheitswesen, dem Finanzwesen oder dem Verkehrswesen.

    Und was ist KI-Kunst? Was ist der Unterschied zu KI-generierten Bildern?

    „KI-Kunst“ hingegen ist eine Art der Anwendung von KI-Technologie, die sich auf die Verwendung von KI-Algorithmen zur Erstellung, Veränderung oder Verbesserung von Bildern konzentriert.  Wenn man den Begriff „KI-Kunst“ hört, könnte man sich fragen, was eigentlich genau unter diese Kategorie fällt. 

    Jede Kunstform – von Bildern, Videos bis hin zu Musik oder Literatur – die von einer KI generiert wird, kann als „KI-Kunst“ bezeichnet werden. Dieser Blogeintrag konzentriert sich jedoch hauptsächlich auf künstlich erzeugte Bilder. Darüber hinaus werden in diesem Artikel Bilder, die von Text-Bild-Modellen stammen, aus Respekt vor den menschlichen Künstlern als KI-generierte Bilder benannt.
    Tools wie Stability.AI’s Stable Diffusion oder Midjourney’s Midjourney sind derzeit sehr beliebt und kommen einem schnell in den Sinn, wenn man über generative Text-Bild-Modelle spricht. Wie genau funktionieren sie? Diese Modelle sind in der Regel eine Kombination aus einem Sprachmodell, das einen eingegebenen natürlichsprachlichen Text als Input verarbeitet und in eine latente, maschinenlesbare Repräsentation übersetzt, und einem generativen Bildmodell, das auf der Grundlage des Inputs und seiner Repräsentation ein Ergebnis ausgibt. Vor der Kombination mit dem Sprachmodell wurde das Bildmodell anhand eines großen Datensatzes von Text-Bild-Paaren trainiert. Laut Xinyue Shen et al. (2023) können die Modelle in der Architektur der Sprach- und Bildgenerierungsmodelle variieren und verschiedene Techniken wie GAN, Diffusionsmodelle oder Transformatoren verwenden.

    Quelle: basierend auf Hugging Face

    Der erforderliche Input wird in der Regel von einem Benutzer geliefert, der eine Eingabeaufforderung nach seinem Geschmack und seinen Vorstellungen einfügen kann (natürlich alles innerhalb der Grenzen der Community-Richtlinien) und die Magie geschehen lässt, ohne einen weiteren Finger rühren zu müssen. In einigen Fällen hat der Benutzer jedoch vor der Generierung ein paar mehr Optionen, mit denen er arbeiten kann: Er kann wie in Dream von WOMBO entweder aus verschiedenen Kunststilen wählen oder sogar seine eigenen Bilder als Referenzen hochladen. Der Benutzer kann dann entweder eines der vorgegebenen Ergebnisse speichern oder mehr Zeit in die Verfeinerung der Eingabeaufforderung für Details investieren oder sich durch verschiedene Generationen oder hochskalierte Versionen eines ausgewählten Bildes wie in Midjourney manövrieren.

    Ein weiterer beliebter Anwendungsfall auf der Social-Media-Plattform TikTok ist der „KI-Porträt“-Effekt, mit dem Nutzer beeindruckende Bilder von sich selbst in anderen Timelines oder als fiktiven Charakter erstellen können. OpenArt’s AI Model Workspace bietet diese Art von personalisierten KI-Bildern an, indem es den Nutzer auffordert, 20 Fotos, z. B. Porträts, hochzuladen, um Bilder von sich selbst in verschiedenen Stilen für den persönlichen Gebrauch zu erhalten, und zwar völlig abfrage frei. Die Bandbreite der Tools und Anwendungsfälle für KI-generierte Bilder scheint grenzenlos.

    Und um die hohe Qualität der Ergebnisse zu unterstreichen, die mit einem der aktuellen KI-gestützten Bilderzeugungstools erzielt werden, werden im Folgenden einige künstlich generierte Bilder gezeigt.

    KI-generierte Bilder – Was ist der aktuelle Trend?

    Mit den zunehmenden Fortschritten und der daraus resultierenden Aufmerksamkeit für Technologien der KI hat ein neuer Trend der KI und insbesondere der KI-generierten Bilder begonnen, die Plattformen der sozialen Medien zu überfluten. Plattformen wie Instagram sind gesättigt mit realistischen und surrealen Bildern von oft traumhafter Qualität, während TikTok Fotoeffekte wie „AI Manga“ oder „AI Painter“ oder zahllose KI-orientierte Videos anbietet. Es gibt eine Fülle von KI-basierten Inhalten: Von Nutzern, die zunehmend KI-Bildgeneratoren für Experimente nutzen und deren Ergebnisse zeigen, bis hin zu informativen Videos über KI, die von einem von KI geschaffenen Avatar gelesen werden, oder Tutorials über die Verwendung hilfreicher KI-Tools in allen möglichen Fachbereichen.

    Und selbst wenn sie nicht explizit erwähnt wird, ist die KI-Technologie heutzutage fast überall zu finden: in personalisierter Werbung auf Instagram, in Einkaufsempfehlungen auf Amazon, in Spracherkennungssoftware oder in praktischen Anwendungen wie dem Filtern von Spam-Mails.

    Doch erst seit dem zunehmenden Angebot an KI-generierten Bildern, die für die breite Masse über die sozialen Medien zugänglich geworden sind, ist KI stärker in den Fokus der Öffentlichkeit gerückt. Eine wachsende Zahl von Social-Media-Nutzern greift auf die große Anzahl von KI-gesteuerten generativen Tools zurück, um einzigartige und sensationelle Bilder für ihre Profile zu generieren, was zu verblüffenden und aufmerksamkeitsstarken Werken führt. Gerade diese surrealen „Kunstwerke“, die auf den ersten Blick perfekt erscheinen, erzielen eine große Anzahl von Likes und Kommentaren auf den Plattformen und ziehen immer mehr neugierige Nutzer an, die diese Tools selbst ausprobieren wollen.

    Die sozialen Medien haben es leicht gemacht, ein Publikum zu gewinnen und Informationen und Inhalte zu verbreiten sowie den Zugang zu Testtools für die Durchschnittsperson zu ermöglichen. Stable Diffusion und Midjourney zum Beispiel bieten ihren Nutzern an, ihrem Discord-Server beizutreten, der als Diskussionsforum oder Plattform zum Testen der Tools dient, während sie die angenehme Vertrautheit einer potenziell bekannten Umgebung genießen. Vor allem junge Menschen (und damit potenzielle neue Nutzer oder Förderer) lassen sich auf diese Weise leichter erreichen.

    Inzwischen haben KI-generierte Bilder aber auch den Weg in den kommerziellen Markt oder in Bereiche jenseits der persönlichen Unterhaltung gefunden: So veröffentlichte der 28-jährige Ammaar Reshi laut Time im Dezember 2022 sein Kinderbuch „Alice and Sparkle“ auf Amazons Kindle Direct Publishing Plattform. Das Besondere daran ist, dass sowohl der Inhalt als auch die Illustrationen des Buches mit Hilfe von ChatGPT und Midjourney erstellt wurden.

    In einem anderen Fall berichtete die New York Times, dass Jason M. Allens künstlich erzeugtes Werk „Théâtre D’opéra Spatial“ die Kategorie „New digital artist“ im jährlichen Kunstwettbewerb der Colorado State Fair gewonnen hat und damit eines der ersten KI-generierten Bilder dieser Kategorie war. Auch in diesem Fall wurde Midjourney zur Bilderzeugung eingesetzt.

    Ein anderer Fall sorgte für große Aufregung: Wie TechCrunch berichtete, wurde das Release-Modell von Stable Diffusion auf der Diskussionsplattform 4chan geleakt und für pornographische Zwecke missbraucht. Mithilfe des Open-Source-Bilderzeugungsmodells hatten Nutzer nackte Deepfakes von Berühmtheiten erstellt. Stability AI hat daraufhin Maßnahmen ergriffen, um eine anstößige Generierung zu verhindern.

    Bei allen Beispielen äußerten die Menschen Bedenken und Kritik, aber auch Bewunderung für die Ergebnisse. Einige fühlten sich beleidigt, andere teilten ihre Sorgen. In jedem Fall sind der Nutzen und der Wert von KI-generierten Bildern für die Gesellschaft zum jetzigen Zeitpunkt höchst umstritten. Einige der diskutierten Fragen werden im kommenden zweiten Teil dieses Beitrags erörtert. Bleiben Sie also dran!

    Artikel wurde aus dem englischen Original übersetzt.

    Interessante Artikel zum Thema

    AI-Generated Comic Book Could Lose Copyright Protection

    AI Timeline for Text-to-Image Machine Learning Models