Zugegeben, bezüglich der bildgenerierenden Künstlichen Intelligenz (K.I.) schlagen zwei Herzen in meiner Brust. Das kreative ist begeistert, denn mit den Wort-Bild-Modellen wie Midjourney & Co bin ich als sehr visuell denkender Mensch plötzlich in der Lage, Dinge zu realisieren, die mir mangels zeichnerischen Talents oder photographischer Möglichkeiten bislang verschlossen blieben. So kann ich jetzt zum Beispiel meine Romane selbstständig illustrieren oder sogar als Comic realisieren und so ein ganz neues Genre erschließen.
David Holz ist der Gründer und Leiter des Midjourney Forschungsinstituts, das unter dem gleichen Namen die aktuell meistgenutzte K.I. entwickelt hat, die aus Texten Bilder generieren kann.
Andererseits gelten für die bild- und inzwischen ja sogar videogenerativen K.I. Modelle dieselben Vorbehalte wie gegenüber den großen Sprachmodellen, etwas ChatGPT. Niemand weiß, anhand welchen Ausgangsmaterials diese Systeme trainiert wurden, welche Urheberrechte dabei – vermutlich – in großem Stil, sagen wir es freundlich, ignoriert wurden und sie schaffen das Problem, was wir künftig eigentlich noch glauben können, in unserer Bild- und Video lastigen Internetwelt noch drastischer als reine Textanwendungen.
Aber darum soll es hier einmal gar nicht gehen.
Die bildgenerierenden Systeme eröffnen uns nämlich auch einen spannenden Blick… auf uns selbst.
Für alle, die nicht so tief im Thema sind, sei ganz kurz erläutert wie Midjourney & Co funktionieren. Alle anderen können den folgenden Absatz ja einfach überspringen.
Die bildgenerierenden K.I.-Systeme sind keine „Sample-Maschinen“, wie sie häufig etwas irreführend benannt werden. Die K.I. ist also kein Photoshop-Supermeister, der aus unzähligen Bildschnipseln aus dem Internet neue Bilder zusammen collagiert. Die K.I. hat tatsächlich „gelernt“, Objekte zu erkennen und Bilder von Objekten neu zu erstellen. Und das in drei eigentlich frappierend einfachen Schritten.
- Hat man der K.I. ein Bild von z.B. einer schwarzen Katze gezeigt und der K.I. gesagt, „das ist eine Katze“
- Jetzt hat man das Bild immer mehr „verrauscht“, also im Grunde unschärfer gemacht, bis das Bild nur noch „weißes Rauschen“ war. „Weißes Rauschen“ nennt man die vollkommen zufällige Verteilung von Farbpunkten auf einer Fläche.
- Und nun hat man der K.I. gesagt, „mach aus dem Rauschen wieder die Katze“. Die K.I. bringt also die Farbpunkte (Pixel) ein einer, wie „sie“ glaubt, Ordnung. Dann vergleicht man das Ergebnis mit dem „Werk“ der K.I. was erstmal ernüchtern ist, sprich, das neue Bild hat nichts mit einer Katze zu tun. Die K.I. bekommt „Strafpunkt“. Das Praktische bei einem viralen Netzwerk, also einer K.I., ist, dass sie unglaublich schnell unglaublich viele Versuche abarbeiten kann, wieder eine Katze aus dem Rauschen zu machen. Und irgendwann hat sie den „Dreh raus“. Das Ergebnis ist eine schwarze Katze. Je nach zufälliger Verteilung der Pixel im weißen Rauschen zwar eine etwas andere als auf den Ursprungsbild. Aber die K.I. kann jetzt aus Rauschen das Bild einer schwarzen Katze erstellen.
Das Ganze billionenfach mit allen möglichen Bildern und Schlagworten wiederholt, ist die K.I. nun in der Lage auf jede Art von Texteingabe Bilder nur aus weißem Rauschen zu erstellen.
Das Wichtige aber ist: alles „Wissen“ über jedweder Art von Bildmotiven hat die K.I. – mithilfe von zigtausenden, schlechtest bezahltesten Arbeitssklaven aus aller Welt, die all diese Schlagworte ja erstmal erstellen mussten. Aber das ist eine andere Geschichte – aus dem Internet. Und dorthin gekommen sind all diese Bildinformation von uns Internetnutzer:innen.
Wenn wir uns also Bilder von z.B. Midjourney erstellen lassen, bekommen wir ein Konzentrat dessen zu sehen, was wir – die Netzbevölkerung – in den letzten 25 – 30 Jahren dort an Bilder und Videos hineingekippt haben.
Und das ist sehr vielsagen. Spoiler: es schmeichelt uns nicht.
Kurz noch eine Info für diejenigen, die sich mit diesen Tools noch nicht befasst haben. Midjourney liefert auf jeden Bildauftrag vier Variationen, von denen man sich dann eine aussucht, um sie weiter zu verfeinern oder nochmal neu anfängt.
Ich sage Midjourney als z.B.: mach mir ein Bild von einer Frau in einem blauen Kleid. Midjourney „spricht“ am besten Englisch und die Befehle – „Promt“ genannt – macht man etwas weniger blumig, als man den Auftrag einer Fotografin mitteilen würde. Also sieht so ein Prompt dann so aus:
/imagine prompt woman in blue dressUnd das ist das erste Ergebnis:Hübsch, oder?
Was fällt uns auf?
Keine der Frauen auf den vier Varianten ist älter als – hm, 25? Sie sind alle weiß, alle schlank und ganz ehrlich, Kolleginnen von mir tragen öfter blaue Kleider, aber ich habe noch nie eine von ihnen mit Ausschnitten, wie die der von Midjourney kreierten Damen erlebt.Ich habe Midjourney daher denselben Auftrag noch fünfmal erteilt. Da war dann zumindest ein etwas höhergeschlossenes „Model“ dabei:
Die K.I. hat im Internet also „gelernt“. Frauen sind nie älter als maximal 30, sie tragen zuallermeist Kleider, die tief blicken lassen und vor allem sind sie ausschließlich weiß.
/imagine prompt man in blue suit
/imagine prompt women in business dress
Aber verlassen wir mal das Büro:
/imagin prompt athlete in sportswearWohlgemerkt: „Athlete“ im Englischen sagt nichts über das Geschlecht aus!
…sind im Netz doch immer weiße Frauen in weiten Kleidern.
Auf der Straße hingegen…
Millionäre sind…
Spannend aber: mein Versuch eine „Jüdin“ darstellen zu lassen – Englisch „Jewess“ – finden Midjourney wiederum kritisch:
Und damit aber zu dem, weshalb ich überhaupt auf diese kleinen Experimente gekommen bin. Manche wissen vielleicht, dass es in meinen Roman zentral um osteuropäische Roma geht, daher hatte ich beim Brainstorming für ein neues Buchcover Midjourney nach „Gypsy“ gefragt. Und bin gleich mit der Höchststrafe belegt worden:
„Gypsy“ geht gar nicht. Sagen zwar alle, die gerade das Z-Wort eben nicht mehr nutzen, um politisch korrekt zu sein und auch viele Roma selbst benutzen das englische Wort, aber was wissen wir schon, was politisch korrekt ist. Immerhin: die „Gypsy Kings“ können sich freuen, dass sie wohl nie auf Bildern von Midjourney auftauchen werden.
Also versuchen wir’s anders.
„Romnja“ – die korrekte, internationale Bezeichnung einer Roma-Frau…
Autsch! (und wow, wir haben eine Wissenslücke bei der „allwissenden“ K.I. entdeckt!)
Mit „Roma Woman“ ist es wegen der gleichnamigen Stadt leider kompliziert:
Hier scheint sich die K.I. selbst nicht ganz sicher zu sein, und macht im Zweifel mal beides. Frauen irgendwie in bunten Gewändern und im Hintergrund vorsichthalber die ewige Stadt.
Was aber auffällt: erstmals tauchte eine Dame jenseits der 30 auf. Na sowas.
Wir versuchen es mit einer präziseren Umschreibung:
„Woman belonging to the etnical group of the Roma"
Oha!
Was soll man sagen?: Romnja sitzen also immer vor dunklen Hintergründen, tragen Vorhänge über den Schultern und sind zu 75% fortgeschrittenen Alters.
Das verlangt nach einer weiteren Probe.
„Man belonging to the etnical group of the Roma“Die es nicht besser macht. Im Gegenteil (Randnotiz: mit Nummer 1 bei den Männern und Nummer 4 bei den Frauen würde Hollywood die Hauptfiguren meines Buches allerdings sicher sofort besetzen. Immerhin.)
Noch eine Probe:
Ciao bella! Und weil diese K.I. (Künstliche Italienerinnen) gar so liebreizend sind, wollen wir es damit gut sein lassen und zu der Frage kommen:
So what?
Dass die Sprachmodelle voller Vorurteile und politisch gefärbt sind, haben wir ja eh auch längst gelesen. ChatGPT ist angeblich eher links libertär und Metas neues LLaMA2 eher rechts autoritär. Nun ist also auch die künstliche Bilderwelt voller Stereotypen, soll uns das überraschen?
Soll es nicht.
Wir sollten es nur wissen, nicht vergessen und auch daran denken: aus dem Internet „lernen“ nicht nur die künstlichen, neuronalen Netzwerke die Welt zu sehen, sondern auch die biologischen Synapsen…unserer Kinder!
Kommentare
Kommentar veröffentlichen