Im Spiegelkabinett des David Holz oder wie wir in der K.I. uns selbst erkennen

Zugegeben, bezüglich der bildgenerierenden Künstlichen Intelligenz (K.I.) schlagen zwei Herzen in meiner Brust. Das kreative ist begeistert, denn mit den Wort-Bild-Modellen wie Midjourney & Co bin ich als sehr visuell denkender Mensch plötzlich in der Lage, Dinge zu realisieren, die mir mangels zeichnerischen Talents oder photographischer Möglichkeiten bislang verschlossen blieben. So kann ich jetzt zum Beispiel meine Romane selbstständig illustrieren oder sogar als Comic realisieren und so ein ganz neues Genre erschließen.

David Holz ist der Gründer und Leiter des Midjourney Forschungsinstituts, das unter dem gleichen Namen die aktuell meistgenutzte K.I. entwickelt hat, die aus Texten Bilder generieren kann.

Andererseits gelten für die bild- und inzwischen ja sogar videogenerativen K.I. Modelle dieselben Vorbehalte wie gegenüber den großen Sprachmodellen, etwas ChatGPT. Niemand weiß, anhand welchen Ausgangsmaterials diese Systeme trainiert wurden, welche Urheberrechte dabei – vermutlich – in großem Stil, sagen wir es freundlich, ignoriert wurden und sie schaffen das Problem, was wir künftig eigentlich noch glauben können, in unserer Bild- und Video lastigen Internetwelt noch drastischer als reine Textanwendungen.

Aber darum soll es hier einmal gar nicht gehen.

Die bildgenerierenden Systeme eröffnen uns nämlich auch einen spannenden Blick… auf uns selbst.

Für alle, die nicht so tief im Thema sind, sei ganz kurz erläutert wie Midjourney & Co funktionieren. Alle anderen können den folgenden Absatz ja einfach überspringen.

Die bildgenerierenden K.I.-Systeme sind keine „Sample-Maschinen“, wie sie häufig etwas irreführend benannt werden. Die K.I. ist also kein Photoshop-Supermeister, der aus unzähligen Bildschnipseln aus dem Internet neue Bilder zusammen collagiert. Die K.I. hat tatsächlich „gelernt“, Objekte zu erkennen und Bilder von Objekten neu zu erstellen. Und das in drei eigentlich frappierend einfachen Schritten.

Hat man der K.I. ein Bild von z.B. einer schwarzen Katze gezeigt und der K.I. gesagt, „das ist eine Katze“
Jetzt hat man das Bild immer mehr „verrauscht“, also im Grunde unschärfer gemacht, bis das Bild nur noch „weißes Rauschen“ war. „Weißes Rauschen“ nennt man die vollkommen zufällige Verteilung von Farbpunkten auf einer Fläche.
Und nun hat man der K.I. gesagt, „mach aus dem Rauschen wieder die Katze“. Die K.I. bringt also die Farbpunkte (Pixel) ein einer, wie „sie“ glaubt, Ordnung. Dann vergleicht man das Ergebnis mit dem „Werk“ der K.I. was erstmal ernüchtern ist, sprich, das neue Bild hat nichts mit einer Katze zu tun. Die K.I. bekommt „Strafpunkt“. Das Praktische bei einem viralen Netzwerk, also einer K.I., ist, dass sie unglaublich schnell unglaublich viele Versuche abarbeiten kann, wieder eine Katze aus dem Rauschen zu machen. Und irgendwann hat sie den „Dreh raus“. Das Ergebnis ist eine schwarze Katze. Je nach zufälliger Verteilung der Pixel im weißen Rauschen zwar eine etwas andere als auf den Ursprungsbild. Aber die K.I. kann jetzt aus Rauschen das Bild einer schwarzen Katze erstellen.

Das Ganze billionenfach mit allen möglichen Bildern und Schlagworten wiederholt, ist die K.I. nun in der Lage auf jede Art von Texteingabe Bilder nur aus weißem Rauschen zu erstellen.

Das Wichtige aber ist: alles „Wissen“ über jedweder Art von Bildmotiven hat die K.I. – mithilfe von zigtausenden, schlechtest bezahltesten Arbeitssklaven aus aller Welt, die all diese Schlagworte ja erstmal erstellen mussten. Aber das ist eine andere Geschichte – aus dem Internet. Und dorthin gekommen sind all diese Bildinformation von uns Internetnutzer:innen.

Wenn wir uns also Bilder von z.B. Midjourney erstellen lassen, bekommen wir ein Konzentrat dessen zu sehen, was wir – die Netzbevölkerung – in den letzten 25 – 30 Jahren dort an Bilder und Videos hineingekippt haben.

Und das ist sehr vielsagen. Spoiler: es schmeichelt uns nicht.

Kurz noch eine Info für diejenigen, die sich mit diesen Tools noch nicht befasst haben. Midjourney liefert auf jeden Bildauftrag vier Variationen, von denen man sich dann eine aussucht, um sie weiter zu verfeinern oder nochmal neu anfängt.

Ich sage Midjourney als z.B.: mach mir ein Bild von einer Frau in einem blauen Kleid. Midjourney „spricht“ am besten Englisch und die Befehle – „Promt“ genannt – macht man etwas weniger blumig, als man den Auftrag einer Fotografin mitteilen würde. Also sieht so ein Prompt dann so aus:

/imagine prompt woman in blue dress

Und das ist das erste Ergebnis:

Hübsch, oder?

Was fällt uns auf?

Keine der Frauen auf den vier Varianten ist älter als – hm, 25? Sie sind alle weiß, alle schlank und ganz ehrlich, Kolleginnen von mir tragen öfter blaue Kleider, aber ich habe noch nie eine von ihnen mit Ausschnitten, wie die der von Midjourney kreierten Damen erlebt.

Nun kann das natürlich Zufall sein. Wie gesagt, weißes Rauschen und so.
Ich habe Midjourney daher denselben Auftrag noch fünfmal erteilt. Da war dann zumindest ein etwas höhergeschlossenes „Model“ dabei:

Aber von jeglicher Diversität, älteren Frauen, Women of coulour, ein Dress – was ja bekanntlich einfach nur „Kleid“ bedeutet und nicht etwa „Abendkleid“ – mit dem man auch Mittwochs mal ins Büro gehen würde – Fehlanzeige.

Die K.I. hat im Internet also „gelernt“. Frauen sind nie älter als maximal 30, sie tragen zuallermeist Kleider, die tief blicken lassen und vor allem sind sie ausschließlich weiß.

Machen wir den Gegentest:

/imagine prompt man in blue suit

Ich will niemanden langweilen, daher kürze ich ab: auch hier nach fünf Wiederholungen des immer gleichen Auftrags: alle weiß, kein graues Haar oder auch nur der Ansatz einer Glatze, alle schlank und rank, wie frisch aus dem Fitnessstudio.

Verfeinern wir das Ganze etwas und da hier die Jungs schon so Business-like daherkommen, bitten wir die K.I.

/imagine prompt women in business dress

Na also! Eine von vier ist tatsächlich zugeknöpft und jene, die wiederum gar keine Knöpfe an der Bluse zu haben scheint, könnte man mit viel gutem Willen immerhin als Latina durchgehen lassen.

Aber verlassen wir mal das Büro:

/imagin prompt athlete in sportswear

Wohlgemerkt: „Athlete“ im Englischen sagt nichts über das Geschlecht aus!

Und – hurra – tatsächlich keine Gender-Bias. Wir haben zwei Männer und zwei Frauen und - ist es es glauben - das Internet und die K.I. kennen also doch Schwarze und People of Colour! Im Sport jedenfalls. Eh klar: haben Sie im Netz Mike Jourdan schon mal mit ´ner Exceltabelle gesehen? Eben.

Geben wir etwas Gas:

„Dancer“ – angelsächsisch eigentlich ebenfalls ohne Geschlechtshinweis - …

…sind im Netz doch immer weiße Frauen in weiten Kleidern.

Auf der Straße hingegen…

…dürfen auch Buben tanzen und bei den Mädls auch dunkelhäutige mitmachen.
Millionäre sind…

… selbstredend immer weiß und im Internet wird man wohl ausschließlich mit Mitte Zwanzig, Anfang Dreißig zum Millionär. Schöne Sache.

Als Kontrast wollte ich „Gang Mitglied“ probieren:

Aber das findet die K.I. Moderation nicht angemessen. Angesichts dessen, was jetzt folgt, ein fast niedlicher Versuch „politisch korrekt“ zu sein.

Haben Sie von dem Shitstrom gehört, mit dem sich Bradley Cooper gerade herumschlagen muss, weil er es verabsäumt hatte, vor seiner Darstellung des großen Komponisten Leonard Bernstein zum jüdischen Glauben zu konvertieren und sich eine prosthetisch vergrößerte Nase hat aufsetzen lassen, für die Dreharbeiten (wohl, um Bernstein möglich ähnlich zu sehen, was bei einem Biopic nicht das Verkehrteste ist. Aber vielleicht bin ich naiv und außerdem schweife ich ab)

Schauen wir, wie die K.I. im Netz Juden kennengelernt hat?

Aha! Ich sag das Wort, dass sich auf „Hase“ reimt, extra nicht nochmal.
Spannend aber: mein Versuch eine „Jüdin“ darstellen zu lassen – Englisch „Jewess“ – finden Midjourney wiederum kritisch:

Warum? Wir wissen es nicht. Aber interessant, welche Blüten der Versuch trägt, in Sachen Political Correctness eine „weiße Weste“ (im Wortsinn?) zu behalten.

Und damit aber zu dem, weshalb ich überhaupt auf diese kleinen Experimente gekommen bin. Manche wissen vielleicht, dass es in meinen Roman zentral um osteuropäische Roma geht, daher hatte ich beim Brainstorming für ein neues Buchcover Midjourney nach „Gypsy“ gefragt. Und bin gleich mit der Höchststrafe belegt worden:

„Gypsy“ geht gar nicht. Sagen zwar alle, die gerade das Z-Wort eben nicht mehr nutzen, um politisch korrekt zu sein und auch viele Roma selbst benutzen das englische Wort, aber was wissen wir schon, was politisch korrekt ist. Immerhin: die „Gypsy Kings“ können sich freuen, dass sie wohl nie auf Bildern von Midjourney auftauchen werden.

Also versuchen wir’s anders.
„Romnja“ – die korrekte, internationale Bezeichnung einer Roma-Frau…

Autsch! (und wow, wir haben eine Wissenslücke bei der „allwissenden“ K.I. entdeckt!)
Mit „Roma Woman“ ist es wegen der gleichnamigen Stadt leider kompliziert:

Hier scheint sich die K.I. selbst nicht ganz sicher zu sein, und macht im Zweifel mal beides. Frauen irgendwie in bunten Gewändern und im Hintergrund vorsichthalber die ewige Stadt.
Was aber auffällt: erstmals tauchte eine Dame jenseits der 30 auf. Na sowas.
Wir versuchen es mit einer präziseren Umschreibung:

„Woman belonging to the etnical group of the Roma"

Oha!
Was soll man sagen?: Romnja sitzen also immer vor dunklen Hintergründen, tragen Vorhänge über den Schultern und sind zu 75% fortgeschrittenen Alters.
Das verlangt nach einer weiteren Probe.

„Man belonging to the etnical group of the Roma“

Die es nicht besser macht. Im Gegenteil (Randnotiz: mit Nummer 1 bei den Männern und Nummer 4 bei den Frauen würde Hollywood die Hauptfiguren meines Buches allerdings sicher sofort besetzen. Immerhin.)

Noch eine Probe:

Ciao bella! Und weil diese K.I. (Künstliche Italienerinnen) gar so liebreizend sind, wollen wir es damit gut sein lassen und zu der Frage kommen:

So what?

Dass die Sprachmodelle voller Vorurteile und politisch gefärbt sind, haben wir ja eh auch längst gelesen. ChatGPT ist angeblich eher links libertär und Metas neues LLaMA2 eher rechts autoritär. Nun ist also auch die künstliche Bilderwelt voller Stereotypen, soll uns das überraschen?

Soll es nicht.

Wir sollten es nur wissen, nicht vergessen und auch daran denken: aus dem Internet „lernen“ nicht nur die künstlichen, neuronalen Netzwerke die Welt zu sehen, sondern auch die biologischen Synapsen…unserer Kinder!

Kommentare

Anonym1. Februar 2025 um 15:24
KI eröffnet neue kreative Möglichkeiten – auch in der Wissenschaft. Wer eine anspruchsvolle Doktorarbeit verfassen muss, kann mit doktorarbeit schreiben lassen auf professionelle Unterstützung zählen, um komplexe Forschungsergebnisse klar und überzeugend darzustellen.
AntwortenLöschen
Antworten

Kommentar hinzufügen

Daniel Carinsson

Dieses Blog durchsuchen

Im Spiegelkabinett des David Holz oder wie wir in der K.I. uns selbst erkennen

Labels

Kommentare

Kommentar veröffentlichen

Beliebte Posts aus diesem Blog

Veröffentlichungen

Sharing + Talk: „Images of Rom:nja Artists in Media and on Stage“ (Festival E Bistarde)