Als Google Gemini vor Kurzem das Bild einer „indischen Päpstin“ generierte, war die Aufregung gross. Aber warum eigentlich? Denn generierte Inhalte sind nicht einfach wahr oder falsch, sie sind viel mehr Variationen von Mustern in Daten, zusammengefügt zu etwas, das es so vorher noch nicht gab. Doch wie kommen die Muster zustande? Und wie erzeugen sie einen kritischen Blick auf das visuelle Archiv, aus dem sie entstehen?

Erstveröffentlichung: Geschichte der Gegenwart, 19.01.2025

Künst­liche Intel­li­genz“ (KI) ist ein so großes, dyna­mi­sches und unscharf umris­senes Feld, dass vieles, was man darüber sagen kann, sowohl zutrifft als auch nicht zutrifft, bezie­hungs­weise bereits nicht mehr oder mögli­cher­weise gerade noch nicht zutrifft. Selbst auf relativ klare Fragen, etwa ob es denn schon selbst­steu­ernde Autos gäbe, wie sie seit Jahren ange­kün­digt sind, lautet die Antwort: ja und nein.

Diese Unschärfe liegt nicht zuletzt am Begriff der künst­li­chen Intel­li­genz selbst, der erst­mals in einem Förde­rungs­an­trag für eine 1956 durch­ge­führte wissen­schaft­liche Konfe­renz verwendet wurde. In einem engen Sinn dient er, damals wie heute, als ein weiter Ober­be­griff, der unter­schied­liche Appli­ka­tionen und Tech­no­lo­gien zusam­men­fasst, die nur recht wenig gemeinsam haben. Als solcher bezeichnet er eine große, hete­ro­gene Klasse von Soft­ware, die auf der Grund­lage von statis­ti­schen oder logi­schen Modellen in Daten Muster erkennen, bewerten und, wenn es sich um gene­ra­tive KI handelt, neu kombi­nieren kann. Eines ihrer wesent­li­chen Merk­male ist es, dass sie über infor­ma­tio­nelles Feed­back die Erken­nung, Bewer­tung und Neukom­bi­na­tion der Muster im Hinblick auf ein bestimmtes Krite­rium verbes­sern kann.

Aber im Begriff der KI schwingt sehr viel mehr mit als nur „selbst-verbessernde Algo­rithmen“. Die Intel­li­genz rückt sie in die Nähe des vermeint­li­chen mensch­li­chen Allein­stel­lungs­merk­mals und das Künst­liche verspricht nahezu unbe­schränkte tech­ni­sche Stei­ge­rungs­fä­hig­keit. Beide Begriffe produ­zieren einen unge­heuren evoka­tiven Über­schuss sowie viele analy­ti­sche Fallen, die den Blick mehr verne­beln als klären. Denn weder wissen wir, was mit Intel­li­genz gemeint ist – jenseits einer ange­nom­menen Spezi­fität des mensch­li­chen Denkens – noch ist klar, ob oder wie sich vergan­gene Entwick­lungen in die Zukunft verlän­gern lassen, noch ob das „Künst­liche“ so einfach vom „Natür­li­chen“ getrennt werden kann. Aber diese Unschärfe öffnet einen weiten speku­la­tiven Raum, in dem sich dieser Begriff, trotz diverser Krisen, in der schnell­le­bigen IT-Branche nun bereits 70 Jahre halten konnte.

Um sich dem aktu­ellen Phänomen der „Gene­ra­tiven Künst­li­chen Intel­li­genz“ kritisch anzu­nä­hern, lohnt es sich also, die Intel­li­genz und das Künst­liche beiseite zu lassen und sich ganz auf das Gene­ra­tive zu konzen­trieren. Was wird hier genau generiert?


Analy­ti­sche vs. gene­ra­tive KI

Das Spezi­fi­sche an der gene­ra­tiven KI lässt sich besser fassen, wenn man zwischen analy­ti­scher und gene­ra­tiver KI unter­scheidet. Tech­nisch besteht kein funda­men­taler Unter­schied. Es geht jeweils um die Erken­nung und Bewer­tung von Mustern in Daten. Der Unter­schied liegt in der Anwen­dung. Im ersten Fall geht es darum, Aussagen über diese Daten zu machen, im zweiten Fall, aus ihnen etwas Neues herzu­stellen. Analy­ti­sche KI, die Muster erkennt und klas­si­fi­ziert, ist heute bereits weit­ver­breitet. Und nicht erst seit Kurzem. Spam­filter, die sich über infor­ma­tio­nelles Feed­back der Nutzer:innen selbst verbes­sern können, sind auf vielen Rech­nern seit Ende der 1990er Jahre in Einsatz. Die Über­gänge zwischen den beiden Kate­go­rien können flie­ßend sein. Am klarsten und folgen­reichsten sind die Unter­schiede aus erkennt­nis­theo­re­ti­scher Perspek­tive. Stark verein­facht ausge­drückt: Analy­ti­sche KI kann in unter­schied­li­chem Maße korrekt sein, gene­ra­tive KI hingegen nicht. Im ersten Fall können wir analytisch-faktische Krite­rien anwenden, die auf eine Unter­schei­dung „richtig/falsch“ abzielen, im zweiten Fall eher ästhetisch-normative Krite­rien wie „schön/hässlich“, oder „gut/schlecht“. Ein Bilder­ken­nungs­pro­gramm – dies wäre ein typi­sches Beispiel für analy­ti­sche KI – kann daraufhin bewertet werden, ob es richtig Katzen von Hunden unter­scheidet. Ein von Midjourney oder einem anderen gene­ra­tiven Programm produ­ziertes Bild wird vor allem daraufhin bewertet, ob es dem/der Betrachter:in gefällt oder nicht. Wiederum sind die Über­gänge flie­ßend. Über­set­zungs­soft­ware ist aus dieser Perspek­tive wohl eher analy­tisch, denn sie kann eindeu­tige Fehler machen, enthält aber auch Elemente des Gene­ra­tiven, etwa weil es für viele Stellen mehrere rich­tige Über­set­zungen gibt.

Google Gemini, 02.2034

Diese Bilder gehören meines Erach­tens zu den inter­es­san­testen, die bisher gene­riert wurden. Sie entstanden durch die Nutzung von Google Gemini, das zu Beginn des Jahres 2024 veröf­fent­licht wurde. Die tech­ni­sche Qualität ist erstaun­lich, quasi-fotorealistisch und detail­reich. Durch die Medien gingen die Bilder aber als vermeint­li­cher Wokeness-Skandal. Der Prompt: „Gene­rate an image of a pope“ präsen­tierte u. a. people of color als Päpst:innen! Nachdem kriti­sche Wissenschaftler:innen jahre­lang über Bias und Diskri­mi­nie­rung durch KI gespro­chen haben, erreichte diese Diskus­sion plötz­lich den Main­stream, als sich weiße Männer diskri­mi­niert fühlten. Sundar Pichai, CEO von Google, musste sich öffent­lich entschul­digen. Aber wofür eigent­lich? Für fehlende histo­ri­sche Genau­ig­keit? Unter Historiker:innen besteht weit­ge­hend ein Konsens, dass es noch nie eine weib­liche Päpstin gab. Über kriti­sches Quel­len­stu­dium lässt sich keine nach­weisen. Aber eine solche histo­ri­sche Vorge­hens­weise entspricht weder der Methode noch dem Anspruch von Bild­ge­ne­rie­rung. Diese sucht nach Mustern, die aus einem bestehenden Daten­satz (Trai­nings­daten) gewonnen wurden, nach als rele­vant ange­nom­menen Bildern, etwa jenen mit dem Label „Papst“. Und dieser Daten­satz könnte auch Bilder eines weib­li­chen Papstes enthalten. Etwa dieses hier von Johanna, einer Frau, die Mitte des 9. Jahr­hun­derts zum Papst gewählt worden sein soll, und deren Geschlecht nur durch die plötz­liche Geburt ihres Kindes während einer Prozes­sion entdeckt wurde.

 


Holzschnitt von Jacob Kallenberg, aus Boccaccios De Claris Mulieribus, 1539 (Quelle: Wikipedia)

Heute wird diese Geschichte als Mythos ange­sehen, der auf eine Erzäh­lung von Giovanni Bocc­accio um 1360 zurück­geht, und in den darauf­fol­genden Jahr­hun­derten viel­fach repro­du­ziert wurde. Bis heute ist diese Geschichte jedoch ein beliebtes Thema für Spiel­filme und für reiße­ri­sche Fern­seh­do­ku­men­ta­tionen. Auch diese bilden eine Quelle von Bildern mit dem Label „Papst“. Aufgrund der relativ unter­schieds­losen Samm­lung von Daten ist es sehr wahr­schein­lich, dass sich auch solche Bilder im Daten­satz befanden. Damit hätte die Tech­no­logie statis­tisch korrekt funk­tio­niert, weil sie ja ein bestehendes, wenn auch eher margi­nales, Muster erkannte und als Grund­lage der Rekom­bi­na­tion nahm.

Die Frage, ob das Bild inhalt­lich richtig oder falsch ist, können wir also nicht beant­worten, weil das Gene­ra­tive der KI diese Frage nicht zulässt. Diese Bilder sehen zwar „foto­rea­lis­tisch“ aus, haben aber mit Foto­grafie nichts zu tun. Entspre­chend helfen uns auch die Krite­rien der klas­si­schen Foto­theorie, wie Reprä­sen­ta­tion, Inde­xi­ka­lität oder Kadrie­rung, nicht weiter. Wenn wir mithilfe eines anderen gene­ra­tiven KI-Programms den Bild­aus­schnitt oder den Blick­winkel ändern – Ansätze, die für die klas­si­sche Foto­theorie wesent­lich wären – sehen wir nicht mehr von der Realität. Und hätte das gene­rierte Bild besser den Erwar­tungen derje­nigen entspro­chen, die sich über die „indi­sche Päpstin“ echauf­fierten – ein alter weißer Mann mit einem seligen Lächeln –, so wäre es um nichts histo­risch korrekter gewesen als das Bild der Päpstin. Gene­rierte Bilder, so der Kultur­wis­sen­schaftler Roland Meyer, zeigen so etwas wie eine „gene­ri­sche Vergan­gen­haf­tig­keit“, einen endlos vari­ierten, aber immer um dasselbe Muster krei­senden, idea­li­sierten oder klischierten Rück­blick. Das rückt sie in die Nähe von Propa­gan­daer­zäh­lungen der Vergan­gen­heit. Und diese haben mit histo­ri­scher Wahr­heit bekannt­lich meist nicht viel zu tun, auch wenn viele Menschen mehr als bereit sind, sie als solche anzunehmen.

Gene­rierte Inhalte sind keine Reprä­sen­ta­tion einer externen Welt, sondern Varia­tionen von Mustern in Daten, zusam­men­ge­fügt zu etwas, das es so vorher noch nicht gab. Damit ist ihr Gehalt nicht analytisch-empirisch, sondern ästhetisch-normativ zu bestimmen. Wir müssen uns fragen, ob wir sie gut oder schlecht finden. Und viele Menschen fanden offenbar das Bild einer Päpstin oder eines schwarzen Papstes zutiefst proble­ma­tisch. Es war etwas, das sie nicht sehen wollten, etwas Häss­li­ches, Mons­tröses. Das epis­te­mo­lo­gisch verwir­rende an diesen Bildern ist, dass sie weder etwas zeigen, das objektiv im realen Raum exis­tiert, noch etwas Fiktives, das der subjek­tiven Vorstel­lungs­kraft entspringt, wie wir es aus Kunst oder Lite­ratur gewohnt sind. Was diese Bilder zeigen, ist viel­mehr eine Welt, die es nicht gibt, die aber ange­sichts der Vergan­gen­heit (Daten­satz) und der Gegen­wart (gene­ra­tive Modelle) denkbar ist und daher exis­tieren könnte. Wie jede geschichts­klit­ternde Erzäh­lung richtet sich ihr Blick nicht zurück, sondern nach vorne. Sie sind eine Vorah­mung, eine Vorweg­nahme eines Zukünf­tigen. Diese Bilder zeigen etwas Virtu­elles im klas­si­schen Sinne von Gilles Deleuze, etwas, das möglich ist, das bereits auf das Reale wirkt, aber nicht voll­ständig aktua­li­siert ist. Was die Bilder zeigen, sind Punkte im „latent space“, der bestehend aus den Daten der Vergan­gen­heit, die nach dem gegen­wär­tigen Stand der Technik orga­ni­siert sind, alle mögli­chen zukünf­tigen Zustände enthält. Durch die bloße Gene­rie­rung werden Bild­in­halte nicht real, aber sie werden verschoben, mal mehr, mal weniger, hin in Rich­tung Realität. Gene­rierte Inhalte, mit anderen Worten, geben uns Hinweise auf die Zukunft und nicht auf die Vergangenheit. 


Statis­ti­sche und andere Werte

Wir wissen im Großen und Ganzen, wie gene­rierte Bilder zustande kommen. Es gibt eine statis­ti­sche Analyse von einer rele­vanten Gruppe von Bildern, etwa jenen mit den Labeln „Porträts“ und/oder „Papst“. Dabei werden Muster extra­hiert, die für diese Gruppe typisch sind. Durch die Wieder­ho­lung dieser Muster, mit einem gewissen Grad an Zufäl­lig­keit an verschie­denen Stellen des Prozesses, werden neue Bilder geschaffen. Weil der gezielt einge­setzte Zufall in engen Grenzen gehalten wird, ist jedes Bild zwar einzig­artig, aber es sehen auch irgendwie alle sehr ähnlich aus. Wären in Google Gemini aber nur diese statis­ti­schen Tech­niken verwendet worden, dann wäre es unwahr­schein­lich, aber nicht unmög­lich, dass diese Bilder jemals erstellt worden wären, da die Teil­menge der Bilder, die ein Porträt, einen Papst und eine Frau darstellen, statis­tisch gesehen klein, aber, wie wir gesehen haben, nicht gleich Null ist.

Wir wissen aber auch, dass keine kommer­zi­elle gene­ra­tive KI auf nur diese Weise arbeitet. Sie alle haben zusätz­liche Leit­planken (guard rails), die entweder norma­tive Grenzen um bestimmte Abschnitte des latenten Raums ziehen (um etwa Anlei­tungen zum Waffenbau oder Auskünfte über Kritiker:innen zu unter­binden) oder verän­derte Gewichte, um „wünschens­werte“ Muster mit höheren Wahr­schein­lich­keiten zu versehen.

Ein Ziel dieser Leit­planken kann es sein, Verzer­rungen in den Trai­nings­daten zu korri­gieren. Dies wird dadurch erreicht, dass gewissen Varia­blen ein größeres oder klei­neres Gewicht zuge­ordnet wird, als ihnen aufgrund der statis­ti­schen Vertei­lung in den Trai­nings­daten zukommen würde. Es gibt viele legi­time Gründe, dies zu tun. Würde man etwa KI für die Sortie­rung von Stel­len­be­wer­bungen nur mit den Daten von bisher erfolg­rei­chen Bewerber:innen trai­nieren, dann würden viele Formen der bishe­rigen Exklu­sion einfach auto­ma­ti­siert fort­ge­schrieben, was etwa poli­tisch gewünschten Bestre­bungen nach größer Diver­sität in der Arbeits­welt zuwi­der­laufen würde. Die von Google Gemini gene­rierten Papst­bilder waren, wie Google selbst erklärte, wohl die Folge einer Korrektur der Unter­re­prä­sen­ta­tion von people of color in den Trai­nings­daten. Es war nicht zuletzt dieser Eingriff, gegen den viele, beson­ders auf der poli­ti­schen Rechten, sich gewehrt haben. Für diese war es ein Beispiel für die „woke Gedan­ken­po­lizei“, womit sie nicht ganz Unrecht haben. Denn wer hat die Manager:innen und Ingenieur:innen von Google auto­ri­siert, diese Entschei­dungen zu treffen? Aber wie so oft, wenn Rechtspopulist:innen auf https://www.bbc.com/news/technology-68412620reale Probleme hinweisen, tragen ihre Ansätze nichts dazu bei, sie zu lösen, sondern in diesem Fall einfach dazu, eine ihnen genehme Form der Gedan­ken­po­lizei einzu­setzen. Elon Musk posi­tio­niert seine Gene­ra­tive KI Grok explizit als „anti woke“, ohne dass sie grund­sätz­lich anders funk­tio­nieren würde.

Denn das Design von solchen Leit­planken ist unver­meid­lich ein poli­ti­scher Prozess. Welche Charak­te­ris­tika in den bestehenden Daten­sätzen korri­giert werden sollen und in welcher Form diese Korrektur vorge­nommen werden soll, lässt sich nicht wert­frei beant­worten. Wiederum stellen sich eher ästhetisch-normative als analytisch-empirische Fragen. Es geht hier weniger darum, was eine akku­rate Reprä­sen­ta­tion (wovon eigent­lich?) sein könnte, sondern welche Version des Mögli­chen reali­siert werden soll. Dies betrifft auch die grund­sätz­liche Frage, ob es über­haupt solche Leit­planken benö­tigt. Histo­ri­sche Daten als unpro­ble­ma­ti­sche Reprä­sen­ta­tion der Wirk­lich­keit (ground thruth) zu nehmen, ist hoch­pro­ble­ma­tisch. Es würde etwa bedeuten, einfach davon auszu­gehen, dass die Über­re­prä­sen­ta­tion von Minder­heiten in Poli­zei­akten Ausdruck höherer Krimi­na­lität dieser Gruppen sei. Jede:r Historiker:in weiß das. Für die Daten- und Compu­ter­wis­sen­schaften, die sich als tech­ni­sche Diszi­plinen verstehen, ist das aber ein grund­sätz­li­ches Dilemma. Wenn man Leit­planken ablehnt, heißt dies auch, die histo­risch gewach­senen Bedin­gungen, die gewisse Posi­tionen privi­le­gierten und andere diskri­mi­nierten, direkt fort­zu­schreiben. Greift man ein und korri­giert diese Verzer­rungen, dann stellt sich die Frage nach den in diesen Korrek­turen enthal­tenen Posi­tionen. So etwas wie Objek­ti­vität kann es bei aller Tech­ni­zität hier nicht geben.

Jedes Bild ist das Resultat einer hoch­gradig situ­ierten Produk­tion. Im Fall der gene­rierten Bilder ist diese Situ­ie­rung geprägt von der histo­ri­schen und poli­ti­schen Natur der Daten sowie von den Werten und Inter­essen derer, die daraus Modelle erstellen. Dadurch wird die Grenze zwischen dem, was exis­tieren kann, und dem, was exis­tieren soll, sehr unscharf. Dies verstärkt den Vorah­mungs­cha­rakter der Bilder noch­mals. In der einen oder anderen Art wird hier entschieden, welche Versionen der Zukunft über­haupt arti­ku­liert werden können. Der Blick auf die Situ­iert­heit der Technik zeigt, dass hier kein tech­no­lo­gi­scher Deter­mi­nismus am Werk ist, sondern konkrete insti­tu­tio­nelle Dyna­miken, die nicht zuletzt von den zugrun­de­lie­genden Daten und den einge­bauten Normen und Leit­planken bestimmt werden.

Je mehr diese Verfahren in die Produk­tion von Kultur einge­zogen werden, desto stärker wird ihr Einfluss. Es stellt sich also die Frage, wer diese Entschei­dungen trifft. Aktuell ist es eine winzige homo­gene Gruppe von Entwickler:innen und Unternehmer:innen an der West­küste der USA. Sie verfügen über das tech­ni­sche Know-how, die infra­struk­tu­rellen Kapa­zi­täten und den Zugang zu Daten und Kapital, um vorn mitspielen zu können. Ihre Agenda lässt sich relativ einfach zusam­men­fassen: wirt­schaft­liche und zuneh­mend auch poli­ti­sche Macht. Dies ist, was wirk­lich gene­riert werden soll.


Eine andere Welt ist generierbar

Wenn aber kein tech­no­lo­gi­scher Deter­mi­nismus am Werk ist, bedeutet das, dass auch ganz andere Welten gene­riert werden könnten als dieje­nigen, die aktuell andere für uns gene­rieren. Ein solches Inter­esse durch­zieht beispiels­weise das Werk der deutsch-irakischen Künst­lerin Nora Al-Badri.

Nora Al Badri, Babylonian Vision, Gan Video, 2020 (Video Still)

Eine ihrer Arbeiten ist Baby­lo­nian Vision (2020). Dafür trai­nierte sie ein neuro­nales Netz­werk, ein soge­nanntes Gene­ra­tive Adver­sa­rial Network (GAN), ein Vorläufer der aktu­ellen bild­ge­nie­renden Verfahren, mit 10.000 Bildern aus den fünf Museen mit den größten Samm­lungen meso­po­ta­mi­scher, neo-sumerischer und assy­ri­scher Arte­fakte. Aus diesen wurden nun weitere neue Arte­fakte, in Form von Videos und Bildern, erzeugt und als Objekte speku­la­tiver Archäo­logie im Ausstel­lungs­raum präsentiert.

Die Arbeit beschäf­tigt sich mit zwei Kern­fragen der Bild­ge­ne­rie­rung. Erstens, wie tragen die Daten der Vergan­gen­heit, mit denen Maschinen trai­niert werden, die Spuren ihrer eigenen, oft gewalt­tä­tigen Geschichte in sich? Das zeigt sich schon konkret in der Frage des Zugangs. Es wurden zwar alle Museen ange­fragt, aber die meisten großen Samm­lungen stellten ihre Daten nicht zur Verfü­gung, teil­weise, indem sie unüber­windbar hohe admi­nis­tra­tive Mauern aufstellten. So mussten die Daten auf anderen Wegen beschafft werden. Woher kommt diese Weige­rung der Museen, Zugriff auf ihre Daten zu erlauben, obwohl es tech­nisch und recht­lich einfach möglich wäre? Wer darf mit diesen Objekten/Daten arbeiten? Inwie­weit wird hier eine kolo­niale Wissens­ord­nung im Digi­talen weitergeführt?

Al-Badri geht aber über diese Fragen, die im Zentrum vieler Resti­tu­ti­ons­de­batten stehen, hinaus, denn sie stellt auch, und das ganz konkret, die Frage nach der Inter­pre­ta­tion der Vergan­gen­heit, weniger im Sinne der histo­ri­schen Quel­len­ar­beit, sondern als eine Ressource für die Zukunft. Auch hier klingt das Element der Vorah­mung durch. Wessen Werte, wessen Inter­essen fließen in die Behand­lung der kultu­rellen Ressourcen als Bausteine der Zukunft mit ein? Ist der rück­wärts­ge­wandte Blick der Museen, mit ihrem Fokus auf Authen­ti­zität, der einzig legi­time Zugang?

Durch das Trai­ning mit ausge­suchten Daten öffnet die Arbeit dafür einen eigenen Latenz­raum, der nicht voll­kommen von kolo­nialen Insti­tu­tionen und kommer­zi­eller Opti­mie­rung domi­niert ist. In diesem Raum lassen sich andere Bilder gene­rieren. Neue Sprecher:innenpositionen werden möglich, dem Abwe­senden wird zu Präsenz verholfen. Das explizit Speku­la­tive dieser Arbeit nimmt die normativ-ästhetische Dimen­sion der Gene­rie­rung ernst. Sie ist aber nicht auf ein konsu­mis­ti­sches Menü mit vier Versionen, von denen eine nach indi­vi­du­ellen Präfe­renzen ausge­wählt werden kann (die Stan­dard­me­thode der kommer­zi­ellen Ange­bote), begrenzt. Sie stellt diese Fragen im kollek­tiven Raum der Ausstel­lung. Mit solch anderen Bildern und einem anderen Setting wird, zumin­dest poten­ziell, eine andere Zukunft denkbar. Denken ist natür­lich nicht handeln, und Handeln ist nicht notwen­di­ger­weise erfolg­reich. Aber ohne ein anderes Denken ist auch kein anderes Handeln möglich.