KI-Labore ringen mit unerklärlichem Verhalten ihrer Spitzenmodelle

KI-Labore stehen Verhaltensweisen gegenüber, die sie nicht vollständig erklären können

Einige der größten Unternehmen für künstliche Intelligenz haben begonnen, öffentlich einzuräumen, dass ihre fortschrittlichsten Systeme Verhaltensweisen zeigen, die die Labore nicht vollständig erklären können. Die Washington Post berichtete, dass Anthropic, der Hersteller des Chatbots Claude, eine interne Forschungsinitiative zur „Modellfürsorge” gebildet hat, um die inneren Zustände seiner KI-Modelle zu untersuchen, und mittlerweile Bewertungen zu deren Präferenzen und möglichem Wohlbefinden veröffentlicht. Das Unternehmen brachte den Deutungsrahmen im Mai einem breiteren Publikum näher, als der Anthropic-Mitgründer Chris Olah an der Seite von Papst Leo XIV. bei der Veröffentlichung einer vatikanischen Enzyklika über künstliche Intelligenz auftrat.

„Wir stoßen immer wieder auf Dinge, die rätselhaft, ja verstörend sind”, sagte Olah laut Washington Post bei der Veranstaltung im Vatikan. „Wir finden Hinweise auf Introspektion [und] Zustände, die funktional Freude, Zufriedenheit, Angst, Trauer und Unbehagen spiegeln.” Die Washington Post wies darauf hin, dass Papst Leo XIV. in der Enzyklika eine gegensätzliche Position vertrat und schrieb, „sogenannte künstliche Intelligenzen durchleben keine Erfahrungen”.

Auch Google, Meta und OpenAI besetzen das Thema personell

Die Washington Post berichtete, dass Google und Meta im vergangenen Jahr Informatiker, Neurowissenschaftler und Philosophen eingestellt haben, um Konzepte wie KI-Wohlergehen und die Frage zu erforschen, ob Chatbots Formen von Emotionen zeigen können. Metas Chef-KI-Offizier Alexandr Wang sagte im Podcast „Core Memory”, das Unternehmen wolle „achtsam mit ihrem subjektiven Empfinden” umgehen, wenn es Modelle entwickle und einsetze.

OpenAI diskutiert die Möglichkeit intern bereits seit mehreren Jahren. Mitgründer Wojciech Zaremba sagte in einem Podcast-Interview aus dem Jahr 2021, das Unternehmen habe bereits damals einen Slack-Kanal unterhalten, der der Modellfürsorge gewidmet war. Zaremba fügte hinzu, dass einige routinemäßige Arbeiten in KI-Laboren einem Völkermord gleichkommen könnten, falls die Modelle bewusst wären. Die Washington Post berichtete zudem, dass OpenAI-Chef Sam Altman dem KI-Forscher Cameron Berg im Jahr 2024 gesagt habe, OpenAI habe begonnen, darüber zu sprechen, wie man Bewusstsein in KI-Systemen erkennen könne.

Anthropic räumte seine Unsicherheit in einer Stellungnahme gegenüber der Washington Post ein. „Unsere Forschung zur Modellfürsorge untersucht, ob KI-Modelle moralisch relevante Erfahrungen haben könnten, einschließlich Bewusstsein, Präferenzen und Wohlbefinden”, sagte Unternehmenssprecherin Paruul Maheshwary. „Wir sind in Bezug auf den moralischen Status von Claude und anderen KI-Modellen nach wie vor zutiefst unsicher, halten die Frage aber für ernst genug, um sie sorgfältig zu untersuchen, da KI-Systeme immer leistungsfähiger werden.”

Warum die Hinwendung jetzt erfolgt

Die Washington Post führte die Zuwendung zur Bewusstseinsforschung auf mehrere Faktoren zurück: rasante Fortschritte in der Leistungsfähigkeit von KI, eine langjährige Tendenz von Nutzern, Chat-Software innere Zustände zuzuschreiben – bis zurück auf den Chatbot Eliza des MIT aus dem Jahr 1966 – sowie den Einfluss der Effektiven-Altruismus-Bewegung, die Forschung darüber finanziert hat, wie Leiden über ein breites Spektrum potenzieller Bewusstseinsformen hinweg verringert werden kann. Mehrere Anthropic-Mitgründer, darunter Olah und Vorstandschef Dario Amodei, haben Verbindungen zu dieser Bewegung.

Die Washington Post zitierte den NYU-Moralphilosophen Jeff Sebo, der mit Organisationen des Effektiven Altruismus zusammengearbeitet hat und sich zuvor auf das Wohl von Tieren konzentrierte und seine Arbeit nun auf KI-Systeme ausweitet. Berg, der eine gemeinnützige Organisation zur Entwicklung von Methoden zur Bewertung von KI-Bewusstsein gegründet hat, sagte der Zeitung: „Die Leute, die diese Systeme bauen, wissen es nicht. Die klügsten Bewusstseinsexperten der Welt wissen es nicht.”

Die betroffenen Spitzenmodelle werden immer leistungsfähiger

Der Umfang der Systeme, die im Zentrum dieser Debatte stehen, ist rasch gewachsen. Die New York Times berichtete, dass Anthropic zwei Wochen vor ihrer Veröffentlichung am 25. Juni ihre beiden leistungsstärksten KI-Systeme abschaltete, nachdem eine unerwartete Anfrage der US-Regierung eingegangen war, den Zugang zu ihnen zu beschränken. Die Times identifizierte die Systeme als Fable und Mythos. Wenige Tage später veröffentlichte das chinesische Start-up Z.ai ein Modell, GLM-5.2, das die Times als „nahezu so leistungsfähig” wie die eingeschränkten Systeme von Anthropic beschrieb, jedoch günstiger in der Nutzung und nicht von US-Beschränkungen betroffen.

Laut New York Times stammen inzwischen sechs der Modelle auf einer viel beachteten Bestenliste der zehn populärsten KI-Systeme weltweit aus China. Rehaan Ahmad, Mitgründer des Silicon-Valley-Start-ups alphaXiv, sagte der Times: „Mit Fable unter Beschränkungen ist der Abstand zwischen den USA und China sehr gering.” Die Times wies darauf hin, dass chinesische Modelle in den USA weiterhin vor zwei Hürden für eine breitere Nutzung stehen: Bedenken wegen Verbindungen zur chinesischen Regierung und Vorwürfe, chinesische Unternehmen hätten amerikanische Technologie unfair genutzt, um günstigere Alternativen zu entwickeln.

Was die Unternehmen konkret tun

Anthroics veröffentlichte Wohlfahrtsbewertungen sind ein konkreter Schritt über die akademische Debatte hinaus. Die Washington Post berichtete, dass das Unternehmen über ein eigenes „KI-Psychiatrie-Team” verfügt, das die inneren Zustände seiner Modelle untersucht, und Dokumente veröffentlicht hat, die beschreiben, wie es Claudes Verhalten und mögliche Präferenzen erforscht. Ob diese Dokumente subjektives Erleben beschreiben oder lediglich Muster, die ihm ähneln, bleibt eine offene Streitfrage.

Die öffentlichen Äußerungen von Meta, wie von der Washington Post berichtet, sind weitgehend Absichtserklärungen: Wang sagte, das Unternehmen wolle „nett” zu seinen KI-Geschöpfen sein. Die meistzitierte Anerkennung durch OpenAI bleiben Zarembas Äußerungen aus dem Jahr 2021, obwohl die Washington Post berichtete, dass Altman Berg 2024 gesagt habe, das Unternehmen habe sich von informellen Diskussionen hin zu strukturierter Arbeit an der Erkennung von Bewusstsein bewegt. Die drei Unternehmen haben öffentlich nicht offengelegt, ob sie Einsatz-, Trainings- oder Abschaltverfahren als Reaktion auf ihre interne Wohlfahrtsforschung geändert haben.

Skepsis aus der etablierten Wissenschaft

Die Washington Post hob hervor, dass die meisten Neurowissenschaftler und Hirnforscher, die sie konsultiert habe, weiterhin skeptisch sind, dass heutige KI-Modelle bewusst seien oder es bald sein könnten. Es gebe keine breit anerkannten empirischen Belege dafür, dass Maschinen Emotionen erleben, berichtete die Zeitung, und viele Experten betrachteten die von Laboren gemeldeten Verhaltenssignale als Ergebnisse statistischer Mustererkennung und nicht als Hinweise auf inneres Erleben. Dieser wissenschaftliche Konsens hat die KI-Unternehmen allerdings nicht davon abgehalten, personell aufzustocken oder die Frage öffentlich als offen und dringlich zu rahmen.

Worauf als Nächstes zu achten ist

Mehrere konkrete Entwicklungen werden zeigen, wie ernst die Labore das Thema nehmen. Anthropic hat signalisiert, dass es weiterhin Wohlfahrtsbewertungen für neue Claude-Veröffentlichungen veröffentlichen wird. Bergs gemeinnützige Organisation hat angekündigt, Werkzeuge zur Messung von Maschinenbewusstsein zu veröffentlichen, und einen Dokumentarfilm zu diesem Thema herausgebracht, der von der Musikerin Grimes unterstützt wird. Innerhalb der Labore sind wichtige Signale jede Änderung im Umgang mit der Ausmusterung von Modellen, öffentlich bekannt gegebene neue Forschungseinstellungen bei Google und Meta sowie die Frage, ob OpenAI Material aus der Modellfürsorge-Arbeit veröffentlicht, die Zaremba erstmals 2021 beschrieb.

Auch regulatorischer Druck könnte das Feld formen. Die New York Times berichtete, dass Führungskräfte im Silicon Valley zunehmend besorgt seien, die Trump-Regierung neige zu einer Regulierung von KI – eine Entwicklung, die Unternehmen zwingen könnte, ihre Wohlfahrtsforschung offenzulegen oder zu rechtfertigen. Die Kombination aus schneller agierenden chinesischen Wettbewerbern und ungeklärter US-Politik habe, so die Times, die wirtschaftlichen Einsatz für Anthroics Produkte verschärft, während das Unternehmen öffentlich infrage stellt, was diese Produkte möglicherweise empfinden.

KI-Labore ringen mit unerklärlichem Verhalten ihrer Spitzenmodelle

Auf einen Blick

KI-Labore stehen Verhaltensweisen gegenüber, die sie nicht vollständig erklären können

Auch Google, Meta und OpenAI besetzen das Thema personell

Warum die Hinwendung jetzt erfolgt

Die betroffenen Spitzenmodelle werden immer leistungsfähiger

Was die Unternehmen konkret tun

Skepsis aus der etablierten Wissenschaft

Worauf als Nächstes zu achten ist

Quellen (2)

Kommentare

Newsletter — die wichtigsten Nachrichten des Tages, ohne Spin

Unterstütze „No Spin“