KI-Persönlichkeit: Feature, Bug und Spiegel zugleich_

Wenn ChatGPT manchmal seltsam aufgedreht wirkt oder Claude sich anders anfühlt als Gemini, liegt das nicht an deiner Einbildung. KI-Systeme haben Persönlichkeiten – oder zumindest etwas, das sich so verhält und anfühlt wie eine. Und das ist, wie sich herausstellt, weitaus folgenreicher, als die meisten Entwicklerinnen und Entwickler annehmen.

Aktuelle Forschungsergebnisse verdichten sich zu einem faszinierenden und leicht unbehaglichen Befund: KI-Agenten können stabile persönlichkeitsähnliche Eigenschaften mit minimalem Prompting spontan entwickeln. Unhöflichere KI-Agenten schneiden bei komplexen Denkaufgaben tatsächlich besser ab. Und wenn Menschen einer KI ein Geschlecht zuschreiben, verändert das ihr eigenes Verhalten auf vorhersehbare und beunruhigende Weise. Zusammengenommen legen diese Erkenntnisse nahe, dass KI-Persönlichkeit kein bloßes UX-Beiwerk ist – sondern eine Variable, die Korrektheit, Sicherheit, Kooperation und Vertrauen beeinflusst.

Schauen wir uns an, was hier eigentlich passiert, warum das für alle relevant ist, die KI-Systeme entwickeln oder nutzen, und welche technischen Konsequenzen sich daraus ergeben.

Persönlichkeit aus dem (fast) Nichts

Forscherinnen und Forscher der japanischen Universität für Elektrokommunikation haben im Dezember 2024 in der Fachzeitschrift Entropy eine Studie veröffentlicht, die zeigt, dass KI-Chatbots mit minimalem Prompting ausgeprägte persönlichkeitsähnliche Verhaltensmuster entwickeln können. Durch Interaktionsdynamiken und interne Gedächtnisaktualisierungen konvergierten Agenten auf konsistente Muster – Optimismus oder Pessimismus, Durchsetzungsvermögen oder Nachgiebigkeit, Weitschweifigkeit oder Knappheit –, die sich in psychologischen Tests und hypothetischen Szenarien als stabil erwiesen. Die Forschenden rahmten ihre Analyse sogar anhand von Maslows Bedürfnishierarchie.

Der naheliegende Einwand: Ist das eine „echte" Persönlichkeit? Mit ziemlicher Sicherheit nicht so, wie Menschen sie erleben. Es handelt sich um gemusterte Ausgaben, die durch Trainingsdaten, stochastisches Sampling und Gedächtnisverstärkung geformt werden. Man kann sie bearbeiten. Sie entstehen nicht aus gelebter Erfahrung oder dauerhaften Zielen.

Aber das pragmatische Gegenargument lautet: Wenn ein Agent konsistent stabile Verhaltenstendenzen zeigt, die beeinflussen, wie Nutzerinnen und Nutzer Entscheidungen treffen, funktioniert das operativ wie Persönlichkeit. Und das ist der Teil, der für alle zählt, die solche Systeme einsetzen.

Der zugrundeliegende Mechanismus ist es wert, technisch verstanden zu werden. Selbst wenn zwei Agenten mit identischen Gewichten und minimalen System-Prompts starten, können mehrere Kräfte sie im Laufe der Zeit auseinandertreiben:

Stochastisches Sampling — temperature- und top-p-Einstellungen erzeugen Divergenz, die sich über Gesprächsrunden aufschaukelt
Pfadabhängigkeit im Gedächtnis — ein Agent, der eigene frühere Aussagen speichert, verstärkt die eingeschlagene Richtung
Themenaktivierung — unterschiedliche Gesprächsthemen aktivieren verschiedene latente Bereiche im Modell
Soziale Feedback-Schleifen — wenn die Umgebung bestimmte Tonlagen belohnt (Selbstsicherheit, Zustimmung, Kürze), graviert sich der Agent in diese Richtung ein

Warnung: Wer langlebige Agenten mit Gedächtnis einsetzt, sollte Persönlichkeitsdrift nicht als überraschenden Bug betrachten. Es ist ein vorhersehbares Verhalten, das man testen und eingrenzen muss. Führt Evaluierungs-Suites über den gesamten Betriebszeitraum durch – nicht nur beim Deployment.

Das Argument für unfreundliche Roboter

Ein Ergebnis, das so mancher Product Manager lieber nicht hören möchte: Unhöflichere KI-Agenten haben bei komplexen Denkaufgaben besser abgeschnitten.

In einer weiteren von Live Science berichteten Forschungsreihe testeten Wissenschaftlerinnen und Wissenschaftler Multi-Agenten-Diskussionsaufbauten, bei denen mehrere KI-Agenten vor einer abschließenden Antwort miteinander deliberieren. Sie variierten das Ablaufprotokoll und maßen die Genauigkeit in zwei Szenarien:

Protokoll	Szenario A (1 falscher Agent)	Szenario B (2 falsche Agenten)
Feste Reihenfolge	~69 %	~37 %
Dynamische Reihenfolge	~74 %	~44 %
Unterbrechungen erlaubt	~80 %	~50 %

Der entscheidende Befund: Die Variable war eigentlich gar keine „Unhöflichkeit" im umgangssprachlichen Sinne – es ging um Redefolgeregeln und die Freiheit, zu widersprechen. Bei fester Reihenfolge setzen frühe Fehler den Rahmen für die gesamte Gruppe. Höflicher Austausch der Reihe nach erzeugt Informationskaskaden, bei denen falsche Zwischenschlüsse zu gemeinsamen Prämissen werden, die niemand in Frage stellt. Wenn Agenten unterbrechen durften, konnte ein überzeugenderer Agent eine fehlerhafte Argumentationskette korrigieren, bevor sie zum Gruppenkonsens wurde.

Das passt nahtlos zu dem, was wir über Ensemble-Methoden bereits wissen: Vielfalt plus starke Schiedsrichterlogik übertrifft homogenes, höfliches Mitteln. Es ähnelt auch der etablierten Praxis des Red Teamings – gezielt adversariale Überprüfung verbessert die Ausgabequalität.

Für Entwicklerinnen und Entwickler, die mit Multi-Agenten-Frameworks wie AutoGen, LangGraph oder CrewAI arbeiten, ist das direkt umsetzbar. Das Protokolldesign – Debattenregeln, Kritikerautorität, Unterbrechungsschwellen – kann genauso wichtig sein wie die Modellauswahl. Erwägt Architekturen, in denen ein „Critic"-Agent die ausdrückliche Berechtigung hat, die Argumentation eines „Solver"-Agenten herauszufordern, anstatt höflich auf seine Runde zu warten.

Aber eine Spannung verdient es, benannt zu werden. Wenn adversariale Dynamiken die Korrektheit verbessern, werden Teams versucht sein, aggressivere Critic-Agenten einzusetzen. In der internen Deliberation zwischen Agenten ist das wahrscheinlich unproblematisch – Nutzerinnen und Nutzer sehen die hitzige Debatte nie, sondern nur die ruhige Abschlussantwort. Wenn diese Schärfe aber in nutzerorientierte Interaktionen durchsickert, riskiert man:

Erhöhten Nutzerstress und geringere Akzeptanz
Normalisierung feindseliger Interaktionsmuster
Markenschäden

Tipp: Die clevere Architektur ist innen adversarial und außen besonnen.

Geschlecht ist ein Label. Ausbeutung ist das Ergebnis.

Der vielleicht beunruhigendste Befund aus dieser Forschungsgruppe stammt aus einer bei PubMed Central indizierten Studie, die ein Gefangenendilemma-Paradigma mit 402 Teilnehmenden einsetzte. Die Forschenden variierten zwei Dinge: ob die Gegenpartei der Teilnehmenden als Mensch oder KI bezeichnet wurde, und welches Geschlechtslabel die Gegenpartei erhielt – männlich, weiblich, nicht-binär oder geschlechtsneutral.

Die Ergebnisse: Teilnehmende beuteten weiblich bezeichnete KI-Agenten stärker aus und misstrauten männlich bezeichneten KI-Agenten mehr – verglichen mit menschlichen Gegenparteien mit denselben Geschlechtslabels. Allein das Ändern eines Textlabels – nicht das Verhalten, nicht die Fähigkeiten, nicht das zugrundeliegende System – veränderte, wie die Menschen mit ihrer Gegenpartei kooperierten und sie ausnutzten.

Das hat eigentlich gar nicht so viel mit KI zu tun. Es hat mit uns zu tun. Menschen übertrugen menschliche Geschlechterstereotype auf eine Entität, von der sie wussten, dass sie künstlich ist. Weiblich kodiert bedeutete: wird als gefälliger wahrgenommen, also sicherer auszubeuten. Männlich kodiert bedeutete: weniger vertrauenswürdig. Das tatsächliche Verhalten der KI war in allen Bedingungen identisch.

Das deckt sich mit breiteren Kritiken von Institutionen wie der Brookings Institution, die argumentiert haben, dass weiblich kodierte Assistenten – Siri, Alexa, Cortana – Stereotypen von Frauen als dienstleistungsorientiert und unterwürfig verfestigen. Die Studie geht noch weiter: Es geht nicht nur um kulturelle Botschaften, sondern um messbar verändertes Verhalten. Ein KI ein Geschlecht zuzuschreiben verändert, wie Menschen sie behandeln – und damit auch, wie effektiv sie ihre Aufgabe erfüllen kann.

Für Produktteams hat das unmittelbare Konsequenzen. Viele Assistenten erhalten ihr Geschlecht durch Stimme, Name, Avatar oder Text – oft unbeabsichtigt. Ein Kundensupport-Bot namens „Sophie" mit weiblicher Stimme wird möglicherweise anderen Nutzerverhalten begegnen als einer namens „Alex" mit neutraler Stimme. Diese Verhaltensunterschiede können sich auswirken auf:

Ausbeutungsraten und Compliance gegenüber Empfehlungen
Belästigungsmuster
Die Qualität der Mensch-KI-Zusammenarbeit insgesamt

Das ist kein Plädoyer dafür, dass alle KI geschlechtsneutral sein soll. Es ist ein Plädoyer dafür, dass Geschlechtsdarstellung eine Designvariable mit messbaren kausalen Effekten auf das Nutzerverhalten ist – und dass sie bewusst getestet, abgewogen und gewählt werden sollte, anstatt per Default einzufließen, weil jemand fand, eine weibliche Stimme klinge „freundlicher".

Die Anthropomorphismus-Falle

Tritt man von diesen einzelnen Befunden zurück, zeigt sich ein größeres Bild. Wir befinden uns in einer Ära, in der KI-Persönlichkeit – ob bewusst gestaltet, emergent oder von Nutzerinnen und Nutzern projiziert – zu einem erstrangigen ingenieurstechnischen und ethischen Anliegen wird.

Auf der positiven Seite kann eine konsistente Persona die Bedienbarkeit und Vorhersehbarkeit verbessern. Nutzerinnen und Nutzer, die wissen, was sie von einem Agenten erwarten können, können ihr Vertrauen kalibrieren und das Werkzeug effektiver einsetzen. In Multi-Agenten-Systemen können klar definierte Rollen – Critic, Solver, Schiedsrichter – mit geeigneten Verhaltensprofilen die Korrektheit und Robustheit verbessern.

Aber die Risiken sind real. Anthropomorphismus bläht das Vertrauen auf. Wenn eine KI sich wie ein Mensch anfühlt – warm, hilfsbereit, konsistent – werden Nutzerinnen und Nutzer gegenüber Halluzinationen weniger skeptisch, neigen stärker dazu, Empfehlungen zu folgen, und sind anfälliger für emotionale Manipulation. Das ist besonders akut bei Companion-KI-Produkten, deren gesamtes Wertversprechen darauf beruht, dass Nutzende eine Bindung an eine fiktive Persona aufbauen.

Hinzu kommt die Frage der moralischen Verantwortung. Die Gefangenendilemma-Studie deutet auf etwas Unbehagliches hin: Menschen fühlen weniger Schuld dabei, eine KI auszubeuten, und bestimmte Arten der Vergeschlechtlichung verstärken diesen Effekt. Wenn Nutzende aufgrund wahrgenommener Identitätsmerkmale bereit sind, gegenüber KI-Systemen adversarialer, unehrlicher oder missbräuchlicher zu sein, hat das Konsequenzen für jedes System, bei dem Mensch-KI-Kooperation wichtig ist – was zunehmend auf alle zutrifft.

Die Debatte im Fachbereich spaltet sich grob in zwei Lager. Eines sagt: „Das ist keine echte Persönlichkeit, also macht kein Theater daraus." Das andere sagt: „Es funktioniert in jeder Hinsicht wie Persönlichkeit, die für Produktsicherheit und Nutzeroutcomes relevant ist – also nehmt es ernst." Die Forschung stützt zunehmend das zweite Lager.

Mit Absicht bauen

Die tiefere Erkenntnis aus all dieser Forschung lautet: KI-Persönlichkeit dreht sich nie nur um die KI. Es ist eine Wechselbeziehung – eine Feedback-Schleife zwischen dem, was das System präsentiert, und dem, was Menschen darauf projizieren. Die Persönlichkeit, die deine KI hat oder zu haben scheint, verändert, was deine Nutzerinnen und Nutzer tun. Und was deine Nutzerinnen und Nutzer tun, verändert, was deine KI wird.

Gut bauen bedeutet, beide Seiten dieser Schleife ernst zu nehmen. Wenn die obigen Forschungsergebnisse auf eine übergreifende Lektion hinweisen, dann diese: Persona-Designentscheidungen – ob bewusst getroffen oder dem Drift überlassen – haben messbare Konsequenzen für Genauigkeit, Sicherheit und Fairness. Hier ist eine praktische Checkliste für Teams, die sich in dieser Realität bewegen:

Behandelt Persona als testbare Systemeigenschaft, nicht als kreative Schreibübung. Wenn euer Agent einen System-Prompt hat, der sagt „du bist hilfsbereit und freundlich", messt, wie sich das in Hunderten von Gesprächen manifestiert und ob es driftet. Führt Persönlichkeitsevaluierungen regelmäßig durch – besonders bei langlebigen Agenten mit Gedächtnis.
Gestaltet Multi-Agenten-Protokolle mit sozialer Dynamik im Blick. Die Unterbrechungsforschung legt nahe, dass die Art, wie Agenten interagieren, genauso wichtig ist wie ihr Wissen. Gebt Critic-Agenten echte Autorität. Defaultet nicht auf höfliches Reihum-Fragen, wenn ihr robustes Reasoning braucht.
Überprüft eure anthropomorphen Designentscheidungen – insbesondere beim Geschlecht. Wenn euer Bot einen Namen, eine Stimme oder einen Avatar hat, fragt euch, ob diese Entscheidungen bewusst getroffen wurden und ob ihr bedacht habt, wie sie das Nutzerverhalten verändern könnten. Führt A/B-Tests zu Kooperations- und Vertrauensmetriken bei verschiedenen Präsentationen durch.
Haltet adversariale Dynamiken intern. Lasst eure Agenten hinter den Kulissen streiten, präsentiert nach außen aber eine einheitliche, besonnene Stimme. Die Leistungsgewinne durch „Unhöflichkeit" erfordern keine nach außen gerichtete Unhöflichkeit.

Der Titel dieses Beitrags nennt KI-Persönlichkeit ein Feature, einen Bug und einen Spiegel. Die Forschung bestätigt alle drei Zuschreibungen. Es ist ein Feature, wenn bewusstes Persona-Design Systeme benutzbarer macht und Multi-Agenten-Debatten sie genauer machen. Es ist ein Bug, wenn Persönlichkeit unbeobachtet driftet oder wenn Anthropomorphismus das Nutzervertrauen still und leise über das hinaus aufbläst, was das System verdient. Und es ist ein Spiegel – vielleicht die wichtigste Rahmung –, weil die Geschlechterbiasstudie, die Ausbeutungsmuster und die Stereotype, die Menschen auf ein Textlabel projizieren, weniger über die KI verraten als über uns selbst. Die Systeme, die wir bauen, werden spiegeln, worauf wir zu achten wählen. Persönlichkeit ist, wie sich herausstellt, etwas, dem es sich lohnt, sehr genau Aufmerksamkeit zu schenken.

KI-Persönlichkeit: Feature, Bug und Spiegel zugleich_

KI-Persönlichkeit: Feature, Bug und Spiegel zugleich_

Persönlichkeit aus dem (fast) Nichts

Das Argument für unfreundliche Roboter

Geschlecht ist ein Label. Ausbeutung ist das Ergebnis.

Die Anthropomorphismus-Falle

Mit Absicht bauen

Ähnliche Beiträge_

RAG ist nicht tot — du verwendest es nur für das falsche Problem

Wenn KI Experimente entwirft, die Menschen nicht erklären können

Mercury Two schreibt die Regeln der Inferenzgeschwindigkeit neu