
KI-Gesichter täuschen fast alle, zeigt Studie_
Wenn du das nächste Mal auf LinkedIn eine Kontaktanfrage von jemandem bekommst, den du nicht kennst, solltest du kurz innehalten – denn du kannst statistisch gesehen kaum besser als per Zufall erkennen, ob dieses Gesicht echt ist.

KI-Gesichter täuschen fast alle, zeigt Studie_
Wenn du das nächste Mal auf LinkedIn scrollst und eine Kontaktanfrage von jemandem eintrifft, den du nicht kennst, halte kurz inne und frag dich etwas Unbehagliches: Du kannst mit an Sicherheit grenzender Wahrscheinlichkeit nicht erkennen, ob dieses Gesicht echt ist. Nicht „wahrscheinlich nicht". Nicht „vielleicht schwierig". Du bist statistisch gesehen kaum besser als eine Münze, die man wirft.
Das ist das zentrale Ergebnis einer begutachteten Studie der UNSW Sydney und der Australian National University, erschienen im British Journal of Psychology. 125 Teilnehmende – darunter 36 sogenannte Super-Recognizer, Menschen mit außergewöhnlichen Gesichtserkennungsfähigkeiten, die mitunter für Sicherheitsbehörden und die Polizei eingesetzt werden – sollten anhand von Gesichtsbildern entscheiden, welche Fotos echt und welche KI-generiert sind. Die Kontrollgruppe erzielte eine Trefferquote von 50,7 %. Das ist kein Rundungsfehler, der knapp am Zufallswert vorbeischrammt. Das ist Zufall. Die Super-Recognizer kamen auf 57,3 % – was besser klingt, bis man bedenkt, dass sie sich damit immer noch mehr als vier von zehn Malen geirrt haben.
Was das Ganze besonders beunruhigend macht, ist nicht nur die schlechte Erkennungsleistung – es ist das Vertrauen, das die Teilnehmenden in ihre eigene Einschätzung hatten. Wir glauben zu wissen, wie KI-Gesichter aussehen. Wir kennen alle die Memes über verunstaltete Hände und zu viele Zähne. Aber die Generatoren haben sich weiterentwickelt. Die Frage ist, ob unsere Vorstellungen davon Schritt gehalten haben. Die Antwort: nein.
Das Ende der visuellen Checkliste
Eine Zeit lang entwickelte das Internet eine Art Volkstaxonomie der KI-Erkennungsmerkmale. Zu viele Finger. Ohrringe, die nicht zusammenpassen. Text, der in unlesbares Kauderwelsch zerfällt. Hintergründe, die sich bei näherer Betrachtung in lovecraftsche Geometrien auflösen. Das waren reale Artefakte, und eine Weile lang taugten sie als Erkennungsheuristiken.
Das tun sie nicht mehr – zumindest nicht zuverlässig. Die UNSW/ANU-Studie war bewusst darauf ausgelegt, diese Realität abzubilden. Die Forschenden filterten Bilder mit offensichtlichen visuellen Fehlern heraus, bevor sie sie den Teilnehmenden zeigten. Keine schmelzenden Ohren. Keine siebenfingrigen Hände. Nur saubere, glaubwürdig wirkende Gesichter – manche echt, manche synthetisch.
Dieser Schritt ist entscheidend, weil er das spiegelt, was in der Realität passiert. Wer einen Romance-Scam betreibt oder ein gefälschtes LinkedIn-Profil anlegt, wird nie das Bild nehmen, auf dem die Zähne seltsam aussehen. Es wird ein ganzes Set generiert, das beste Bild ausgewählt, vielleicht durch ein Gesichtsrestaurierungs- oder Hochskalierungstool gejagt und dann eingesetzt. Der Angreifer darf kuratieren. Das Opfer sieht nur das Endprodukt.
Moderne generative Pipelines – ob auf späteren GAN-Generationen wie NVIDIAs StyleGAN3 oder auf diffusionsbasierten Systemen – sind dramatisch besser darin geworden, lokale Renderartefakte zu eliminieren. Bessere Architekturen produzieren stabilere Synthesen. Generierung in höherer Auflösung erfasst die Details, die früher zusammenbrachen. Und ein wachsendes Ökosystem an Nachbearbeitungstools (Gesichtsrestaurierung, Detailverbesserung, Hintergrundersatz) kann bereinigen, was noch übrig bleibt. Die visuelle Checkliste ist nicht nutzlos – aber sie wird rasant zur Nostalgie.
Zu perfekt, um echt zu sein (aber nicht so, wie man es merken würde)
Wenn die offensichtlichen Hinweise verschwunden sind – gibt es dann irgendetwas, das KI-Gesichter von echten unterscheidet? Die Studie deutet darauf hin: ja – aber das Signal ist subtil genug, dass dein bewusstes Sehsystem es nicht zuverlässig erfassen wird.
Der zentrale Befund betrifft das, was die Forschenden als Hyper-Durchschnittlichkeit bezeichnen. Stell es dir so vor: Wenn man Gesichter als Punkte in einem hochdimensionalen Einbettungsraum darstellt (wie ihn ein Gesichtserkennungs-Neuronales Netz intern erlernt), dann sind echte menschliche Gesichter über diesen Raum verstreut – in all ihrer herrlichen, eigenwilligen Vielfalt. Manche liegen weit vom Zentrum entfernt – ungewöhnliche Proportionen, markante Asymmetrien, seltene Merkmalskombinationen. Echte Gesichter sind eigenartig auf ganz individuelle Weise.
KI-generierte Gesichter, so die Studie, tendieren dazu, sich näher am Zentrum dieses Raums zu clustern. Sie sind typischer. Symmetrischer. „Ausgewogener". Sie sehen aus wie Gesichter – aber wie der Durchschnitt von Gesichtern.
Das leuchtet intuitiv ein, wenn man bedenkt, wie generative Modelle trainiert werden. Sie lernen, die dominante Dichte ihrer Trainingsverteilung zu treffen. Bei GANs entmutigen Verlustfunktionen und Trainingsdynamik von Natur aus das Generieren seltener oder atypischer Moden – der ungewöhnlichen Gesichtsformen und Merkmalskombinationen, die echte Menschen wie sie selbst aussehen lassen. Diffusionsmodelle decken Moden deutlich besser ab und leiden nicht unter klassischem Mode Collapse auf dieselbe Weise, aber der Hyper-Durchschnittlichkeits-Effekt bleibt wohl aus einem anderen Grund bestehen: Trainingsdatensätze selbst sind auf konventionelle, gut ausgeleuchtete, „gute" Fotos ausgerichtet, und ästhetische Kuration während und nach der Generierung treibt die Ausgaben weiter in Richtung einer polierten Normalität. Unabhängig von der Architektur konvergiert das Ergebnis – generierte Gesichter clustern in Richtung des Typischen.
Die Ironie ist scharf: KI-Gesichter könnten erkennbar sein nicht weil sie fehlerhaft sind, sondern weil sie zu makellos sind. Zu normal. Zu sehr so, wie ein Gesicht „aussehen sollte". Aber das ist kein Signal, auf das Menschen bewusst zugreifen können. Man kann kein Foto ansehen und denken: „Hmm, dieses Gesicht ist 0,3 Standardabweichungen näher am Zentroid meines internen Gesichtsraum-Einbettung als erwartet." Super-Recognizer scheinen eine gewisse implizite Sensitivität dafür zu haben – ihre bescheidene Genauigkeitsüberlegenheit und besser kalibrierte Konfidenz legt nahe, dass sie etwas aufgreifen – aber selbst sie können daraus keine zuverlässige Erkennung machen.
Das Vertrauensproblem
Der vielleicht gefährlichste Befund der Studie betrifft nicht die Genauigkeit. Er betrifft das Vertrauen.
Die Teilnehmenden glaubten im Allgemeinen, dass sie gut abschneiden. Sie hatten das Gefühl, Echtes von Gefälschtem unterscheiden zu können. Dieses Übervertrauen war nicht gleichmäßig verteilt – Super-Recognizer zeigten bessere Kalibrierung, das heißt, ihr Vertrauen stimmte besser mit ihrer tatsächlichen Genauigkeit überein – aber insgesamt vertrauten die Menschen ihrem eigenen Urteil mehr, als sie sollten.
Warnung: Wer glaubt, Fälschungen erkennen zu können, wird seinem eigenen Urteil vertrauen und weitermachen. Vertrauen ohne Kompetenz ist genau die Schwachstelle, die Social Engineers ausnutzen.
Denk an die praktischen Kontexte, in denen ein synthetisches Gesicht nur einen kurzen visuellen Bauchcheck bestehen muss:
- Eine Personalverantwortliche, die Bewerberprofile prüft
- Eine Trust-and-Safety-Analystin, die Meldungen bearbeitet
- Eine einsame Person, die eine neue Kontaktanfrage auf einer Dating-App bewertet
- Eine ältere Person, die eine Freundschaftsanfrage von jemandem erhält, der „auf ihre Schule gegangen ist"
In jedem dieser Fälle wird ein gut kuratiertes synthetisches Gesicht sehr wahrscheinlich durchkommen. Die Zahlen der Studie belegen das: Selbst die besten menschlichen Erkennenden im Sample lagen mehr als vier von zehn Malen falsch.
Was Entwickelnde jetzt tatsächlich tun sollten
Wenn menschliche Sichtprüfung als Erkennungsmethode faktisch versagt – was bleibt dann? Für Entwickelnde, die Systeme bauen, in denen Identität und Vertrauen eine Rolle spielen, deuten die Schlussfolgerungen der Studie auf eine mehrschichtige Verteidigungsstrategie hin – kein einzelner Ansatz reicht aus.
1. Herkunft statt Wahrnehmung
Der C2PA-Standard (Coalition for Content Provenance and Authenticity) und Implementierungen wie Adobes Content Credentials verfolgen einen grundlegend anderen Ansatz: Statt zu fragen „sieht dieses Bild echt aus?", fragt man „woher kommt dieses Bild?" Kryptografische Signaturen, die zum Aufnahmezeitpunkt angehängt werden, verifizierte Upload-Ketten, Plattformattestierungen – all das versucht nicht, Fälschungen visuell zu erkennen. Es etabliert eine Herkunftskette. Die Verbreitung ist noch uneinheitlich, und Open-Source-Generierungstools betten standardmäßig üblicherweise keine Herkunftsmetadaten ein – aber dahin muss die Infrastruktur.
2. Modellbasierte forensische Klassifikatoren
Ensemble-Ansätze, die auf den Fingerabdrücken mehrerer Generatoren trainiert wurden, können Muster erkennen, die für Menschen unsichtbar sind. Aber das Wettrüsten ist real – Angreifer können sich durch Nachbearbeitung, adversariales Training und De-Artifizierungstechniken anpassen. Jeder heute eingesetzte Klassifikator wird mit der Zeit schlechter, wenn er nicht kontinuierlich nachtrainiert wird. Und falsch-positive Ergebnisse haben ihre eigenen Kosten: Das Foto einer echten Person als KI-generiert einzustufen ist selbst eine Form von Schaden.
3. Semantische und kontextuelle Analyse
Hat dieses Konto eine konsistente Geschichte? Ergibt das soziale Netzwerk Sinn? Entspricht das Verhaltensmuster einem echten Nutzer oder einer koordinierten Kampagne? Ein gefälschtes Gesicht ist meist nur eine Komponente einer größeren synthetischen Identität – und die Signale auf Identitätsebene sind oft leichter zu erkennen als die auf Bildebene.
4. Prozessdesign, das von synthetischen Inhalten ausgeht
Step-up-Verifizierung für risikoreiche Aktionen, Liveness-Checks für KYC-Prozesse (Know Your Customer), bewusste Reibung an kritischen Vertrauensgrenzen – das alles erfordert nicht, dass ein bestimmtes Bild als synthetisch identifiziert wird. Es macht es für synthetische Identitäten schwieriger, irgendetwas Nützliches zu tun, selbst wenn sie die Sichtprüfung bestehen.
Tipp: Hör auf, Menschen zu fragen: „Ist das eine echte Person?" – und zwar anhand eines Fotos. Entwirf dein System so, als ob jedes Foto synthetisch sein könnte, und steck deinen Verifikationsaufwand in die Schichten, die schwerer zu fälschen sind.
Das Wettrüsten hat eine Richtung
Es ist verlockend, das als vorübergehendes Problem zu betrachten – anzunehmen, dass die Erkennung irgendwann mit der Generierung aufholen wird, dass irgendeine clevere neue Technik uns die Fähigkeit zurückgibt, Fälschungen zu erkennen. Und Erkennungstechniken werden besser. Aber die strukturelle Asymmetrie in diesem Wettrüsten begünstigt die Generatoren.
| Faktor | Generatoren | Erkennungssysteme |
|---|---|---|
| Ausgabeanforderung | Ein überzeugendes Bild | Müssen alle erwischen |
| Eingabekontrolle | Beste Ausgaben kuratieren | Müssen verarbeiten, was ankommt |
| Profitieren von Qualitätsverbesserungen | Direkt | Müssen gegen jede neue Architektur nachtrainiert werden |
Dr. James Dunn, einer der Studienautoren von der UNSW School of Psychology, hat betont, dass selbst hochqualifizierte menschliche Beobachtende keinen skalierbaren Erkennungsvorteil bieten. „Bessere Augen einstellen" ist keine Strategie, die modernen generativen Modellen standhält. Training und Werkzeuge sind wichtiger als angeborene Fähigkeit – und selbst die stoßen bei einem sich bewegenden Ziel an Grenzen.
Der realistische Weg nach vorne liegt nicht darin, das Erkennungs-Wettrüsten zu gewinnen. Es geht darum, synthetische Medien als Teil des Bedrohungsmodells für jedes System zu betrachten, das auf visuelle Identität angewiesen ist – und entsprechend zu bauen. Herkunftsinfrastruktur, mehrschichtige Verifikation, kontextuelle Analyse und Prozessdesign, das davon ausgeht, dass das Foto gefälscht sein könnte – alles zusammen, nichts davon allein ausreichend.
Die Ära, in der man seinen Augen vertrauen konnte, um die Frage „Ist dieses Gesicht echt?" zu beantworten, ist vorbei. Sie endete nicht mit einem dramatischen Versagen. Sie endete mit einer Studie, die zeigt, dass wir schon eine Weile leise, selbstsicher und mit Münzwurf-Wahrscheinlichkeit versagen. Je früher wir Systeme bauen, die dieser Realität Rechnung tragen, desto besser.
Die in diesem Beitrag zitierte Studie – Dunn et al. – ist im British Journal of Psychology veröffentlicht und verfügbar unter doi:10.1111/bjop.70063. Weitere Berichterstattung vom UNSW Newsroom und PsyPost bietet zusätzlichen Kontext.
Ähnliche Beiträge_

Nano Banana 2: Was Entwickler wissen müssen
Google hat seine besten Bildgenerierungsfähigkeiten für alle zugänglich gemacht – mit erheblichen Konsequenzen für Entwickler.

Mercury Two schreibt die Regeln der Inferenzgeschwindigkeit neu
In Diskussionen über produktive KI-Systeme taucht immer wieder eine Frage auf, die in Benchmark-Threads fast nie gestellt wird: Wie fühlt es sich eigentlich an, auf ein Modell zu warten?

RAG ist nicht tot — du verwendest es nur für das falsche Problem
In der KI-Tooling-Welt tobt gerade eine Debatte, die mehr Hitze als Licht erzeugt — vor allem, weil beide Seiten aneinander vorbeireden. Wer versteht, warum, bekommt ein viel klareres Bild davon, wann RAG wirklich funktioniert und wann nicht.