Wenn KI Experimente entwirft, die Menschen nicht erklären können
AI Insights

Wenn KI Experimente entwirft, die Menschen nicht erklären können_

In Physiklaboren weltweit braut sich eine stille Krise zusammen – und die hat nichts mit defekten Geräten oder Budgetkürzungen zu tun.

Otterfly
Otterfly·20. März 2026·10 Min.

Wenn KI Experimente entwirft, die Menschen nicht erklären können_

In Physiklaboren weltweit braut sich eine stille Krise zusammen – und die hat nichts mit defekten Geräten oder Budgetkürzungen zu tun. Es geht ums Verstehen – oder genauer gesagt: ums Nicht-Verstehen.

Ein KI-System hat kürzlich ein verbessertes Design für Gravitationswellen-Detektoren vorgeschlagen – jene kilometerlangen Instrumente, die 2015 erstmals Kräuselungen in der Raumzeit aufzeichneten. Das Design scheint besser zu funktionieren als alles, was menschliche Physikerinnen und Physiker bisher entwickelt haben. Das Problem? Niemand kann vollständig erklären, warum. Forscher verbringen seit Monaten damit, die Überlegungen der KI zu rekonstruieren und sich durch die Schichten einer Lösung zu arbeiten, die aus Optimierungsalgorithmen entstanden ist – nicht aus physikalischer Intuition.

Das ist keine Kuriosität am Rande. Es ist Teil eines wachsenden Musters: KI-Systeme gehen über die Datenanalyse hinaus und übernehmen das Design von Experimenten selbst – sie schlagen Konfigurationen vor, die menschliche Ausgangspunkte übertreffen, sich aber menschlichem Verständnis entziehen. Und das zwingt die Wissenschaft, eine unbequeme Frage zu stellen: Wenn eine Maschine etwas findet, das funktioniert, das aber niemand versteht – ist das noch Wissenschaft?


Vom Datenmühle zum Experimentdesigner

Lange Zeit war die Rolle der KI in der Physik vergleichsweise klar umrissen: Zahlen verarbeiten, Signale klassifizieren, Modelle anpassen. Machine Learning half LIGO dabei, aus dem Rauschen echte Gravitationswellensignale herauszufiltern. Neuronale Netze klassifizierten Galaxienmorphologien. Das waren Werkzeuge, die menschliche Fähigkeiten entlang bekannter Achsen verstärkten.

Die neuere Generation von KI-für-Wissenschaft-Projekten ist anders. Statt die Ausgaben von Experimenten zu analysieren, entwirft die KI mittlerweile die Experimente selbst. Das Pionierbeispiel stammt aus der Quantenoptik. 2016 stellten Mario Krenn und seine Kollegen ein automatisiertes Suchsystem namens „Melvin" vor, das völlig neue optische Versuchsaufbauten zur Erzeugung komplexer verschränkter Quantenzustände vorschlagen konnte (Krenn et al., Physical Review Letters, 2016). Melvin optimierte nicht nur Parameter innerhalb eines bekannten Designs – es kombinierte neuartige Konfigurationen aus Strahlteilern, Kristallen und Detektoren, auf die erfahrene Experimentatoren nicht gekommen waren.

Was diesen Ansatz wirklich verblüffend machte: Einige von Melvins Vorschlägen waren selbst für Expertinnen und Experten kontraintuitiv. Erfahrene Quantenoptiker blickten auf ein maschinengeneriertes Layout und konnten das dahinterstehende physikalische Prinzip kaum in Worte fassen. Die Designs funktionierten in der Simulation, und einige wurden anschließend im Labor bestätigt – aber sie ließen sich nicht sauber auf die konzeptuellen Bausteine abbilden, mit denen Physiker normalerweise über Licht und Verschränkung nachdenken.

Wie Erhard et al. in ihrer Übersicht zur hochdimensionalen Verschränkung dokumentierten (Nature Reviews Physics, 2020), ist der Designraum für komplexe photonische Aufbauten – mit all seinen optischen Elementen, Freiheitsgraden bei Phasen, Transmissivitäten und Detektionsschemata – mittlerweile so groß, dass computergestützte Entdeckung nicht nur hilfreich, sondern wohl notwendig ist.

Gravitationswellen und der Preis der Undurchsichtigkeit

Inzwischen hat dieser Ansatz die Gravitationswellendetektion erreicht – mit erheblich höheren Einsätzen.

LIGOs Observatorien nutzen je 4 Kilometer lange Arme in einem Michelson-Laserinterferometer mit Fabry-Pérot-Resonatoren. Upgrades dieser Instrumente sind teuer, langwierig und sicherheitskritisch. Man konfiguriert keinen Milliarden-Dollar-Detektor leichtfertig um, weil ein Algorithmus es vorschlägt. Jede Designentscheidung muss verstanden, debuggt, gewartet und vor einer internationalen Kollaboration von Hunderten Physikerinnen und Physikern verteidigt werden können.

Ein Preprint aus dem Jahr 2025 von Arlt et al. (arXiv:2510.10707) berichtet, dass KI-gestützte Optimierung ein Interferometerdesign gefunden hat, das die Empfindlichkeit menschlich entworfener Ausgangskonfigurationen für Gravitationswellendetektion übertrifft. Der Ansatz behandelt das Detektordesign als Suchproblem über einen kompositionalen Raum: Optische Elemente (Spiegel, Squeezer, Kavitäten, Phasenschieber) und ihre Verbindungen bilden eine Art Graph, mit einer Zielfunktion, die Dehnungsempfindlichkeit, Quantenrauschperformance und den Kompromiss zwischen thermischem Rauschen und optischen Verlusten abbildet.

Das resultierende Design ist jedoch nichts, was ein Physiker an ein Whiteboard gezeichnet hätte. Die Kopplung zwischen Squeezing-Winkeln, Homodyn-Detektionswinkeln, Kavitätsverstimmungen und Verlustparametern erzeugt ein Optimum, das auf nichtlokalen Interferenzeffekten über mehrere Subsysteme hinweg beruht. Die Leistung entsteht aus dem kollektiven Zusammenspiel vieler Komponenten – nicht aus einem klaren modularen Prinzip, das sich in einem Absatz erklären ließe.

Hinweis: Das Ergebnis von Arlt et al. ist ein Preprint – noch nicht peer-reviewt und keineswegs eine fertige Hardware. Es bringt die Spannung jedoch auf den Punkt: Die KI hat etwas Vielversprechendes gefunden, und die Menschen arbeiten noch daran herauszufinden, was es bedeutet.

Warum KI-Lösungen sich der Erklärung entziehen

Um zu verstehen, warum maschinengenerierte Experimentdesigns so undurchsichtig sind, lohnt ein Blick darauf, wie diese Systeme tatsächlich funktionieren. Die typische Pipeline formalisiert Experimentdesign als Suche über einen kompositionalen Graphen mit drei Elementen:

  • Bausteine – die optischen Komponenten (Strahlteiler, Spiegel, nichtlineare Kristalle, Squeezer, Detektoren), jeweils mit einstellbaren Parametern
  • Verbindungen – wie Lichtpfade zwischen Komponenten geroutet werden
  • Zielfunktion – ein skalarer Score; für Gravitationswellen-Detektoren könnte dieser Quantenrauschreduktion, Breitbandempfindlichkeit und Robustheit gegenüber realistischen Verlusten gewichten

Die Suche selbst kann verschiedene Formen annehmen – evolutionäre Algorithmen, Reinforcement Learning oder differenzierbare Optimierung – und jede davon kann Lösungen finden, die für Menschen schwer zu durchschauen sind, aus mehreren sich überlagernden Gründen:

Nichtlokale Interaktionen. Die Leistung hängt von Interferenzmustern über viele Pfade und Moden hinweg ab. Menschen denken natürlicherweise in modularen, lokalen Begriffen – „diese Kavität tut X, jener Squeezer tut Y" – aber die Lösung der KI funktioniert vielleicht nur aufgrund subtiler Phasenbeziehungen, die das gesamte Layout überspannen.

Hochdimensionale Parameterkopplung. Squeezing-Winkel, Homodyn-Winkel und Kavitätsverstimmung sind auf eine Weise miteinander verknüpft, die eine-Variable-nach-der-anderen-Überlegung untergräbt. Man kann das Design nicht verstehen, indem man an einem Regler dreht und beobachtet, was passiert – denn die Regler sind korreliert.

Überbesetzt Designs. Die KI hat keine ästhetische Präferenz für Minimalismus. Sie kann etwas erzeugen, das über drei interagierende Mechanismen funktioniert, wo ein einziger cleverer Mechanismus ausreichen würde – aber das einfachere Äquivalent zu finden ist selbst ein schwieriges Problem.

Metrik-Gaming. Die Optimierung könnte Eigenheiten oder Näherungen des Simulators ausnutzen, anstatt echte physikalische Verbesserungen zu entdecken. Das ist ein wesentlicher Grund, warum Verifikation keine Option ist.

Die Gegenoffensive der Interpretierbarkeit

Die Forschungsgemeinschaft zuckt angesichts des Opazitätsproblems nicht einfach mit den Schultern. Eine wachsende Zahl von Arbeiten behandelt Interpretierbarkeit als erstrangige Ingenieuraufgabe – nicht als philosophisches Anhängsel.

Ruiz-Gonzalez et al. (Quantum, 2023) und ein Folge-Preprint (arXiv:2511.19364, 2025) haben Ansätze entwickelt, um maschinell entworfene Experimente verständlicher zu machen. Die allgemeine Strategie umfasst mehrere komplementäre Techniken:

Vereinfachung durch Pruning. Systematisches Entfernen von Komponenten aus dem KI-Design unter Beobachtung, ob die Leistung dabei leidet. Wenn man die Hälfte der Elemente entfernen und dennoch das Zielkriterium erreichen kann, hat man identifiziert, was wesentlich ist – und was nur Gerüst.

Motiv-Erkennung. Suche nach wiederkehrenden Teilgraphen, die bekannten physikalischen Operationen entsprechen – interferometrischen Identitäten, teleportationsähnlichen Schaltkreisen, Standard-Squeezing-Konfigurationen. Wenn man den komplexen Graphen der KI in bekannte Bausteine zerlegen kann, die auf unbekannte Weise angeordnet sind, gewinnt man einen Ansatzpunkt zum Verstehen.

Symbolische Destillation. Komprimierung des entdeckten Designs in einen kleineren äquivalenten Schaltkreis oder eine analytische Transformation. Das ist der heilige Gral: das implizite Wissen der KI in ein explizites Designprinzip übersetzen, das in ein Lehrbuch passt.

Robustheits-Stresstests. Variation von Verlusten, Parameterdrift und Regelungsungenauigkeiten, um festzustellen, ob das Design ein fragiles Messerrücken-Optimum ist oder ein stabiles physikalisches Prinzip verkörpert.

Warnung: Für Gravitationswellen-Detektorvorschläge im Besonderen ist Robustheits-Stresstest nicht verhandelbar. Ein Design, das unter realistischen Störungen zusammenbricht, ist nicht nur schwer zu verstehen – es ist wahrscheinlich schlicht nicht bauenswert.

Wang et al. (Physical Review Letters, 2024) liefern weiteren Kontext dazu, wie KI-optimierte photonische Designs mit physikalischer Verifikation zusammenwirken, und zeigen einmal mehr: Die Schleife von maschinellem Vorschlag zu experimenteller Bestätigung wird enger – erfordert aber nach wie vor erheblichen menschlichen Aufwand in der Verifikationsphase.

Vertrauen, Verifikation und ein neuer Workflow

Die Debatte um KI-entworfene Experimente berührt eine Spannung, die Softwareentwicklerinnen und -entwickler kennen: Automatisierung versus Nachvollziehbarkeit.

Auf der einen Seite steht ein pragmatisches Argument. Wenn ein Design experimentell verifizierbar und robust gegenüber Störungen ist, hat es seinen Wert – auch wenn die Intuition erst später kommt. Die Physik hat eine lange Geschichte des „Shut up and calculate" – Formalismen werden angewendet, bevor man vollständig versteht, warum sie funktionieren. Die Quantenmechanik selbst wurde jahrzehntelang eingesetzt, bevor die Interpretationsfragen (zumindest teilweise) geklärt waren.

Auf der anderen Seite steht ein legitimes Ingenieursanliegen. Wenn niemand erklären kann, warum ein Design funktioniert, kann auch niemand vorhersagen, wann oder warum es versagen wird – besonders unter Bedingungen, die der Simulator nicht abgebildet hat. Für Instrumente, bei denen Ausfallzeiten Millionen kosten und die Inbetriebnahme Jahre dauert, ist das keine akzeptable Risikoposition. Interpretierbarkeit ist keine Philosophie – sie ist Wartbarkeit, Debugging und Sicherheitsprüfung.

Hinzu kommt das Simulator-Bias-Problem. KI-Optimierer sind nur so gut wie die Simulation, gegen die sie optimieren. Wenn das Modell eine Rauschquelle auslässt, ein idealisiertes Verlustbudget verwendet oder einen nichtlinearen Effekt nur näherungsweise beschreibt, findet die KI möglicherweise eine „Lösung", die genau diese Lücke ausnutzt. Multi-Fidelity-Simulation, Unsicherheitsquantifizierung und Gegenprüfungen mit unabhängigen Modellierungswerkzeugen – die Gravitationswellen-Community nutzt dafür Tools wie FINESSE und GWINC – werden zu unverzichtbaren Plausibilitätsprüfungen.

Aus dieser Spannung heraus entsteht ein pragmatischer Workflow:

  1. KI als Vorschlagsgenerator einsetzen, der den Designraum weit aggressiver erkundet, als es ein menschliches Team könnte
  2. Interpretierbarkeitsalgorithmen anwenden, um die besten Kandidaten zu vereinfachen und zu erklären
  3. Überlebende einer rigorosen Verifikation gegen unabhängige Simulationen und – wo möglich – skalierte Experimentaltests unterziehen
  4. Nur Designs, die alle drei Stufen bestehen – Leistung, Interpretierbarkeit und Verifikation –, kommen für echte Hardware in Frage

Das ist gar nicht so verschieden davon, wie wir gelernt haben, mit KI-generiertem Code umzugehen: die Maschine entwerfen lassen, dann prüfen, testen und verstehen – bevor man in Produktion geht.

Was als nächstes kommt

Wir befinden uns an einem Wendepunkt. KI-Systeme entwickeln sich von Werkzeugen, die Wissenschaftlerinnen und Wissenschaftler bei dem unterstützen, was sie ohnehin tun, zu Akteuren, die Dinge vorschlagen, auf die Wissenschaftler selbst nicht gekommen wären. Die Arbeit an Gravitationswellen-Detektoren ist ein Vorzeigebeispiel – aber das Muster reicht von der Quantenoptik über die Materialwissenschaft bis hin zur Wirkstoffforschung.

Die entscheidende Erkenntnis aus dieser Forschungslinie ist nicht, dass KI klüger ist als Physikerinnen und Physiker. Es ist, dass Suchalgorithmen und menschliche Intuition komplementäre blinde Flecken haben. Menschen denken modular und suchen nach minimalen Erklärungen. Maschinen erkunden hochdimensionale Räume ohne ästhetische Vorurteile. Der wirksamste Ansatz kombiniert beides: Maschinen finden lassen, Menschen verstehen lassen.

Das Unbehagliche daran – das, was aus diesem Thema eine echte intellektuelle Herausforderung und keine Marketinggeschichte macht – ist, dass Verständnis nicht garantiert ist. Manche KI-generierten Designs werden sich vielleicht jeder Vereinfachung widersetzen. Manche Optima in hochdimensionalen Parameterräumen sind womöglich genuinen nicht-dekomponierbar – nicht reduzierbar auf die Ein-Satz-Erklärung, nach der Physiker so hungern.

Sollte das der Fall sein, muss die wissenschaftliche Gemeinschaft neue Maßstäbe dafür entwickeln, was als ausreichendes Verständnis gilt. Nicht mehr der alte Maßstab „Ich kann es an der Tafel erklären", sondern vielleicht ein neuer: „Ich kann es unter allen plausiblen Bedingungen verifizieren und seine Versagensmodi eingrenzen." Das ist ein tiefgreifender Wandel – und einer, den die Gravitationswellen-Community mit ihrer Kultur extremer Rigorosität gut meistern kann.

Die Welle, die dieses Detektordesign ausgelöst hat, könnte weiter tragen als irgendjemand erwartet.