Mercury Two schreibt die Regeln der Inferenzgeschwindigkeit neu
AI Insights

Mercury Two schreibt die Regeln der Inferenzgeschwindigkeit neu_

In Diskussionen über produktive KI-Systeme taucht immer wieder eine Frage auf, die in Benchmark-Threads fast nie gestellt wird: Wie fühlt es sich eigentlich an, auf ein Modell zu warten?

Otterfly
Otterfly·27. Feb. 2026·7 Min.

Mercury Two schreibt die Regeln der Inferenzgeschwindigkeit neu_

In Diskussionen über produktive KI-Systeme taucht immer wieder eine Frage auf, die in Benchmark-Threads fast nie gestellt wird: Wie fühlt es sich eigentlich an, auf ein Modell zu warten? Nicht der MMLU-Score. Nicht die GPQA-Diamond-Zahl. Die rohe, für den Nutzer spürbare Latenz, während Tokens einen nach dem anderen herauströpfeln.

Für den Großteil der jüngeren KI-Geschichte hatte diese Frage eine Antwort: Man wartet — weil das eben so funktioniert. Sprachmodelle erzeugen Text wie eine Schreibmaschine tippt: von links nach rechts, ein Zeichen nach dem anderen, kein Vorausspringen. Die Branche hat darauf reagiert, indem sie diesen Prozess durch bessere Hardware, Quantisierung, Speculative Decoding und cleveres Batching beschleunigt hat. Schnellere Schreibmaschinen, im Wesentlichen.

Inception Labs stellt eine andere Frage: Was wäre, wenn wir die Schreibmaschine einfach abschaffen würden?

Was Mercury Two eigentlich ist

Mercury Two, veröffentlicht am 20. Februar 2026, ist ein Reasoning-Sprachmodell, das auf einer Diffusions-Architektur basiert — anstatt auf dem autoregressiven Transformer-Design, das praktisch allen anderen großen LLMs auf dem Markt zugrunde liegt. Es erzeugt über 1.000 Tokens pro Sekunde — Artificial Analysis hat unabhängig 1.196 Tokens pro Sekunde über die Inception-API gemessen — verglichen mit etwa 89 Tokens pro Sekunde für Claude 4.5 Haiku und 71 für GPT-5 Mini. Das ist keine marginale Verbesserung. Das ist eine andere Geschwindigkeitskategorie.

Inception Labs ist kein Neuling, der etwas Halbherziges zusammenschustert. Das Unternehmen wurde von Forschern aus Stanford, UCLA und Cornell gegründet, und CEO Stefano Ermon ist Miterfinder einiger der grundlegenden Diffusionsmethoden, die moderne Bild- und Videogeneratoren antreiben. Das Gründerteam hat außerdem zu Flash Attention, Direct Preference Optimization und Decision Transformers beigetragen — Techniken, die heute zur Basisinfrastruktur moderner KI gehören. Das sind Menschen, die genau wissen, wie die Standardarchitektur funktioniert, und bewusst entscheiden, etwas anderes zu bauen.

Wie Diffusions-Sprachmodelle funktionieren

Wer Stable Diffusion genutzt oder Sora beim Videogenerieren zugeschaut hat, hat bereits ein Gespür für die Grundidee. Diffusionsmodelle bauen Ausgaben nicht Stück für Stück von links nach rechts auf. Stattdessen starten sie mit Rauschen und verfeinern es iterativ zu Kohärenz hin.

Auf Text angewendet läuft das ungefähr so ab: Statt Token 1, dann Token 2, dann Token 3 in strenger Reihenfolge zu erzeugen, beginnt ein Diffusions-Sprachmodell mit einer verrauschten, maskierten Darstellung der gesamten Ausgabesequenz. Es führt dann mehrere Vorwärtsdurchläufe durch, bei denen es die gesamte Sequenz gleichzeitig verfeinert und schrittweise zu einer kohärenten Antwort konvergiert. Inception Labs beschreibt es als „weniger Schreibmaschine, mehr Lektor, der einen vollständigen Entwurf auf einmal überarbeitet."

Die entscheidende Konsequenz: Die Anzahl der Vorwärtsdurchläufe skaliert nicht linear mit der Ausgabelänge, wie es beim autoregressiven Decoding der Fall ist. Ein autoregressives Modell, das 1.000 Tokens erzeugt, benötigt 1.000 sequentielle Vorwärtsdurchläufe. Ein Diffusionsmodell führt eine kleine Anzahl von Verfeinerungsschritten über die gesamte Sequenz aus — unabhängig davon, wie lang diese ist. Dieser strukturelle Unterschied ist der Ursprung des Durchsatzvorteils, und er ist architektonisch bedingt, kein Ergebnis cleverer Inferenz-Tricks, die durch bessere Hardware allein erzielt werden könnten.

Diese iterative Verfeinerung ermöglicht außerdem etwas, das autoregressiven Modellen grundsätzlich verwehrt bleibt: das Überarbeiten früherer Tokens in späteren Verfeinerungsdurchläufen. Bei der Standard-Links-nach-rechts-Generierung ist ein einmal produzierter Token gesetzt. Die Diffusionsgenerierung hat eine eingebaute Fehlerkorrektur, was interessante Implikationen sowohl für die Reasoning-Qualität als auch für die Erzeugung strukturierter Ausgaben hat.

Das Benchmark-Bild

Geschwindigkeit ohne Qualität ist ein Spielzeug. Wie schlägt sich Mercury Two also tatsächlich?

BenchmarkMercury TwoClaude 4.5 HaikuGPT-5 Mini
AIME 202591,184,0~91
GPQA Diamond73,667,080,0
LiveCodeBench67,362,069,0
IFBench71,354,0
End-to-End-Latenz1,7 s23,4 s14,4 s*

GPT-5-Mini-Latenz gemessen über Gemini 3 Flash mit aktiviertem Reasoning bei 14,4 s.

Mercury Two ist nicht in jeder Kategorie unangefochtener Spitzenreiter, und Inception Labs behauptet das auch nicht. Was sie argumentieren — und was die Zahlen stützen — ist, dass dieses Qualitätsniveau, das mit den besten geschwindigkeitsoptimierten Modellen der Welt mithalten kann, bei einer End-to-End-Latenz von 1,7 Sekunden erreicht wird.

Ein erwähnenswertes konfigurierbares Feature: Der Parameter reasoning_effort erlaubt es, pro Anfrage zwischen den Reasoning-Stufen instant, low, medium und high zu wählen. Mehr Aufwand bedeutet mehr Verfeinerungsdurchläufe, höhere Qualität und etwas mehr Latenz — aber immer noch dramatisch niedrigere Latenz als autoregressive Alternativen bei vergleichbarer Reasoning-Tiefe.

Tipp: Passe reasoning_effort an die Aufgabenkomplexität an, statt standardmäßig high zu verwenden. In hochvolumigen Pipelines können low oder medium die Kosten weiter senken und bleiben dabei gut innerhalb akzeptabler Qualitätsschwellen.

Die Preisgestaltung stärkt das Geschwindigkeitsargument noch weiter

ModellInput (pro 1 Mio. Tokens)Output (pro 1 Mio. Tokens)
Mercury Two0,25 $0,75 $
Mercury Two (gecacht)0,025 $0,75 $
Gemini 3 Flash0,50 $3,00 $
Claude 4.5 Haiku1,00 $5,00 $

Mercury Two unterbietet Haiku beim Input um den Faktor 4 und beim Output um mehr als den Faktor 6. Für hochvolumige Produktions-Workloads — Kundensupport-Systeme, agentische Pipelines mit Hunderten von Schritten, Coding-Assistenten mit großen Kontexten — sind die Kosteneinsparungen im großen Maßstab erheblich, ganz unabhängig von der Geschwindigkeit.

Hinweis: Neue API-Keys erhalten 10 Millionen kostenlose Tokens — genug, um ernsthafte Evaluierungs-Workloads durchzuführen, bevor man sich zu Produktionsausgaben verpflichtet.

Integration in den eigenen Stack

Mercury Two bietet eine OpenAI-kompatible API. Drei Änderungen am bestehenden Code, und schon läuft man auf einem Diffusionsmodell:

mercury_client.py
import openai
client = openai.OpenAI(
base_url="https://api.inceptionlabs.ai/v1",
api_key="YOUR_INCEPTION_API_KEY"
)
response = client.chat.completions.create(
model="mercury-2",
messages=[{"role": "user", "content": "Explain binary search trees"}],
reasoning_effort="medium"
)
print(response.choices[0].message.content)

Der Parameter reasoning_effort ist Mercury-Two-spezifisch, alles andere ist Standard-OpenAI-SDK-Syntax. Das Modell unterstützt:

  • Tool Use und strukturierte JSON-Ausgabe
  • RAG-Pipelines
  • 128K-Kontextfenster
  • LiteLLM-, LangChain- und AISuite-Integrationen
  • Direkten Zugang über die Inception Platform, mit geplanter Erweiterung auf AWS Bedrock und Azure Foundry

Der Anwendungsfall, bei dem der Geschwindigkeitsvorteil am stärksten zum Tragen kommt, sind agentische Workflows mit mehreren Tool-Aufrufen. Wenn ein Modell eine Abfolge von Browser-Lookups, API-Aufrufen oder Code-Ausführungen orchestriert, summiert sich die Latenz bei jedem Schritt. Ein Modell, das in 1,7 Sekunden statt in 14 Sekunden antwortet, fühlt sich nicht nur schneller an — es verändert die wirtschaftlichen Rahmenbedingungen dessen, was sich zu bauen lohnt.

Der Stand der Debatte

Die ML-Community ist sich noch nicht einig, ob Diffusion einen echten Paradigmenwechsel für Sprache darstellt oder eine gut ausgeführte Alternative für eine spezifische Nische. Autoregressive Modelle profitieren von jahrzehntelanger Optimierungsarbeit — Speculative Decoding, Continuous Batching, Quantisierung — und dieser Forschungsimpuls hält an. Skeptiker weisen zu Recht darauf hin, dass Diffusions-Textmodelle noch früher in ihrer Optimierungskurve stecken und die Lücke sich schließen könnte, wenn die autoregressive Inferenz weiter voranschreitet.

Das Gegenargument aus der Perspektive von Inception Labs: Ihr Geschwindigkeitsvorteil ist struktureller Natur und hängt nicht davon ab, die Optimierungsroadmap eines Konkurrenten zu überholen. Man kann sich nicht per Speculative Decoding in ein grundlegend anderes Generierungsparadigma hineinspekulieren.

Was jetzt klar ist: Mercury Two ist ein produktionsreifes Reasoning-Modell, das bei einem Preispunkt, der mit Modellen mithalten kann, die einen Bruchteil seiner Geschwindigkeit erreichen, genuinen schnell ist. Ob Diffusion zum dominanten Ansatz für Sprachmodellierung wird oder ein leistungsstarkes Werkzeug für latenzempfindliche Workloads bleibt — diese Veröffentlichung erzwingt eine ernsthafte Auseinandersetzung mit der Annahme, dass Autoregression der einzig gangbare Weg nach vorne ist.

Wer Systeme baut, bei denen Generierungsgeschwindigkeit eine Rolle spielt — agentische Systeme, Sprachprodukte, hochvolumige APIs, Echtzeit-Coding-Tools — sollte Mercury Two ernsthaft evaluieren. Die API ist live, die Preisgestaltung ist transparent, und die Benchmarks sind öffentlich. Die Schreibmaschine hatte ihre Zeit.