Haben große Sprachmodelle ihre Grenze vielleicht schon erreicht?

Ich habe bei moderner KI immer wieder dieselbe unangenehme Reaktion: Die Modelle sind klar besser geworden, aber das Gefühl verändert sich nicht annähernd so stark, wie die Demos suggerieren. Sie sind schneller. Sie sind glatter. Sie schreiben besseren Code als früher. Sie holen Informationen sauberer heraus. Sie können mit längerem Kontext umgehen. Und trotzdem stoße ich immer wieder auf dieselbe Wand. Sie klingen polierter, aber sie fühlen sich nicht im gleichen Maß näher an echtem Verständnis an.

Darum glaube ich, dass die eigentliche Frage nicht mehr lautet: "Sind große Sprachmodelle nützlich?" Natürlich sind sie das. Die Frage ist, ob wir immer mehr Wert aus demselben Grundtrick herausquetschen: Next-Token-Prediction, besseres Packaging, größere Kontextfenster und glattere Produkt-Layer. Wenn genau das passiert, dann ist die unangenehme Möglichkeit diese: LLMs können als Produkte weiter besser werden und trotzdem viel näher an ihrer konzeptionellen Decke sein, als die Hype-Maschine zugeben will.

Das Gefühl änderte sich, bevor der Fortschritt stoppte

Das ist der seltsame Teil.

Ich sage nicht, dass der Fortschritt fake ist.

Die Modelle haben sich verbessert. Jeder kann das sehen.

Aber ich glaube, viele Menschen kamen an denselben Punkt: Anfangs wirkten die Systeme schockierend, dann fühlten sie sich vertraut an. Man beginnt, dieselben Grenzen in schöneren Kleidern zu erkennen.

Sie tun immer noch dieses Ding, bei dem sie sicher klingen und falsch liegen.

Sie tun immer noch dieses Ding, bei dem sie eleganten Unsinn produzieren.

Sie tun immer noch dieses Ding, bei dem sie Denkprozesse besser imitieren, als sie sie tatsächlich durchhalten.

Das ist wichtig, denn sobald die Neuheit abblättert, stellt man eine gemeinere Frage: Sehen wir echte Tiefe oder nur bessere Performance auf demselben Grundzug?

Ich komme immer wieder an denselben praktischen Bruchpunkt zurück

Bei mir ist das längst nicht mehr nur ein philosophischer Einwand.

Es ist ein sehr praktischer Moment, den wahrscheinlich viele Nutzer kennen.

Man stellt eine Frage.

Das Modell antwortet blitzsauber.

Der Ton wirkt sicher.

Die Form wirkt stimmig.

Und dann merkt man beim zweiten Hinsehen, dass unter dieser glatten Oberfläche kein wirklich stabiler Griff auf die Sache sitzt.

Genau dort taucht für mich der alte Chinese Room wieder auf.

Das Setup ist simpel: Ein System kann die richtigen Symbole in der richtigen Reihenfolge erzeugen und trotzdem keinen echten Begriff davon haben, was diese Symbole bedeuten.

Genau deshalb fühlen sich LLMs so unheimlich an.

Sie sind unfassbar gut darin, plausible Sprache zu produzieren.

Sie können antworten, zusammenfassen, imitieren, umrahmen und Muster in verrücktem Maßstab zusammennähen.

Aber heißt das, dass sie die Welt verstehen, auf die diese Sprache verweist?

Genau da höre ich auf, beim Hype mitzunicken.

Denn so zu klingen, als verstehe man etwas, und es tatsächlich zu verstehen, ist nicht dasselbe. Diese Lücke ist kein kleines technisches Detail. Sie ist der ganze Kampf.

Viel von dem "Geist", den Menschen sehen, ist vielleicht bloß eine sehr gute Oberfläche

Ich glaube, genau hier wird die Öffentlichkeit immer wieder hereingelegt.

Die Systeme sind so sprachgewandt, dass die Leute zusätzliche Schlussfolgerungen hineinschmuggeln.

Wenn es ruhig, klug, interdisziplinär und vollständig klingt, behandeln Menschen das plötzlich als Beweis für Geist.

Genau so passiert die Verwechslung.

Eine glatte Antwort fühlt sich schnell wie Einsicht an.

Ein sauberer Absatz fühlt sich schnell wie Verständnis an.

Ein ruhiger Ton fühlt sich schnell wie Urteilskraft an.

Aber Sprachflüssigkeit ist nicht dasselbe wie Verankerung.

Musterkompression ist nicht dasselbe wie gelebtes Verständnis.

Ein Modell kann in einer Sitzung über Trauer, Physik, Recht, Strategie, Biologie und Softwarearchitektur sprechen. Das bedeutet nicht automatisch, dass es irgendetwas davon so geerdet begreift wie ein Geist, der in der Welt eingebettet ist.

Darum können die Modelle in der einen Minute brillant wirken und in der nächsten von der Realität abgelöst.

Text war der große Turbo, und vielleicht ist er genau deshalb auch die Grenze

Ein Grund, warum LLMs so schnell explodiert sind, liegt auf der Hand: Text ist eine absurd mächtige Abkürzung.

Das Internet hat diesen Systemen ein gigantisches komprimiertes Archiv menschlicher Erklärungen, Argumente, Anweisungen, Erzählungen, Widersprüche und Fehler geliefert. Das ist eine außergewöhnliche Ressource.

Aber es könnte zugleich die Falle sein.

Denn Text ist nicht Realität.

Text ist die Art, wie Menschen über Realität sprechen.

Und Menschen sprechen die ganze Zeit schlecht über Realität.

Sie vereinfachen sie, verzerren sie, missverstehen sie, inszenieren Expertise um sie herum und streiten über sie.

Wenn dein Hauptweg zur Intelligenz also Sprache über die Welt ist statt die Welt selbst, könnte dort eine strukturelle Decke liegen. Du bekommst erstaunliche symbolische Leistung, ohne notwendigerweise die Art von Verankerung zu erhalten, die Menschen ständig hineinprojizieren.

Deshalb schauen so viele ernsthafte Leute inzwischen neben das reine LLM-Scaling

Ein Grund, warum ich diese Ceiling-Idee nicht abtue, ist, dass viele Leute nah am Feld offensichtlich nicht bereit sind, alles auf reines LLM-Scaling zu setzen.

Man sieht das Interesse immer wieder in Richtung solcher Dinge wandern:

Weltmodelle
RL-lastige Systeme
verkörperte Interaktion
Architekturen, die auf latenter Vorhersage statt nur auf Text beruhen
Systeme, die physische Realität modellieren wollen und nicht bloß Sprache über sie

Das beweist nicht, dass LLMs tot sind.

Es deutet aber darauf hin, dass viele kluge Menschen nicht glauben, dass Next-Token-Prediction der ganze Weg zur allgemeinen Intelligenz ist.

Und ehrlich gesagt spüren normale Nutzer das auch, selbst wenn sie es weniger formal beschreiben. Viele verwenden die Tools und kommen mit derselben Bauchreaktion heraus: mächtig, ja. Der endgültige Weg zu Geist? Ich bin nicht überzeugt.

Vielleicht sind LLMs näher an einer sehr mächtigen Wissensmaschine als an einer elektronischen Person

Dieser Vergleich bleibt mir im Kopf hängen.

Nicht weil er perfekt ist, sondern weil er in die richtige Richtung zeigt.

Eine Enzyklopädie ist nützlich.

Ein Taschenrechner ist nützlich.

Eine Suchmaschine ist nützlich.

Eine Karte ist nützlich.

Keines dieser Dinge muss bewusst, menschenähnlich oder tief verstehend sein, um transformativ zu wirken.

LLMs gehören vielleicht näher in diese Familie, als viele zugeben wollen: unfassbar nützlich, kommerziell explosiv und trotzdem nicht dasselbe wie ein Geist.

Wenn das stimmt, dann ist ein großer Teil des aktuellen AGI-Geredes nicht nur optimistisch. Es könnte Kategorienverwirrung sein.

Genau deshalb wirkt diese Decke auf mich strukturell und nicht bloß vorübergehend

Hier verhärtet sich mein Skeptizismus.

Viele aktuelle Schwächen von LLMs wirken nicht wie zufällige Bugs, die mit etwas mehr Skalierung ausgebügelt werden.

Sie wirken strukturell.

Die Systeme kämpfen noch immer mit:

geerdeter Kausalität
stabilem Weltmodellieren
Erklärungen, die mehr sind als polierte Imitation
Denkprozessen außerhalb vertrauter Musterräume
der Unterscheidung zwischen Kohärenz und Wahrheit

Darum bin ich nicht überzeugt, dass mehr Daten, mehr Rechenleistung, längerer Kontext und hübschere Interfaces diese Lücke automatisch überbrücken. Vielleicht produzieren sie nur eine glänzendere Version derselben Illusion.

Schlussgedanke

Haben große Sprachmodelle also ihre Grenze schon erreicht?

Ich glaube nicht, dass sie eine totale Grenze in ihrer Nützlichkeit erreicht haben. Sie werden vermutlich weiter schneller, sauberer, billiger und tiefer in echte Arbeit integriert.

Aber ich halte es für sehr gut möglich, dass wir der Decke dieses Grundparadigmas viel näher sind, als der Hype zugeben will.

Darum hat sich meine Frage verändert.

Ich frage nicht mehr: "Können LLMs sich verbessern?"

Natürlich können sie das.

Ich frage: Wenn ich wieder vor so einer perfekt klingenden, aber innerlich wackligen Antwort sitze, sehe ich dann bloß ein vorübergehendes Zwischenstadium oder schon die Grenze dieser Methode?

Und je länger ich zuschaue, desto weniger offensichtlich fühlt sich diese Antwort an.