Les grands modèles de langage ont-ils déjà atteint leur plafond ?

J'ai sans cesse la même réaction inconfortable face à l'IA moderne : les modèles sont clairement meilleurs, mais la sensation ne change pas autant que les démos le suggèrent. Ils sont plus rapides. Plus fluides. Ils écrivent mieux du code qu'avant. Ils récupèrent l'information plus proprement. Ils gèrent des contextes plus longs. Et pourtant, je continue de me heurter au même mur. Ils sonnent plus polis, mais ils ne donnent pas l'impression de se rapprocher proportionnellement d'une vraie compréhension.

C'est pour ça que je pense que la vraie question n'est plus : « Les grands modèles de langage sont-ils utiles ? » Bien sûr qu'ils le sont. La question est de savoir si nous tirons de plus en plus de valeur du même tour de base : la prédiction du prochain token, un meilleur habillage, des fenêtres de contexte plus grandes et des couches produit plus polies. Si c'est bien ce qui se passe, alors la possibilité inconfortable est celle-ci : les LLM peuvent continuer à s'améliorer comme produits tout en restant bien plus proches de leur plafond conceptuel que la machine à hype ne veut l'admettre.

Le ressenti a changé avant que le progrès ne s'arrête

Voilà la partie étrange.

Je ne suis pas en train de dire que le progrès est faux.

Les modèles se sont améliorés. Tout le monde peut le voir.

Mais je crois que beaucoup de gens ont atteint le même moment : au début, ces systèmes paraissaient sidérants, puis ils ont commencé à paraître familiers. On commence à reconnaître les mêmes limites, simplement habillées plus proprement.

Ils continuent de faire ce truc où ils ont l'air sûrs d'eux tout en se trompant.

Ils continuent de faire ce truc où ils produisent un non-sens élégant.

Ils continuent de faire ce truc où ils imitent mieux le raisonnement qu'ils ne le soutiennent réellement.

Et c'est important, parce qu'une fois que la nouveauté se dissipe, une question plus méchante surgit : sommes-nous face à une profondeur réelle, ou seulement à une meilleure performance sur le même geste de base ?

Je reviens toujours au même point de rupture très concret

Pour moi, ce n'est plus seulement une objection philosophique.

C'est devenu un moment très concret que beaucoup d'utilisateurs connaissent probablement.

On pose une question.

Le modèle répond de manière impeccablement propre.

Le ton est sûr.

La forme est nette.

Et puis, au deuxième regard, on sent qu'il n'y a pas de prise vraiment stable sur le sujet sous cette surface lisse.

C'est exactement là que le vieux problème de la chambre chinoise revient pour moi.

Le cadre est simple : un système peut produire les bons symboles dans le bon ordre sans pour autant avoir une vraie prise sur ce que ces symboles signifient.

C'est précisément pour ça que les LLM ont quelque chose d'inquiétant.

Ils sont incroyablement bons pour produire un langage plausible.

Ils peuvent répondre, résumer, imiter, reformuler et recoudre des motifs à une échelle absurde.

Mais est-ce que cela signifie qu'ils comprennent le monde auquel ce langage renvoie ?

C'est là que j'arrête d'acquiescer devant la hype.

Parce que sonner comme si l'on comprenait et comprendre réellement ne sont pas la même chose. Cet écart n'est pas un petit détail technique. C'est tout le combat.

Une grande partie de l'« esprit » que les gens y voient est peut-être juste une très bonne surface

Je pense que c'est ici que le public se fait constamment piéger.

Les systèmes sont tellement fluides que les gens commencent à y glisser des conclusions supplémentaires.

Si cela paraît calme, intelligent, transversal et complet, les gens commencent à prendre cela pour une preuve d'esprit.

Et c'est exactement là que se produit la confusion.

Une réponse lisse ressemble vite à de la perspicacité.

Un paragraphe propre ressemble vite à de la compréhension.

Une voix posée ressemble vite à du jugement.

Mais la fluidité n'est pas l'ancrage.

La compression de motifs n'est pas une compréhension vécue.

Un modèle peut parler en une seule session du deuil, de la physique, du droit, de la stratégie, de la biologie et de l'architecture logicielle. Cela ne signifie pas automatiquement qu'il en a une compréhension ancrée comparable à celle d'un esprit inséré dans le monde.

C'est pour ça qu'un modèle peut paraître brillant une minute et déconnecté du réel la suivante.

Le texte a été le grand accélérateur, et c'est peut-être justement sa limite

L'une des raisons pour lesquelles les LLM ont explosé si vite est évidente : le texte est un raccourci d'une puissance absurde.

Internet a livré à ces systèmes une archive géante et compressée d'explications humaines, d'arguments, d'instructions, de récits, de contradictions et d'erreurs. C'est une ressource extraordinaire.

Mais c'est peut-être aussi le piège.

Parce que le texte n'est pas la réalité.

Le texte, c'est la manière dont les humains parlent de la réalité.

Et les humains parlent très mal de la réalité, en permanence.

Ils la simplifient, la déforment, la comprennent mal, jouent l'expertise autour d'elle et se battent à son sujet.

Si votre chemin principal vers l'intelligence passe par le langage sur le monde plutôt que par le monde lui-même, il se peut qu'il y ait là un plafond structurel. On obtient une performance symbolique stupéfiante sans forcément obtenir le type d'ancrage que les gens projettent dessus.

C'est pour ça que tant de gens sérieux regardent désormais au-delà du simple agrandissement des LLM

Si je ne balaie pas cette idée de plafond d'un revers de main, c'est aussi parce que beaucoup de gens proches du domaine n'ont manifestement pas envie de tout miser sur le simple agrandissement des LLM.

On voit l'intérêt se déplacer vers des choses comme :

les modèles du monde
les systèmes très appuyés sur l'apprentissage par renforcement
l'interaction incarnée
des architectures construites autour de la prédiction latente plutôt que du texte seul
des systèmes qui essaient de modéliser la réalité physique, pas seulement le langage qui en parle

Cela ne prouve pas que les LLM sont morts.

Mais cela suggère qu'un grand nombre de gens intelligents ne pensent pas que la prédiction du prochain token soit toute la route vers l'intelligence générale.

Et honnêtement, les utilisateurs ordinaires le sentent aussi, même s'ils l'expriment moins proprement. Beaucoup utilisent ces outils et en ressortent avec la même réaction viscérale : puissant, oui. La voie finale vers l'esprit ? Je n'en suis pas convaincu.

Les LLM sont peut-être plus proches d'une machine de connaissance incroyablement puissante que d'une personne électronique

Voilà la comparaison qui me reste en tête.

Pas parce qu'elle est parfaite, mais parce qu'elle pointe dans la bonne direction.

Une encyclopédie est utile.

Une calculatrice est utile.

Un moteur de recherche est utile.

Une carte est utile.

Aucune de ces choses n'a besoin d'être consciente, humaine ou profondément compréhensive pour être transformatrice.

Les LLM appartiennent peut-être davantage à cette famille que beaucoup veulent l'admettre : incroyablement utiles, commercialement explosifs, et pourtant pas la même chose qu'un esprit.

Si c'est vrai, alors une grande partie du discours actuel sur l'AGI n'est pas seulement optimiste. C'est peut-être une confusion de catégorie.

C'est pour ça que je soupçonne un plafond structurel, pas simplement temporaire

À ce stade, mon scepticisme se durcit.

Beaucoup des faiblesses actuelles des LLM ne ressemblent pas à des bugs aléatoires qui disparaîtront avec un peu plus d'échelle.

Elles paraissent structurelles.

Les systèmes continuent d'avoir du mal avec :

une causalité ancrée
une modélisation stable du monde
une explication qui dépasse l'imitation polie
le raisonnement hors de territoires de motifs familiers
la distinction entre cohérence et vérité

C'est pour ça que je ne suis pas convaincu que plus de données, plus de puissance de calcul, plus de contexte et des interfaces plus jolies combleront automatiquement ce fossé. Ils produiront peut-être seulement une version plus brillante de la même illusion.

Dernière pensée

Alors, les grands modèles de langage ont-ils déjà atteint leur plafond ?

Je ne pense pas qu'ils aient atteint un plafond total d'utilité. Ils vont probablement continuer à devenir plus rapides, plus propres, moins chers et mieux intégrés au travail réel.

Mais je pense qu'il y a une vraie possibilité que nous soyons beaucoup plus proches du plafond de ce paradigme de base que la hype ne veut l'admettre.

C'est pour ça que ma question a changé.

Je ne demande plus : « Les LLM peuvent-ils s'améliorer ? »

Évidemment qu'ils le peuvent.

Je demande : lorsque je me retrouve encore face à une réponse qui a l'air parfaite mais qui tremble à l'intérieur, est-ce que je regarde un simple stade intermédiaire, ou déjà la frontière de cette méthode ?

Et plus je regarde, moins la réponse me paraît évidente.