Avant, je pensais qu'une énorme facture de tokens voulait forcément dire que tout l'empilement IA faisait un vrai travail sérieux. Plus d'appels, plus de raisonnement, plus d'automatisation, plus de valeur. C'était le fantasme. La réalité est plus laide. Dans beaucoup de configurations d'agents, l'explosion de l'usage de tokens n'est pas la preuve d'une intelligence. C'est la preuve que le système boucle, réessaie, doute de lui-même, recharge son contexte et brûle discrètement de l'argent en arrière-plan pendant que tout le monde fait semblant de croire que le tableau de bord signifie le progrès.
Ce qui rend ça vraiment pourri, c'est la manière dont certaines équipes en parlent désormais. Des exécutions avec plus de tokens. Des fenêtres de contexte plus grandes. Des traces d'agent plus grosses. Des classements internes plus gros. Des budgets plus gros. Mais si un agent a besoin d'un labyrinthe d'appels d'outils, de relances, de validateurs et de boucles d'auto-réflexion pour terminer quelque chose qui aurait dû être simple, ce n'est pas de la productivité. C'est du gaspillage avec un meilleur branding.
La scène qu'il faut vraiment se représenter
Voici la scène à laquelle je reviens sans cesse.
Quelqu'un donne à un agent ce qui ressemble à une toute petite tâche :
- résumer un document
- relire un rapport
- tirer des enseignements d'un tableur
- organiser un ensemble de fichiers
En surface, ça a l'air simple.
Sous le capot, la machine s'emballe.
Elle reformule la tâche.
Elle découpe la tâche en sous-tâches.
Elle choisit un outil.
Elle appelle un modèle.
Elle valide le résultat.
Elle doute du résultat.
Elle relance le résultat.
Elle replanifie la marche à suivre.
Elle recharge le contexte.
Elle appelle un autre modèle.
Puis l'utilisateur reçoit une réponse, et l'équipe finance reçoit une facture qui n'a aucun sens.
Voilà le vrai événement ici. Pas « l'IA est chère » de façon abstraite. Une tâche simple se transforme en four à tokens invisible.
Brûler des tokens n'est pas la même chose que produire
Ça devrait être évident, mais trop d'équipes se comportent déjà comme si ce n'était pas le cas.
L'usage de tokens, ce n'est pas :
- de la valeur business
- de la qualité
- de la clarté
- du retour sur investissement
- un output utile
C'est de la dépense.
Et dès qu'une équipe commence à admirer la dépense, les incitations pourrissent très vite.
Au lieu de demander : « Est-ce que le système a résolu le problème proprement ? », les gens commencent à admirer la quantité de calcul qu'il a mâchée pour y arriver.
C'est un comportement absurde pour quiconque prétend se soucier de productivité.
Un graphique de tokens qui grimpe veut généralement dire que quelque chose cloche
Voilà le changement d'état d'esprit que j'ai dû faire.
Je ne vois plus des totaux de tokens plus élevés en me disant que le système devient plus intelligent. Je pars plutôt du principe que quelque chose est bancal dans le système.
Parce que dans beaucoup d'empilements d'agents, l'usage supplémentaire de tokens n'est que le prix de l'incertitude :
- une planification faible
- une orchestration fragile
- une mauvaise intégration des outils
- trop de boucles d'auto-vérification
- des relances constantes
- trop de rechargements de contexte
Ce n'est pas de l'intelligence.
C'est de la compensation.
Le modèle ou la procédure n'arrive pas à être propre, alors le système paie la confusion avec plus d'appels.
Le récit de la productivité s'écroule face à une seule question
Si toute cette consommation de tokens achète vraiment de la productivité, alors la question évidente est :
Où est l'output ?
Montrez-moi :
- le temps économisé
- le coût par tâche réellement réussie
- la réduction du travail humain
- le gain après relances et retours en arrière
- le vrai ROI à grande échelle
C'est généralement là que la magie commence à s'échapper de la pièce.
Parce qu'une procédure impressionnante en démo peut devenir absurdement chère dès qu'arrivent en même temps le trafic réel, la concurrence, la gestion des erreurs et un contexte plus long.
Et soudain, l'« agent autonome intelligent » ressemble davantage à une machine à sous emballée dans du langage de grande entreprise.
Le vrai trou noir est souvent le système autour du modèle
C'est un autre point que les gens contournent encore.
Une grande partie de la dépense ne vient pas d'un seul appel au modèle de base. Elle vient de l'architecture empilée autour :
- des planificateurs
- des routeurs
- des validateurs
- des boucles de réflexion
- des chaînes de secours
- des sélecteurs d'outils
- de la logique de récupération
- des rechargements de contexte
Chaque couche paraît raisonnable prise isolément.
Empilez-les, et vous obtenez une machine qui multiplie les coûts bien plus vite qu'elle ne multiplie la valeur.
C'est pour ça que certains agents ont l'air incroyables dans une démo produit, puis donnent l'impression d'être maudits dès qu'on essaie de les faire tourner souvent et à bas coût.
La prochaine vraie ligne de partage, ce sera la discipline des tokens
Je pense que la prochaine ligne sérieuse dans l'IA va être brutalement simple.
Les gagnants ne seront pas les équipes qui peuvent se payer le plus grand brasier de tokens.
Les gagnants seront les équipes capables d'obtenir la bonne réponse avec moins d'étapes, moins de relances, un contexte plus propre, une planification plus serrée et moins de boue d'orchestration.
C'est cette version de l'IA à laquelle je fais confiance :
- moins d'appels
- moins de retours en arrière
- moins de drame
- plus d'output utile par token dépensé
Si un système a besoin de chaînes de raisonnement sans fin juste pour se traîner jusqu'à une réponse de routine, il n'est pas avancé. Il est inefficace sous un costume très cher.
Dernière pensée
Le monde de l'IA glisse vers une habitude stupide : confondre l'excès de calcul avec le progrès.
Mais si un agent a besoin d'une montagne de tokens, de relances cachées et d'un graphe d'appels ridicule juste pour finir une procédure banale, la vraie leçon n'est pas qu'il faut célébrer des totaux de tokens plus élevés.
La vraie leçon, c'est que le système manque encore de discipline.
Et à long terme, c'est la discipline qui comptera.
Pas celui qui a brûlé le plus.
Pas celui qui avait l'air le plus occupé.
Pas celui qui a posté la plus grosse capture de tableau de bord.
Les équipes qui gagneront seront celles qui rendront l'IA banalement efficace : rapide, propre, mesurable, et digne de la facture.