On a laissé les agents IA courir partout au nom de la productivité, et la facture de tokens est devenue une histoire d'horreur

Avant, je pensais qu'une énorme facture de tokens voulait forcément dire que tout l'empilement IA faisait un vrai travail sérieux. Plus d'appels, plus de raisonnement, plus d'automatisation, plus de valeur. C'était le fantasme. La réalité est plus laide. Dans beaucoup de configurations d'agents, l'explosion de l'usage de tokens n'est pas la preuve d'une intelligence. C'est la preuve que le système boucle, réessaie, doute de lui-même, recharge son contexte et brûle discrètement de l'argent en arrière-plan pendant que tout le monde fait semblant de croire que le tableau de bord signifie le progrès.

Ce qui rend ça vraiment pourri, c'est la manière dont certaines équipes en parlent désormais. Des exécutions avec plus de tokens. Des fenêtres de contexte plus grandes. Des traces d'agent plus grosses. Des classements internes plus gros. Des budgets plus gros. Mais si un agent a besoin d'un labyrinthe d'appels d'outils, de relances, de validateurs et de boucles d'auto-réflexion pour terminer quelque chose qui aurait dû être simple, ce n'est pas de la productivité. C'est du gaspillage avec un meilleur branding.

La scène qu'il faut vraiment se représenter

Voici la scène à laquelle je reviens sans cesse.

Quelqu'un donne à un agent ce qui ressemble à une toute petite tâche :

résumer un document
relire un rapport
tirer des enseignements d'un tableur
organiser un ensemble de fichiers

En surface, ça a l'air simple.

Sous le capot, la machine s'emballe.

Elle reformule la tâche.

Elle découpe la tâche en sous-tâches.

Elle choisit un outil.

Elle appelle un modèle.

Elle valide le résultat.

Elle doute du résultat.

Elle relance le résultat.

Elle replanifie la marche à suivre.

Elle recharge le contexte.

Elle appelle un autre modèle.

Puis l'utilisateur reçoit une réponse, et l'équipe finance reçoit une facture qui n'a aucun sens.

Voilà le vrai événement ici. Pas « l'IA est chère » de façon abstraite. Une tâche simple se transforme en four à tokens invisible.

Brûler des tokens n'est pas la même chose que produire

Ça devrait être évident, mais trop d'équipes se comportent déjà comme si ce n'était pas le cas.

L'usage de tokens, ce n'est pas :

de la valeur business
de la qualité
de la clarté
du retour sur investissement
un output utile

C'est de la dépense.

Et dès qu'une équipe commence à admirer la dépense, les incitations pourrissent très vite.

Au lieu de demander : « Est-ce que le système a résolu le problème proprement ? », les gens commencent à admirer la quantité de calcul qu'il a mâchée pour y arriver.

C'est un comportement absurde pour quiconque prétend se soucier de productivité.

Un graphique de tokens qui grimpe veut généralement dire que quelque chose cloche

Voilà le changement d'état d'esprit que j'ai dû faire.

Je ne vois plus des totaux de tokens plus élevés en me disant que le système devient plus intelligent. Je pars plutôt du principe que quelque chose est bancal dans le système.

Parce que dans beaucoup d'empilements d'agents, l'usage supplémentaire de tokens n'est que le prix de l'incertitude :

une planification faible
une orchestration fragile
une mauvaise intégration des outils
trop de boucles d'auto-vérification
des relances constantes
trop de rechargements de contexte

Ce n'est pas de l'intelligence.

C'est de la compensation.

Le modèle ou la procédure n'arrive pas à être propre, alors le système paie la confusion avec plus d'appels.

Le récit de la productivité s'écroule face à une seule question

Si toute cette consommation de tokens achète vraiment de la productivité, alors la question évidente est :

Où est l'output ?

Montrez-moi :

le temps économisé
le coût par tâche réellement réussie
la réduction du travail humain
le gain après relances et retours en arrière
le vrai ROI à grande échelle

C'est généralement là que la magie commence à s'échapper de la pièce.

Parce qu'une procédure impressionnante en démo peut devenir absurdement chère dès qu'arrivent en même temps le trafic réel, la concurrence, la gestion des erreurs et un contexte plus long.

Et soudain, l'« agent autonome intelligent » ressemble davantage à une machine à sous emballée dans du langage de grande entreprise.

Le vrai trou noir est souvent le système autour du modèle

C'est un autre point que les gens contournent encore.

Une grande partie de la dépense ne vient pas d'un seul appel au modèle de base. Elle vient de l'architecture empilée autour :

des planificateurs
des routeurs
des validateurs
des boucles de réflexion
des chaînes de secours
des sélecteurs d'outils
de la logique de récupération
des rechargements de contexte

Chaque couche paraît raisonnable prise isolément.

Empilez-les, et vous obtenez une machine qui multiplie les coûts bien plus vite qu'elle ne multiplie la valeur.

C'est pour ça que certains agents ont l'air incroyables dans une démo produit, puis donnent l'impression d'être maudits dès qu'on essaie de les faire tourner souvent et à bas coût.

La prochaine vraie ligne de partage, ce sera la discipline des tokens

Je pense que la prochaine ligne sérieuse dans l'IA va être brutalement simple.

Les gagnants ne seront pas les équipes qui peuvent se payer le plus grand brasier de tokens.

Les gagnants seront les équipes capables d'obtenir la bonne réponse avec moins d'étapes, moins de relances, un contexte plus propre, une planification plus serrée et moins de boue d'orchestration.

C'est cette version de l'IA à laquelle je fais confiance :

moins d'appels
moins de retours en arrière
moins de drame
plus d'output utile par token dépensé

Si un système a besoin de chaînes de raisonnement sans fin juste pour se traîner jusqu'à une réponse de routine, il n'est pas avancé. Il est inefficace sous un costume très cher.

Dernière pensée

Le monde de l'IA glisse vers une habitude stupide : confondre l'excès de calcul avec le progrès.

Mais si un agent a besoin d'une montagne de tokens, de relances cachées et d'un graphe d'appels ridicule juste pour finir une procédure banale, la vraie leçon n'est pas qu'il faut célébrer des totaux de tokens plus élevés.

La vraie leçon, c'est que le système manque encore de discipline.

Et à long terme, c'est la discipline qui comptera.

Pas celui qui a brûlé le plus.

Pas celui qui avait l'air le plus occupé.

Pas celui qui a posté la plus grosse capture de tableau de bord.

Les équipes qui gagneront seront celles qui rendront l'IA banalement efficace : rapide, propre, mesurable, et digne de la facture.