生産性のためにAIエージェントを野放しにしたら、トークン請求がホラーになった

昔の私は、巨大なトークン請求書を見れば「AIスタックは相当ちゃんと仕事をしているに違いない」と思っていました。呼び出しが多い、推論が多い、自動化が多い、価値も多い。そういう幻想です。現実はもっと醜い。多くのエージェント運用では、トークン使用量の爆発は知性の証拠ではありません。システムがループし、再試行し、自分を疑い、コンテキストを読み直し、裏で静かに金を燃やしている証拠です。それなのに、みんなダッシュボードを見て進歩だと信じたがる。

さらに嫌なのは、いま一部のチームがその状態をどう語っているかです。より大きなトークン実行。より大きなコンテキストウィンドウ。より大きなエージェントトレース。より大きな社内ランキング。より大きな予算。けれど、もし一つのエージェントが、本来なら単純であるはずの仕事を終わらせるために、道具呼び出しの迷路、再試行、バリデーター、自己反省ループを必要としているなら、それは生産性ではありません。ブランド名を与えられた浪費です。

本当に頭に置くべき光景

私が何度も思い浮かべる場面はこれです。

誰かがエージェントに、一見すごく小さなタスクを渡す。

ドキュメントを要約する
レポートをレビューする
シートから示唆を引き出す
ファイル一式を整理する

表から見ると単純です。

でも裏では、ものすごいことが起きる。

タスクを書き換える。

サブタスクに分解する。

ツールを選ぶ。

モデルを呼ぶ。

結果を検証する。

結果を疑う。

結果をやり直す。

ワークフローを組み直す。

コンテキストを読み直す。

別のモデルをもう一度呼ぶ。

そしてユーザーには一つの答えだけが返り、経理には意味不明な請求が届く。

ここが本当の出来事です。「AIは抽象的に高い」という話ではない。単純な作業が、見えないトークン炉に変わるんです。

トークン燃焼は成果と同じではない

こんなの当たり前に思えるはずなのに、もう多くのチームがそう扱っていません。

トークン使用量は、

ビジネス価値
品質
明瞭さ
ROI
有用なアウトプット

ではない。単なる支出です。

そして、いったんチームが支出そのものを称賛し始めると、インセンティブは一気に腐ります。

「システムは問題をきれいに解いたか」を問う代わりに、「そこへ辿り着くまでにどれだけ計算を食ったか」を人が褒め始める。

生産性を本気で気にしていると自称する人間の振る舞いとしては、かなり狂っています。

上がり続けるトークンのグラフは、たいてい何かがおかしい

私が無理やりでも切り替えなければならなかった発想はここです。

いまはトークン総量が増えているのを見ても、システムが賢くなっているとは思いません。むしろ、どこかがだらしないのではないかと考えます。

多くのエージェントスタックでは、余計なトークン消費は不確実性の値段でしかないからです。

計画が弱い
オーケストレーションが脆い
ツール連携がまずい
自己チェックループが過剰
リトライが多すぎる
コンテキスト再読込が多すぎる

それは知性ではありません。

補償です。

モデルやワークフローが十分にきれいに機能していないから、システムが混乱をより多い呼び出しで埋め合わせているだけなんです。

生産性の物語は、たった一つの問いで崩れる

もしこの大量のトークンが本当に生産性を買っているのだとしたら、当然の問いがあります。

成果はどこにあるのか。

見せてほしいのは、

どれだけ時間を節約したか
成功タスクあたりのコストはいくらか
人手はどれだけ減ったか
再試行やロールバック後に何がどれだけ改善したか
本番スケールで見た本当のROI

だいたい魔法が剥がれ始めるのは、ここです。

デモでは印象的に見えたワークフローが、実トラフィック、並列実行、エラー処理、長いコンテキストが一気に乗った瞬間、とんでもなく高くつくことがある。

そうなると、「賢い自律エージェント」は急に、エンタープライズ用語で包まれたスロットマシンみたいに見え始めます。

本当のブラックホールは、モデルの外側にあることが多い

みんなまだこの話を正面から言わない。

支出の多くは、一回のベースモデル呼び出しから来ているわけではありません。まわりに積み上げたアーキテクチャから来ていることが多いんです。

プランナー
ルーター
バリデーター
反省ループ
フォールバックチェーン
ツールセレクター
リカバリーロジック
コンテキスト再読込

一つひとつは、それぞれもっともらしく聞こえる。

でも全部を積み上げると、価値を増やすより速くコストを増やす機械になる。

だから、プロダクトデモでは信じられないほど見事だったエージェントが、それを安く、何度も回そうとした瞬間に呪われたように見えてくるわけです。

次の本当の分かれ目は、トークン規律だ

次にAIで本気の線が引かれる場所は、ものすごく単純だと私は思っています。

勝つのは、一番大きなたき火のようにトークンを燃やせるチームではありません。

勝つのは、より少ない手順、より少ない再試行、よりきれいなコンテキスト、より引き締まった計画、より少ないオーケストレーションのぬかるみで、正しい答えに辿り着けるチームです。

私が本当に信頼したいAIは、そっちです。

呼び出しが少ない
ロールバックが少ない
無駄な騒ぎが少ない
1トークンあたりの有用な出力が多い

もしシステムが、ありふれた答えに這って辿り着くためだけに延々と推論チェーンを必要としているなら、それは先進的なのではない。非常に高くつく衣装を着た非効率です。

最後に

AIの世界はいま、計算を過剰に使うことを進歩と見なすという、かなり愚かな癖のほうへ流れています。

けれど、もしエージェントが、ありふれたワークフローを終わらせるためだけに、山のようなトークン、隠れた再試行、馬鹿げた呼び出しグラフを必要としているのなら、私たちが学ぶべきことは「もっと大きなトークン総量を祝おう」ではありません。

本当の教訓は、そのシステムにはまだ規律がない、ということです。

長い目で見れば、重要なのは規律です。

誰が一番燃やしたかではない。

誰が一番忙しそうに見えたかでもない。

誰が一番大きなダッシュボード画像を投稿したかでもない。

最後に勝つのは、AIを退屈なくらい効率的に感じさせるチームです。速い、きれい、測れる、請求に見合う。そこに行けるかどうかです。