大規模言語モデルは、もうかなり天井に近いんじゃないか?

大規模言語モデルは、もうかなり天井に近いんじゃないか?

最近のAIに対して、私はずっと同じ居心地の悪い反応を抱えています。モデルはたしかに良くなっている。でも、そのわりに“感じ方”の変化はデモが示すほど大きくない。速くなった。滑らかになった。以前より良いコードも書く。情報の引き出し方もきれいになった。長いコンテキストも扱える。なのに、私は同じ壁に何度もぶつかる。音はよくなったけれど、現実の理解に比例して近づいた感じはしないんです。

だから私にとって本当の問いは、もはや「大規模言語モデルは役に立つのか」ではありません。そんなことは明らかです。問いは、次トークン予測、より良いパッケージング、より大きなコンテキスト窓、より磨かれたプロダクト層という同じ基本トリックから、私たちはどこまで価値を絞り出しているのか、ということです。もし本当に起きているのがそれなら、不快な可能性はこうです。LLMはプロダクトとしては良くなり続けても、概念的な天井には、世の中の熱狂が認めたがるよりずっと近いかもしれない。

進歩が止まる前に、感覚のほうが変わった

ここが変なんです。

私は進歩が偽物だと言っているわけではありません。

モデルは改善した。誰の目にも明らかです。

でも、多くの人が同じ瞬間に達したんじゃないかと思う。最初は衝撃だったシステムが、だんだん見慣れたものになっていく。よりきれいな服を着た同じ限界が見え始める。

相変わらず、確信ありげに間違える。

相変わらず、美しいナンセンスを出す。

相変わらず、推論をしているふりはうまいのに、実際にはそこまで持続しない。

ここが重要です。新鮮さが薄れたあとに立ち上がる問いは、もっと嫌なものだからです。私たちが見ているのは本物の深まりなのか、それとも同じ基礎動作の上にある、より上手いパフォーマンスにすぎないのか。

私はいつも、同じ実務的な“破綻点”に戻される

ここは、もう私にとって哲学の話だけではありません。

かなり実務的で、多くの人が体験している瞬間だと思う。

質問を投げる。

モデルはものすごくきれいに返す。

口調は自信たっぷりだ。

文章の形も整っている。

でも二度見すると、表面の滑らかさの下に、対象そのものをちゃんと掴んでいる感じがない。

その瞬間に、私はまた“中国語の部屋”へ戻される。

設定は単純です。正しい記号を正しい順序で出力できても、その記号が何を意味しているのかを本当に理解しているとは限らない。

まさにそこが、LLMが奇妙に感じられる理由です。

彼らは、ありそうな言語を出すのが信じがたいほど上手い。

答えることも、要約も、模倣も、言い換えも、パターンの縫い合わせも、異常なスケールでやってのける。

でも、それは言語が指している世界を理解していることになるのか。

ここで私は、熱狂に頷くのをやめてしまう。

理解しているように聞こえることと、理解していることは同じじゃないからです。この差は細かな技術論ではない。争点そのものです。

人がそこに見る“心”のかなりの部分は、じつは表面のうまさかもしれない

一般の人がここで引っかかるのは、たぶんこのせいです。

システムがあまりに流暢だから、人はそこに余計な結論を持ち込んでしまう。

落ち着いていて、賢そうで、分野横断的で、完結して聞こえると、それを“心の証拠”みたいに扱い始める。

ここで起きている誤認はかなり単純です。

きれいな返答が、そのまま洞察に見える。

まとまった段落が、そのまま理解に見える。

落ち着いた声が、そのまま判断力に見える。

でも、流暢さは接地ではない。

パターン圧縮は、生きた理解ではない。

モデルが、悲しみ、物理、法律、戦略、生物学、ソフトウェアアーキテクチャを一息に語れたとしても、それだけで、世界の中に埋め込まれた心が持つような意味で、それらを把握しているとはならない。

だからこそモデルは、一分前には見事に見えたのに、次の瞬間には現実から切れているようにも見える。

テキストは異常に強い近道だった。でも、それ自体が限界かもしれない

LLMがここまで爆発した理由の一つは明白です。テキストが、信じられないくらい強力な近道だから。

インターネットは、人間の説明、議論、手順、物語、矛盾、誤りを圧縮した巨大なアーカイブを、これらのシステムに与えた。これは並外れた資源です。

でも、それ自体が罠でもありうる。

なぜなら、テキストは現実ではないからです。

テキストは、人間が現実についてどう語るかにすぎない。

しかも人間は、現実についてひどく語る。

単純化し、歪め、誤解し、専門家っぽさを演じ、そのうえで互いに争う。

もし知性への主な道が、世界そのものではなく“世界についての言葉”に依存しているなら、そこには構造的な天井があるかもしれない。驚異的な記号的パフォーマンスは得られても、人々がそこへ投影しているような接地は、必ずしも手に入らないからです。

だから本気の人たちは、純粋なLLM拡大の外側も見続けている

私がこの天井説を簡単に切り捨てない理由の一つは、分野に近い人たちが、純粋なLLMスケーリングにすべてを賭けているようには見えないことです。

関心は、こんな方向にも向き続けています。

  • 世界モデル
  • 強化学習を重く使うシステム
  • 身体性を持った相互作用
  • テキストではなく潜在状態の予測を軸にしたアーキテクチャ
  • 言語ではなく物理世界そのものをモデル化しようとする試み

もちろん、それだけでLLMが死んだ証明にはならない。

でも、多くの賢い人が「次トークン予測が一般知能への道のすべてだ」とは思っていないことの証拠にはなっています。

正直、普通のユーザーもそれを感じている。表現はもっと雑でも、手触りは同じです。使ってみると、こう思う人がかなりいる。強力だ。でも、心への最終ルートかと言われると、そこまでは信じられない。

LLMは、電子人格というより“強力すぎる知識機械”に近いのかもしれない

私の頭に残り続ける比喩はこれです。

完璧だからではない。でも方向としては合っている気がする。

百科事典は役に立つ。

電卓も役に立つ。

検索エンジンも役に立つ。

地図も役に立つ。

それらは、意識や人間らしさや深い理解を持っていなくても、変革的な力を持ちうる。

LLMも、案外そちら側のものなのかもしれない。信じがたいほど役に立ち、商業的にも爆発的で、それでもなお“心”そのものではない。

もしそうなら、今のAGI談義のかなりの部分は、ただ楽観的なだけじゃない。カテゴリーの混同かもしれません。

だから私は、この天井を一時的なものではなく構造的なものだと疑っている

ここで私の懐疑はもう少し硬くなります。

現在のLLMの弱さの多くは、少しスケールすれば消えるランダムなバグには見えません。

構造的に見えるんです。

システムは依然として、次の点で苦しんでいる。

  • 現実に接地した因果
  • 安定した世界モデル
  • きれいな模倣以上の説明
  • 見慣れないパターン領域での推論
  • 一貫性と真実の区別

だから私は、データを増やし、計算資源を増やし、コンテキストを伸ばし、インターフェースをきれいにすれば自動的にその溝が埋まるとは思えない。そうして手に入るのは、同じ錯覚の、もっと磨かれた版かもしれないからです。

最後に

では、大規模言語モデルはもう天井に達したのか。

私は「有用性の天井」には達していないと思います。これからも、もっと速く、もっときれいに、もっと安く、もっと実務の中へ統合されていくでしょう。

でも、この基本パラダイムの天井には、世の中の熱狂が認めたがるよりずっと近い場所まで来ている可能性がある、と私は本気で思っています。

だから私の問いは変わりました。

「LLMは改善できるのか」ではない。

そんなことは当然できる。

「私はまた、あの“完璧に見えるのに中がぐらつく返答”に出会ったとき、それを途中段階として見るべきなのか、それともこの方法そのものの境界として見るべきなのか」。

見れば見るほど、その答えは自明ではなくなっていきます。