アップルの新しい研究論文が、今日最先端とされるAIモデルに潜む欠陥を暴き出し、複雑な課題に直面するとモデルが完全に崩壊し得ることを示した。画期的なこの論文はAIコミュニティに衝撃を与え、これまで見過ごされてきた深刻な限界を明らかにした。
『The Illusion Of Thinking』(思考の錯覚)と題されたこの論文は、GPT‑4、DeepSeek、Claude Sonnetなどが採用する「思考連鎖(chain‑of‑thought)推論」が、課題がある程度以上複雑になると「完全な精度崩壊(complete accuracy collapse)」に苦しむことを示している。しかも一度複雑さが閾値(しきいち)を超えると、演算能力やトークン数、データ量をどれほど増やしても改善がほとんど得られない点が最も憂慮すべき内容だ。
これは、気候変動やエネルギー不足、世界的貧困といった巨大課題をAIが解決するという、ここ数年語られてきた壮大な構想に直接影響を及ぼす。
大規模推論モデル(Large Reasoning Model、LRM)はエージェント型AI(agentic AI)の問題解決エンジンであり、人間のように学習成果をあらゆる課題に適用できる汎用人工知能(AGI)への一歩とみなす向きもある。最先端かつ有用と目されるため、LRMの開発には巨額の投資が注がれてきた。
では、こうした巨額の投資は技術的な行き止まりに注ぎ込まれたのだろうか。
私はそうは思わない。ただし、AIの真価を引き出そうとする企業や組織にとって学ぶべき教訓は多い。以下で詳しく見ていこう。
報告の核心
報告書の核心は、AIの「思考」が、人間が現実世界で問題を解決する際に用いる客観的推論を忠実に再現したものではなく、錯覚にすぎない可能性があるという点だ。
「精度崩壊」の検証によれば、LRMは低難度の課題では卓越した性能を示すものの、複雑性が増すにつれて最終的に完全に失敗する段階に達する。
さらに意外なのは、課題が過度に複雑になるとモデルが「降参」し、使用トークンを減らして努力そのものを放棄する傾向があることだ。
問題の解法を明示的に指示しても失敗する場合が多く、この挙動を訓練で克服できるか疑問が残る。
過度に複雑なタスクでは、AIの有用性自体が低下
ビジネスAIの世界では「大きければ大きいほど良い」──データ量、モデル規模、トークン数を増やせば性能も上がる──という信念が根強い。アップルの研究は、一定の規模を超えるとこうしたスケールメリットは失われ、最終的に崩壊することを示唆する。
その結果、混沌とした実世界で幅広い高次戦略を立案したり、複雑な法的推論を行わせたりするような過度に複雑なタスクでは、AIの有用性自体が低下する。



