AIが最適な答えの探索を止めて、途中で「妥協する」
また、すべてのLLMベースのAIエージェントが重大な欠点を抱えている。これらのツールは特に、調査を進めるにあたっての戦略や調査の徹底度、情報源の質の評価、そして「記憶の維持」といった面で人間の研究者の能力には及ばない。たとえば、作業の途中でそれまでの調査結果を忘れることがあるという。
とりわけ問題なのは、「サティスファイシング(satisficing)」と呼ばれる傾向を持つ点だ。多くのAIエージェントが最適な答えを探し続けるのを途中で止めて、ある程度の質の回答で妥協してしまう。そして、これこそがChatGPTのo3モデルが1位になった理由だ。o3は、他のモデル以上に回答の完璧さを追求しており、途中で妥協するケースが少なかったとされる。
FutureSearchが指摘するように、ここ1年間で「優秀な人間の研究者」と「最高レベルのAIエージェント」との能力差が、ほぼ半分に縮まったことを踏まえれば、AIエージェントが人間を上回る日も遠くないのかもしれない。
ただ少なくとも現時点では、AIエージェントの出力結果については、正確性を確認する再検証が依然として不可欠というわけだ。


