2025.05.15 09:30

AIエージェントの「調査能力テスト」でChatGPTの最新モデルが1位に

John Koetsier | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Robert Way / Shutterstock.com

AIが最適な答えの探索を止めて、途中で「妥協する」

また、すべてのLLMベースのAIエージェントが重大な欠点を抱えている。これらのツールは特に、調査を進めるにあたっての戦略や調査の徹底度、情報源の質の評価、そして「記憶の維持」といった面で人間の研究者の能力には及ばない。たとえば、作業の途中でそれまでの調査結果を忘れることがあるという。

とりわけ問題なのは、「サティスファイシング（satisficing）」と呼ばれる傾向を持つ点だ。多くのAIエージェントが最適な答えを探し続けるのを途中で止めて、ある程度の質の回答で妥協してしまう。そして、これこそがChatGPTのo3モデルが1位になった理由だ。o3は、他のモデル以上に回答の完璧さを追求しており、途中で妥協するケースが少なかったとされる。

FutureSearchが指摘するように、ここ1年間で「優秀な人間の研究者」と「最高レベルのAIエージェント」との能力差が、ほぼ半分に縮まったことを踏まえれば、AIエージェントが人間を上回る日も遠くないのかもしれない。

ただ少なくとも現時点では、AIエージェントの出力結果については、正確性を確認する再検証が依然として不可欠というわけだ。

（forbes.com 原文）