人工知能(AI)エージェントのウェブリサーチ能力を競うテストにおいて、ChatGPTの最新モデル「o3」の性能が、Anthropic(アンソロピック)のClaude(クロード)、グーグルGemini(ジェミニ)、中国のDeepseek(ディープシーク)といった競合モデルを上回ると判定された。また「優秀な人間の研究者」と「最高レベルのAIエージェント」との能力の間には、依然として大きな開きがあることも指摘された。
このテストは、カリフォルニア州の調査会社FutureSearchによるもの。同社は11種類の主要な大規模言語モデル(LLM)を用いて、現実世界に即した複雑な調査タスク89件を実施させた。そして、各モデルのオリジナルの情報源の発見やデータの探索、証拠の収集、データの整理、データの編集、主張の検証といった能力を評価した。
その結果、「人間の研究者に匹敵する完璧なAIエージェント」の推定スコアが0.8であるのに対して、今回のテストで記録された最高スコアは0.51だった。これは、たとえ「最高レベルのAIエージェント」であっても、「優秀な人間の研究者」には容易に打ち負かされるレベルであることを示している。
「私たちはこの調査で、最先端のAIエージェントでも、十分な時間を与えられた『優秀な人間の研究者』の能力にはまだ遠く及ばないことを確認した」と、FutureSearchは述べている。
下記に今回の能力テストのランキングと、それぞれのAIモデルのスコアを記載する。
1:o3(OpenAI):0.51
2:Claude 3.7 Sonnet(Think):0.49
3:Claude 3.7 Sonnet(Std):0.48
4:Gemini 2.5 Pro:0.45
5:GPT-4.1L:0.42
6:DeepSeek-R1:0.31
7:Mistral Small:0.30
8:GPT-4 Turbo:0.27
9:Gemma 3:0.20
とはいえ、AIエージェントが急速に進化していることは明らかだ。FutureSearchの調査担当者は、ChatGPTの1年前のモデルにあたる「GPT-4-Turbo」のスコアが0.27だったことから、ごくわずかな期間で「優秀な人間の研究者」と「最先端のAIエージェント」の実力差が約45%縮まったと述べている。
DeepSeekのような無料もしくは低価格のエージェントも、OpenAIのような有料の最先端のAIエージェントに大きく劣っているわけではない。今回の調査では、OpenAIのo3が最も高いスコアを記録し、ClaudeやGeminiが続いた。現時点では、クローズドなモデルのほうが調査系タスクでは優れているものの、無料やオープンソースのモデルも着実に性能を高めている。



