AI

2025.05.15 09:30

AIエージェントの「調査能力テスト」でChatGPTの最新モデルが1位に

Robert Way / Shutterstock.com

Robert Way / Shutterstock.com

人工知能(AI)エージェントのウェブリサーチ能力を競うテストにおいて、ChatGPTの最新モデル「o3」の性能が、Anthropic(アンソロピック)のClaude(クロード)、グーグルGemini(ジェミニ)、中国のDeepseek(ディープシーク)といった競合モデルを上回ると判定された。また「優秀な人間の研究者」と「最高レベルのAIエージェント」との能力の間には、依然として大きな開きがあることも指摘された。

このテストは、カリフォルニア州の調査会社FutureSearchによるもの。同社は11種類の主要な大規模言語モデル(LLM)を用いて、現実世界に即した複雑な調査タスク89件を実施させた。そして、各モデルのオリジナルの情報源の発見やデータの探索、証拠の収集、データの整理、データの編集、主張の検証といった能力を評価した。

その結果、「人間の研究者に匹敵する完璧なAIエージェント」の推定スコアが0.8であるのに対して、今回のテストで記録された最高スコアは0.51だった。これは、たとえ「最高レベルのAIエージェント」であっても、「優秀な人間の研究者」には容易に打ち負かされるレベルであることを示している。

「私たちはこの調査で、最先端のAIエージェントでも、十分な時間を与えられた『優秀な人間の研究者』の能力にはまだ遠く及ばないことを確認した」と、FutureSearchは述べている。

下記に今回の能力テストのランキングと、それぞれのAIモデルのスコアを記載する。

1:o3(OpenAI):0.51

2:Claude 3.7 Sonnet(Think):0.49

3:Claude 3.7 Sonnet(Std):0.48

4:Gemini 2.5 Pro:0.45

5:GPT-4.1L:0.42

6:DeepSeek-R1:0.31

7:Mistral Small:0.30

8:GPT-4 Turbo:0.27

9:Gemma 3:0.20

とはいえ、AIエージェントが急速に進化していることは明らかだ。FutureSearchの調査担当者は、ChatGPTの1年前のモデルにあたる「GPT-4-Turbo」のスコアが0.27だったことから、ごくわずかな期間で「優秀な人間の研究者」と「最先端のAIエージェント」の実力差が約45%縮まったと述べている。

DeepSeekのような無料もしくは低価格のエージェントも、OpenAIのような有料の最先端のAIエージェントに大きく劣っているわけではない。今回の調査では、OpenAIのo3が最も高いスコアを記録し、ClaudeやGeminiが続いた。現時点では、クローズドなモデルのほうが調査系タスクでは優れているものの、無料やオープンソースのモデルも着実に性能を高めている。

次ページ > AIが最適な答えの探索を止めて、途中で「妥協する」

編集=上田裕資

タグ:

advertisement

ForbesBrandVoice

人気記事