2025.05.15 09:30

AIエージェントの「調査能力テスト」でChatGPTの最新モデルが1位に

John Koetsier | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Robert Way / Shutterstock.com

人工知能（AI）エージェントのウェブリサーチ能力を競うテストにおいて、ChatGPTの最新モデル「o3」の性能が、Anthropic（アンソロピック）のClaude（クロード）、グーグルGemini（ジェミニ）、中国のDeepseek（ディープシーク）といった競合モデルを上回ると判定された。また「優秀な人間の研究者」と「最高レベルのAIエージェント」との能力の間には、依然として大きな開きがあることも指摘された。

このテストは、カリフォルニア州の調査会社FutureSearchによるもの。同社は11種類の主要な大規模言語モデル（LLM）を用いて、現実世界に即した複雑な調査タスク89件を実施させた。そして、各モデルのオリジナルの情報源の発見やデータの探索、証拠の収集、データの整理、データの編集、主張の検証といった能力を評価した。

その結果、「人間の研究者に匹敵する完璧なAIエージェント」の推定スコアが0.8であるのに対して、今回のテストで記録された最高スコアは0.51だった。これは、たとえ「最高レベルのAIエージェント」であっても、「優秀な人間の研究者」には容易に打ち負かされるレベルであることを示している。

「私たちはこの調査で、最先端のAIエージェントでも、十分な時間を与えられた『優秀な人間の研究者』の能力にはまだ遠く及ばないことを確認した」と、FutureSearchは述べている。

下記に今回の能力テストのランキングと、それぞれのAIモデルのスコアを記載する。

1：o3（OpenAI）：0.51
2：Claude 3.7 Sonnet（Think）：0.49
3：Claude 3.7 Sonnet（Std）：0.48
4：Gemini 2.5 Pro：0.45
5：GPT-4.1L：0.42
6：DeepSeek-R1：0.31
7：Mistral Small：0.30
8：GPT-4 Turbo：0.27
9：Gemma 3：0.20

とはいえ、AIエージェントが急速に進化していることは明らかだ。FutureSearchの調査担当者は、ChatGPTの1年前のモデルにあたる「GPT-4-Turbo」のスコアが0.27だったことから、ごくわずかな期間で「優秀な人間の研究者」と「最先端のAIエージェント」の実力差が約45％縮まったと述べている。

DeepSeekのような無料もしくは低価格のエージェントも、OpenAIのような有料の最先端のAIエージェントに大きく劣っているわけではない。今回の調査では、OpenAIのo3が最も高いスコアを記録し、ClaudeやGeminiが続いた。現時点では、クローズドなモデルのほうが調査系タスクでは優れているものの、無料やオープンソースのモデルも着実に性能を高めている。

次ページ＞ AIが最適な答えの探索を止めて、途中で「妥協する」