2026.05.26 14:00

最先端AIモデルの専門家評価はC＋止まり――旧モデルをわずかに上回る程度

John Koetsier | Contributor

著者フォロー

記事を保存

stock.adobe.com

OpenAIやAnthropicの最新の最先端AIモデルは、価格が高くなり、知能が向上し、より優れた成果を出せるという派手な宣伝文句を掲げている。だが、専門家ネットワークのPearlが510問を使って実施した新たな調査によると、実際には性能はそれほど大きく向上していないという。むしろ、どのモデルも、専門家が実際に信頼できると考える水準の1歩手前に集中している。

Pearlは、GPT-5.5、Claude Opus 4.7、Geminiを含む世界の主要AIモデル25種類をテストし、実際に資格を持つ専門家が回答を評価した。その結果、73％を超えたモデルは1つもなかった。

成績にすれば、おそらくC、よくてもC+といったところだ。

・GPT-5.5は72.7％で首位、5.1は72.0％だった。
・Claude Opus 4.7は71.9％で、4.6は69.8％だった。
・Gemini 3 Proは67.3％で、2.5 Proは64.5％だった。

Pearlのアンディ・カーツィグCEOは「一般のベンチマークは、モデルがテストに合格できるかどうかを測るものです。一方、私たちが問うているのは、専門家がその回答を信頼するかどうかです。そして現時点での答えはノーです。ほぼ正しいということは、依然として間違いなのです」と述べた。

Pearlは、ビジネス、医療、法律、ペット、テクノロジーという5つの専門分野にわたり、およそ510問を用意した。いずれも過去に一般公開されたことがなく、モデル開発企業が学習時に利用できるものではなかった。25種類のAIモデルには、チューニングやプロンプトエンジニアリングを行わず、同一のプロンプトを与えた。回答は、資格を持つ専門家が1〜5点の評価基準で採点した。評価項目は、正確性、完全性、優先順位づけ、専門家としての判断力の4つである。

最後の「専門家としての判断力」こそ、Pearlが最も鋭く主張している点である。正しい答えを出せば十分というわけではない。モデルは、何が重要かを見極め、何に緊急性があるかを示し、回答するのではなく専門家や上位者に判断を委ねるべき質問を見分けられなければならない、という主張だ。

Pearlはまた、各モデルについて推論設定を最小と最大の両方でテストした。その結果、推論時に投入する計算量を増やしても性能の向上は1〜2.6％にとどまり、場合によっては回答の質が悪化したという。

これは感心できる結果ではない。

もちろん、分野によっては比較的良い結果もあった。たとえばビジネス分野では、上位モデルのスコアは80.9％に達した。しかし法律と医療では、広く使われている一部のモデルについて、専門家の評価との一致率が20％前後まで落ち込んだとPearlはいう。控えめに言っても物足りず、悪くすれば危険な水準である。

もちろん、ここで大きな留意点もある。

Pearlは人間の専門家によるネットワークであり、専門家を組み込んだAIシステムを構築している。言い換えれば、Pearlは中立的な学術機関ではない。もちろん、そのことだけでデータが誤っていることにはならない。だが、念頭に置く価値はある。もう1つの留意点は、70％という水準でも一部の企業にとっては許容範囲かもしれないということだ。その場合、AIエージェントが対応した後の不足分を、人間の社員が引き継ぐことを前提にしているのだろう。

しかし、AI時代への適応を理由に人員削減を進めているシスコシステムズ（Cisco）やメタ（Meta）のような企業の経営幹部にとって、今回の結果は1つの注意喚起になるはずだ。AIはあらゆる分野で少なからずミスを犯し、医療や法律のように影響の大きい特定分野では深刻な誤りを起こすということである。

つまり、まだすべての人間を手放すわけにはいかないようなのだ。

（forbes.com 原文）

翻訳＝酒匂寛