2024.07.22 13:00

「最強のAIチャットボット」をリアルタイムでランキング、Chatbot Arena

Robert Hart | Forbes Staff

著者フォロー

記事を保存

Shutterstock.com

OpenAIやグーグル、メタなどの企業が、ますます高度な人工知能（AI）チャットボットをリリースする中で、どのツールが最も優れているかを決めるランキングが注目を集めている。各社のチャットボットを比較する上で、最も影響力のあるリアルタイムの指標とされるのが、Chatbot Arena（チャットボット・アリーナ）と呼ばれるサイトだ。

AIチャットボットの能力を測る指標としては、数学の問題やプログラミングの課題、大学レベルのさまざまな分野の選択式問題などが用いられる場合が多いが、各社の大規模言語モデル（LLM）を評価する統一的なベンチマークは存在しない。

LLMの比較が難しいのは、各社のモデルが複数のベンチマークで非常に近いスコアを獲得しているためであり、一部の企業や組織は、わずか0.1％の差でライバルに勝利したと主張している。これは一般のユーザーがほとんど気づかないほどの小さな差だ。

そんな中、カリフォルニア大学バークレー校の学生と教授陣らが設立した研究組織LMSYS Orgが立ち上げたサイトであるChatbot Arenaは、訪問者に2つのAIモデルの応答を比較させ、どちらが優れているかを投票させることでランキングを作成している。

このサイトは、これまで約150万件の人間の投票に基づいて100以上のAIモデルをランク付けしており、さまざまな指標や言語における能力を比較している。現時点（翻訳時）でChatbot Arenaが選んだトップ5のAIモデルは下記の通りだ。

1. GPT-4o
2. Claude 3.5 Sonnet
3. Gemini Advanced
4. Gemini 1.5 Pro
5. GPT-4 Turbo

より多くのAIツールがリリースされ、社会に普及する中で、AIモデルの評価の指標はますます重要になっていく。スタンフォード大学の人間中心AI研究所のヴァネッサ・パーリは、「ベンチマークは、AIモデルのユーザーだけでなく、研究者にとっても重要だ」と語る。彼女は、「すべての人間の能力が正確に測定できるわけではない」としつつ、それでもそのような測定が難しい能力が、「AIモデルに持たせたい望ましい特性」であることを忘れてはならない指摘した。さらに、医療機関などの機密情報を扱う組織にとっては、バイアスや真実性などの責任に関する特性を評価するベンチマークが必要であるとも語った。

「Chatbot Arenaが提供するランキングは、他のほとんどのランキングよりも信頼できる」とシアトルのアレン研究所のジェシー・ドッジはフォーブスに語り、その理由を、「人間の判断に基づくランキングだからだ」と述べた。

一方、スタンフォード大学のパーリはChatbot Arenaのランキングが、「コーディングの能力のような定量化しにくいが、AIに望まれる要素」を直接的な指標や数値を用いずに評価できると述べた。しかし、彼女はまた、このようなランキングを唯一の指標にすべきではないことを強調し、「モデルを評価する上では、重要な要素がたくさんあり、それらをすべてカバーしているわけではない」と語った。

（forbes.com 原文）

編集＝上田裕資