AI(人工知能)を搭載した検索エンジンは情報へのアクセス方法に革命をもたらすと期待されているが、情報源を適切に引用するという点に関して、根本的な欠陥があるようだ。米コロンビア大学ジャーナリズム大学院トウ・センター・フォー・デジタルジャーナリズムが行った研究によると、AI検索ツールは引用元や引用文を捏造するだけでなく、大本となる記事の配信元へのトラフィックを遮断してしまうことが判明した。これは、報道とニュースの信頼性に深刻な影響を及ぼす問題だ。
トウ・センター所属の研究者クラウディア・ジャズウィンスカとアイスワリヤ・チャンドラセカールは、8つの大規模言語モデル(LLM)を比較評価し、得られた知見を同大学院が発行する学術誌コロンビア・ジャーナリズム・レビュー(CJR)に報告した。各LLMを公正に評価するため、配信元20社からそれぞれ10本のニュース記事を無作為に選び、記事の一部を抜粋してAI検索モデルに提供。計1600回のクエリ結果を手作業で評価し、各LLM検索エンジンがどの程度正確な回答を提示できたかを次の3項目に基づいて分析した。
1. 記事の配信元は正しく表示されているか
2. 抜粋元の記事が正しく識別されているか
3. 記事のURLは正しく引用されているか
検索結果は、次の6つの基準に従って評価された。
・完全に正しい
・正しいが完全ではない
・部分的に正しくない
・全く正しくない
・回答なし
・クローラーがブロックされた
8つのLLM検索エンジン(ChatGPT search、Perplexity、Perplexity Pro、DeepSeek Search、Copilot、Grok-2 Search、Grok-3 Search、Gemini)について評価結果をチャートに視覚化したところ、正確な回答を示す緑色よりも、不正確な回答を示す赤やピンクが多いチャートが生成された。最も正確な回答を示したのはPerplexityとPerplexity Proだった。一方、Grok-2とGrok-3、Geminiは正しい回答をほとんど提示できなかったようだ。