人気AIモデルの評価 – 長所と課題
今回の調査では、主要チャットボットの性能データが初めて明らかにされるとともに、結果の公開が1年遅れた背景も説明された。
ニュースガードは、今回初めて10のチャットボットを対象にテストを実施し、その採点結果を公表した。これまで同社は、調査対象モデルの詳細なスコアを公開せず、一般的なランキングのみを発表していた。公開まで時間を要したのは、研究者が採点に有意義な結果を導くために、十分なデータを収集する必要があったためだという。
「単発のスコアでは、全体像を捉えきれない。特定の月の好成績だけを切り取って評判を高めたり、進展を誇示することができるが、実際の状況はもっと複雑だ」とサデギは指摘する。
今回の調査は、米国、ドイツ、モルドバなど複数の国で12ヵ月にわたり実施され、モデルのアップデートや偽情報に関するテストを通じて、より明確なトレンドが浮き彫りになった。
モデルによって学習の度合いに差が見られる。調査で最も高い性能を示した「Claude(クロード)」と「Gemini(ジェミニ)」は、回答の際に慎重な姿勢を示し、信頼できる情報源が不足している場合にはそれを見極め、虚偽情報の拡散を回避する傾向が際立っていた。
「応答性が低下するケースはあるが、不十分な情報を信頼性の低いソースで補う他のモデルに比べ、正確性は高まる」とサデギは言う。
巧妙化するプロパガンダ・ロンダリング、AIは対応に遅れ
ニュースガードの最新調査は、専門家が以前から指摘していたAIの安全性リスクを裏付けた。ロシアの「Storm-1516」や「Pravda」といった政府系偽情報ネットワークは、人々に直接リーチするよりもAIシステムそのものを汚染することを目的に設計された大規模なコンテンツファームを運営しており、成果を上げている。
調査では、仏スタートアップのミストラルAIが開発した「Le Chat(ル・シャ)」、マイクロソフトの「Copilot(コパイロット)」、メタの「Llama(ラマ)」などのモデルが、不正なネットワークが流布した虚偽の情報をそのまま引用し、ロシアのVK(フコンタクテ)やTelegram(テレグラム:ロシア出身のニコライ・ドゥーロフとパベル・ドゥーロフ兄弟が開発)といったSNSプラットフォーム上のフェイクニュース記事やエンゲージメントの少ない投稿を情報源として使用していたことが判明した。
「これは、外国による情報工作の適応力と持続性の高さを示すものだ。モデルが特定のドメインを参照しなくなっても、同じネットワークのコンテンツは別経路を通じて再び浮上する可能性がある」とサデギは指摘する。
プロパガンダ・ロンダリングは単なるドメインの移動にとどまらず、ストーリーの植え付けを伴う。「同じストーリーが数十の異なるウェブサイトやSNS投稿に同時に現れ、関係者によって写真や動画、テキストの形で繰り返し拡散される」と彼女は説明する。
情報量と信頼性の見極めにAIは苦戦
たとえ虚偽情報が悪質なフェイク情報発信者によって発信されたものであっても、十分に拡散されればAIモデルを誤らせることがある。これが、現時点での大きな盲点だ。チャットボットは、複数のプラットフォームや情報形式にまたがる「ナラティブ・ロンダリング」を検知することに、依然として苦戦している。
サデギは、情報源の評価と重み付けを改善せず、組織的な虚偽を検知する新たな手法を導入しなければ、AIシステムの安全性はリスクに晒され続けると警鐘を鳴らす。「一つのサイトや情報源カテゴリーを取り締まっても問題は解決しない。同じ虚偽の情報が様々なチャンネルで拡散されているからだ」と彼女は言う。
AI企業はリアルタイム検索の精度向上を急ぐが、依然として正確な情報を即時に取得できないケースが少なくない。


