2026.07.02 13:16

生成AIエンジンの測定問題──2026年に向けて企業が直面する課題

Tracie Kambies | Contributor

著者フォロー

記事を保存

Adobe Stock

Tracie Kambies氏、共同創業者兼COO | IQRush.ai

ガートナーによると、AIチャットボットと生成型回答エンジンがクエリシェアを吸収するため、従来の検索エンジンのボリュームは2026年までに25%減少する見込みだ。CMO投資レポートでは、AEO/GEOが2026年の戦略的マーケティング優先事項の第1位にランクされ、94%の企業がこのチャネルへの投資を増やす計画であることが明らかになった。

GEOとともに、測定における新たなカテゴリが登場した。それは、ブランドがAI検索プラットフォームによって引用される頻度を追跡するダッシュボードだ。これらのダッシュボードは、確実性をもたらすスコアカードを備えたユーザーフレンドリーなものだが、その結果は誤解を招くものである。

ものさしを動かす

前四半期、あるブランドがAI引用シェアで4位から2位に上昇したことを祝っているのを耳にした。チャートは右肩上がりだった。メッセージは洗練されていた。誰もが満足していたが、ある人物がシンプルな質問を投げかけるまでのことだった。「測定されたプロンプトを確認できますか」。予想通り、最初の実行から2回目の実行を確認すると、違いがあった。

結局、パフォーマンスの低い3つのプロンプトがベースラインから削除され、2つの新しいプロンプトが追加されていたのだ。針は動いていなかったが、ものさしが動いていた。これは珍しいことではなく、デフォルトになりつつある。これが、AIで最も急成長しているカテゴリに測定上の問題があり、その購入者のほとんどがまだ気づいていないと私が考える理由だ。

これは悪質な運用者の問題のように見えるかもしれないが、必ずしもそうではない。測定上の問題はより深刻で、主な理由は、プロンプトが静的で正直なものであっても、AIエンジン自体が同じ答えを2度与えることはほとんどないからだ。

同じクエリ、異なる結果

大規模言語モデルは、設計上非決定論的である。PerplexityやSearchGPTに同じクエリを送信しても、わずか数分の間隔であっても、異なるソースを引用した異なる応答が得られる可能性が高い。当社のAI研究責任者が実施した実験から収集されたデータに基づくと、10分間隔で同じクエリから得られた引用セット間の重複は、50%を下回ることが多かった。

この理由は、これらのシステムがテキストを生成する方法にある。つまり、すべてのダッシュボード上のすべての可視性の数値は、移動するターゲットの推定値であり、事実ではないということだ。

最近、当社のAI研究責任者による学術論文が、3つの主要な回答エンジンにわたる変動性を測定し、引用シェアの差異が測定自体のノイズフロア内に日常的に収まることを発見した。報告された引用シェアが9.5%のブランドは、真の範囲が5.5%から12.5%である可能性があり、6.0%と報告された競合他社と重複している。多くのダッシュボードが祝う3ポイントのリードは、統計的には引き分けと区別がつかないことが多い。この不確実性は、最適化によって解消できるものではない。定量化して報告することしかできない。

AI検索のノイズは本質的なものだ。運用者のノイズは任意である。現在、驚くほど多くのAIツールや代理店が、最初のノイズの上に2番目のノイズを重ね、すでにノイズの多い測定を、スコアというよりもストーリーテリングに近いものに変えている。

プロンプトのキュレーションが重要な理由

これが発生する最も一般的な領域の1つは、プロンプトのキュレーションだ。運用者がベースラインを実行し、どのプロンプトが弱い結果を生み出したかを確認し、追跡セットから削除する。おそらく運用者は、「best running shoes」を「top-rated running shoes」に入れ替える。なぜなら、2番目のフレーズがたまたまブランドをより頻繁に引用するからだ。あるいは、運用者はカスタマーサービスなどのプロンプトタイプが結果を歪めると考えているかもしれないが、実際には削除することで別の問題、つまりバイアスを生み出している。

各変更は小さく見える。しかし、それらを合わせるとスコアを製造することになる。運用者は、AIエンジンがブランドをどのように見ているかを測定しているのではない。運用者がすでにブランドを好意的に見せることを知っている、スクリプト化されたサブセットを測定しているのだ。この種の測定は、経営幹部が最も知る必要があることも隠している。それは脆弱性だ。

「best」が「top-rated」になった瞬間にブランドの可視性が崩壊するなら、そのブランドには権威がなく、影響力を失う。それが持っているのは、偶然のキーワードマッチだ。

実際のユーザーはスクリプトに従わない。ユーザーの言語と行動は、状況に応じて変化する。彼らは、ChatGPT、Gemini、Copilotを通じて、1日の異なる時間帯に、異なるフレーミングで、同じ質問を50通りの異なる方法で尋ねる。その変動に耐えられない測定プログラムは、テスト外には存在しないブランドを測定しているのだ。

考慮すべき3つの原則

では、代替案は何かと問われるだろうか。それは、より洗練されたダッシュボードではない。ビジネスリーダーは、何が真のスコアまたは検証可能な指標としてカウントされるかを真剣に検討する必要がある。このAI検索時代のあらゆる測定において、3つの原則が最低基準となるべきだ。

第1に、すべての可視性指標には信頼区間を付けるべきだ。43%プラスマイナス2.1%の引用シェアは、43%プラスマイナス11%とは根本的に異なる答えだ。前者は主張であり、後者は警告である。生成エンジンによって取り込まれる可能性のあるデジタルコンテンツに関する予算決定を行う経営幹部は、これらの指標を知り、理解すべきだ。

第2に、データセットは、意思決定に使用される前に、安定性と十分性の閾値を満たすべきだ。安定性は、ランキングが落ち着いたかどうかを問う。十分性は、導き出される結論を支持するのに十分なほど区間が狭いかどうかを問う。ほとんどのAI検索可視性ダッシュボードは、どちらも報告せず、両方を仮定している。

第3に、比較はクロスオーバー臨床試験が設計される方法と同じように、同一条件下で実行されるべきであり、プロンプトレベルの変動がキャンセルされ、真のシグナルが現れるようにする。測定の完全性は、すべての洞察、推奨事項、戦略的決定が依拠する基盤である。

リーダーにとっての意味

月曜日に経営幹部が実行できるテストがある。代理店やAI可視性プラットフォームのベンダーに、次の火曜日に同じプロンプトを実行したらどうなるかを尋ねてみよう。答えが「同じ数値」であれば、それはダッシュボードを見ている。答えが範囲または信頼区間を持つシェアとして返ってくれば、測定するツールを使用していることになる。

生成エンジンの測定は、カテゴリとして、どのような規律を目指すべきかをまだ決定している段階にある。ブランドとマーケティングのユースケースは明確であり、AI全般について懸念する取締役会が解決策に疑問を持つのは正しい。これを正しく理解する組織は、おそらく物事がどのように測定されるかを理解しようとする組織だろう。

（forbes.com 原文）