2025.10.10 12:07

生成AI出力を企業が信頼するためのトラストスコアの活用法

Scott Zoldi | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

AdobeStock

スコット・ゾルディ氏、FICO最高分析責任者。

「知らない答えの質問はするな」という古い訴訟弁護士の格言をご存知かもしれない。大規模言語モデル（LLM）が幻覚を起こす傾向があることや、Express Legal Fundingが2025年5月に実施した調査で調査対象のアメリカ人の34%が実際の人間の専門家よりもChatGPTを信頼すると回答したという事実を踏まえ、私は本質的な問いに答えるためのアドバイスを提供することにした：ユーザーはどうすれば特定の言語モデルの出力が正しいかどうかを信頼できるのか？

私は、結果として得られるデータサイエンスのソリューションには2つの機能が必要だと考えた：

• 言語モデルが回答するよう設計された質問に対する承認済みの回答を活用すること。

• 関連する生成AI出力の正確さを評価すること。

このリスクベースのスコアを武器に、ユーザーは特定の生成AI出力が正確で信頼できるものかどうかを評価できるようになる。

このデータサイエンスのソリューションは単なる理論ではない。これはトラストスコアと呼ばれ、現在すでに実用化されており、私の考えでは、初めて企業に生成AIを大規模に運用するための鍵を提供するものだ。

トラストスコア：特化型言語モデルに不可欠な要素

私は以前、特化型言語モデル（FLM）が幻覚を起こす傾向を排除または軽減することで、生成AIへの信頼を構築する非常に効果的な方法を提供するというトラストスコアについて触れた。

その名が示す通り、FLMは「非常に狭い領域やタスクに特化している。高度な特異性により、適切な[トレーニング]データが選択される」ため、正確な回答の確率が大幅に高まる。FLMは、顧客とのやり取りや引受決定を銀行規制に合わせることから、債権回収、不正管理など、多くのビジネスアプリケーションに対応できる。

私は以前、FLMは「1から999までのトラストスコアを提供する二次的な分析モデルと併用すべきである」と強調した。このスコアは、タスク特化型FLMがトレーニングされた主要な文脈（製品ドキュメントなど）が回答の提供に使用される確率を反映している。「このようにして、ユーザーはスコアを使用して、FLMの回答が裏付けられているかどうかを判断できる」。

トラストスコアのデータサイエンス

トラストスコアの概念をさらに掘り下げてみよう。その根源は、FLMのトレーニングに使用される特化した専門データにある。まず、データサイエンティストとビジネスの主題専門家（SME）が協力して知識アンカーを定義する—これはFLMが回答するよう設計された質問と正しい回答だ。FLMの範囲によって、100の知識アンカー、1000の知識アンカー、あるいはそれ以上になる場合もある。

次に、データサイエンティストはFLMとは独立した、特殊な領域の語彙を扱う第二のモデルを開発する。このモデルは知識アンカーの関連語彙をトークン化し、それらの潜在空間表現を作成する—これはFLMの本来のビジネス用途を測定するものと考えるとよい。

FLMに質問が投げかけられると、トラストモデルは領域外の語彙を除去し、潜在空間表現を計算して、このベクトルが知識アンカーにどれだけ近いかを測定する。領域の潜在ベクトル空間内で近ければ、その質問はモデルが回答するよう設計されたものに合致している。

回答についても同じプロセスが行われる。FLMが回答を生成すると、余分な語彙が除去され、結果は潜在知識空間に埋め込まれる。そこで、トラストモデルは提供された回答を知識ベクトル内の回答と比較する。提供された回答が一致していない場合、トラストモデルはFLMが本来あるべき方法で応答していないことを示し、低いトラストスコアを生成する。

逆に、1つ以上の知識アンカーと密接に一致する回答ベクトルは、より高いトラストスコアを生成する。回答が定義された知識アンカーと一致し、トレーニングデータのコーパスにおいて統計的に有意である場合、その回答は正確である可能性が高い。

トラストモデルは言語モデルの回答に対する基本的な監査を提供する—ついに、生成AIの幻覚を管理するリスクベースの方法が実現した。このトラストモデルにより、企業はトラストスコアの異なる閾値を選択することで、幻覚や最適でない回答に対するリスク許容度を上下させることができる。

予期せぬ事態への対応

FLMが特定領域のデータセットでトレーニングされている場合、トラストモデルは不要に思えるかもしれない。特化型生成AI言語モデルがトレーニングされたデータと異なる回答を生成する可能性について疑問を持つのは論理的だ。しかし、言語を学習するには多くのデータが必要であり、タスクデータの出所（組織内であっても）が理想的でない可能性があるため、それは可能である。

また、ユーザーがFLMの対応範囲外の合理的な質問をする可能性もある。例えば、電動芝刈り機のユーザーマニュアルとして機能するFLMを考えてみよう。機械に詳しくない新しい所有者が、充電中にスパークプラグを外す必要があるかどうか尋ねるかもしれない。

このFLMはバッテリー充電に関する複数の知識アンカーを持っているが、電動芝刈り機にはスパークプラグがないため、スパークプラグに関する知識アンカーはない。生成される回答は低いトラストスコアを持ち、FLMの出力の正確性に対する信頼度が低いことを示すだろう。

信頼できる生成AI出力の実現

最終的に、トラストスコアはFLMに投げかけられた質問がそのFLMが回答するよう設計されたものであるかどうか、また提供された回答が正確であるかどうかを測る必要不可欠なリスクベースの指標を提供する。FLM自体はその評価を行うよう設計されておらず、トレーニングされたデータの文脈的確率に基づいて出力を生成するよう設計されている。

現実には、ほとんどの商用言語モデルは一般的に常にユーザーを喜ばせるよう設計されており、時には真実を犠牲にして回答を生成することもある。生成AIを成功裏に運用するために、企業は特化に重点を置く必要がある—まず、FLMとその領域特化データトレーニングで、次に、意図された使用のための知識アンカーを定義することで、特化した領域の使用に重点を置く。

FLMとトラストスコアを組み合わせることで、生成AI出力の制御を統計的な偶然から最高リスク責任者の手に移し、生成AIを導入するビジネスリスクを根本的に軽減する。

（forbes.com 原文）