AI

2026.01.06 10:26

「幻覚税」の現実:生成AIの不正確さが企業に突きつける課題

stock.adobe.com

stock.adobe.com

Ajith Sankaran、C5iエグゼクティブ・バイスプレジデント。

エア・カナダのカスタマーサービスチャットボットが、実際には存在しない弔慰料金返金ポリシーについて、乗客に対して適用資格があると保証した時、誰も疑いを持ちませんでした。乗客はこの情報を基にチケットを予約しました。後に返金を請求しようとした際、エア・カナダは拒否しました。顧客は訴訟を起こしました。カナダの裁判所は、エア・カナダは自社のチャットボットが述べたことに法的に拘束されるとの判決を下し、航空会社に幻覚で生み出された返金ポリシーを尊重するよう強制しました。この判例は企業の法務部門に衝撃を与えました:企業は自社のAIシステムが生成する幻覚に対して法的責任を負うことになったのです。

別の事例では、デロイトがオーストラリア政府に福祉政策コンプライアンスに関する29万ドルの分析レポートを提出しました。このレポートは包括的に見えましたが、審査担当者がデロイトが生成AI(GenAI)を使用して「分析のトレーサビリティと文書化のギャップを埋める」ために使用していたことを発見するまでは。結果:複数の捏造された引用、存在しない脚注、作り出されたデータが含まれていました。デロイトは契約金全額を返金し、公式に謝罪することを余儀なくされました。

2つの注目を集めた事例。2つの異なる業界。1つの明らかなパターン:生成AIの幻覚は企業の責任問題となり、時に8桁の損失をもたらします。

10億ドル規模の清算

AIの幻覚による世界的な企業損失が670億ドルを超えるという未確認の報告もありますが、より信頼性の高い研究によれば、実際の影響は重大であるものの、まだ十分に定量化されていません。マッキンゼーのAI状況2024調査によると、約44%の組織が生成AIから少なくとも1つのネガティブな結果を経験しており、不正確さと幻覚が最も多く引用されるリスクの一つとなっています。別途、EYの調査では、AI関連の事故に遭遇した企業は、影響を受けた組織あたり平均約440万ドル(EYによれば控えめな見積もり)の損失を被っていることがわかりました。

人間と異なり、生成AIシステムは賭けをヘッジしません。「わからない」や「そのデータを持っていない」とは言いません。代わりに、「信頼性テスト」に合格する権威ある言葉で包まれた虚偽を、完全な自信を持って提供します。捏造された製品仕様。存在しない規制条項。架空の顧客とのやり取り。すべてが検証済みの事実の重みを持って提示されます。

事故あたりのコストはセクターによって劇的に異なります。カスタマーサービスでの幻覚は数千ドルのコストで済むかもしれません。医療における誤り、例えば不正確な投与量情報や誤診された放射線所見は、数百万ドルの潜在的責任につながる可能性があります。自動車サプライチェーンでは、幻覚によるトルク仕様やサプライヤー認証が、生産停止、リコール、システム的な責任の連鎖を引き起こす可能性があります。金融サービスでは、AI生成の経済予測やリスク分析に基づいて行動する経営幹部が、完全に架空のデータに基づいて設備投資やヘッジ戦略を承認してしまう可能性があります。

Journal of Medical Internet Researchに掲載されたMikaël Chelliらによる研究では、ChatGPT-3.5は参照の39.6%で幻覚を起こしていることが示されました。GPT-4は28.6%のケースで幻覚を起こし、GoogleのBardは系統的医学レビューに適用した場合、91.4%の幻覚率を示しました。

法律分野では固有の幻覚問題に直面しています。米国で弁護士がChatGPTによって完全に捏造された法的引用を使用していたことが発覚した有名な事例があります。スタンフォード大学の研究では、汎用LLMが法的質問の少なくとも58%で幻覚を起こしていることがわかりました。スタンフォードHAIによる追跡調査では、Lexis+AIやWestlawのAI支援リサーチなどの専門分野特化ツールでも、17%から33%のケースで幻覚が発生していることがわかりました。

金融では、同様に高いリスクがあります。幻覚によるコンプライアンスレポート、捏造されたリスク計算、存在しない市場データポイントは、元の決定価値を上回る罰則を伴う規制違反を引き起こす可能性があります。

現在の防御策が失敗している理由

根本的な問題は構造的なものです。幻覚を減らすために設計された新しい「推論」モデルは、一部のアプリケーションではむしろ不正確な情報をより頻繁に生成しています。温度調整、プロンプトエンジニアリング、「推論」強化などは、根本的な問題を解決していません:LLMは予測エンジンであり、知識ベースではないのです。

企業の生成AI幻覚への対応はまだあるべき姿ではありません。多くは幻覚に対処するために「より良いモデル」やより良い技術を使用していると主張しています。あるいは「人間を介在させる」という保証もあります。しかし、人間による検証はスケールしません。特に生成AIが導入される環境は、まさに人間のプロセスが高価で遅いからです。コンプライアンス担当者が生成AIの規制概要をすべて事実確認することは、自動化の前提を覆してしまいます。

生成AIに競争優位性を賭ける企業にとって、新たな現実は不快なものです:精度は運用の正当性の前提条件です。そして現在の生成AIシステムは、この分野で真の成長が起こるためには、一貫して精度と忠実性を本当に証明する必要があります。

今後の道筋

高リスク領域でAIを展開する組織は、幻覚をエッジケースとして扱うのではなく、システム設計要件として扱うよう転換する必要があります。実装すべき具体的なステップは以下の通りです:

1. 検索拡張生成(RAG)システムを実装する。すべてのAI出力を、企業の知識ベースや権威ある外部ソースからの検証済みソースドキュメントに基づかせる。

2. マルチモーダル自動ファクトチェックシステムを導入する。AI生成の出力をリアルタイムで複数の権威あるソースと照合する。

3. 人間を介在させるガバナンスを確立する。明確な決定権限のしきい値を定義する—AIはリスクしきい値以下のアクションを推奨できるが、それ以上は人間が検証しなければならない。

4. AIガバナンスフレームワークを作成する。ガバナンスポリシーを自動的に適用するAIゲートウェイを導入する—人間の決定を実行時ルールに変換する。

5. AI倫理委員会を設立する。バイアス、公平性、企業価値との整合性についてアルゴリズムの決定を監査するため。

6. データ品質とバイアス検出プロトコルを確立する。展開前に倫理的AIの監査を実施し、トレーニングデータのバイアス、ギャップ、表現の問題を評価する。

7. 透明性と説明可能性のインフラを構築する。すべてのAI推奨事項に推論の過程を含めることを要求する。

これらは新しいソリューションではありません。すべて現在多くの組織によって導入されているか、導入中です。技術的な障壁の多くは対処されています。残っているのは組織のコミットメントです:規制された領域でのAIには、レイテンシーとオーバーヘッドを追加するガバナンスインフラが必要であることを受け入れることです。

しかし、代替案ははるかに高くつきます。幻覚税は一度だけではなく、評判の損害、規制上の罰則、顧客への害、信頼の侵食として継続的に支払われます。AIの採用が拡大するにつれて、幻覚が発生しビジネスクリティカルなエラーにつながる機会も拡大します。したがって、組織がこの課題に対処するための測定された手順を講じることは最も重要です。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事