2026.06.01 08:49

AI導入前に問うべき根本的な問い──知識基盤の品質

Philip Brittan | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Adobe Stock

フィリップ・ブリタン氏は、フォーチュン500企業向けのエンタープライズ・インテリジェンス・ソリューションを開拓するBloomfireのCEOである。

以前の職務で、私のチームは数百の製品を単一のプラットフォームに統合した。技術的な作業は管理可能だった。組織的な課題も予想の範囲内だった。しかし、私たちの作業を完全に止めたのは、もっと単純なことだった。2つのシステムが、同じ企業の時価総額について異なる数値を報告していたのだ。どちらも信頼できそうに見えた。どちらも同じように自信を持って答えを提示していた。

私たちは、何かを信頼する前に、すべての矛盾を手作業で調整しなければならなかった。これは大規模言語モデル（LLM）以前の話だ。今日、同じ乱雑なデータは、はるかに危険なものを生み出す。矛盾する情報源を横断して統合し、1つの流暢で自信に満ちた答えを返すAIだ。目に見えるギャップはない。エラーは見えないのだ。

AI層の下にある問題

多くの企業が今や、コパイロット、アシスタント、生成検索といったAIツールを導入している。取締役会での会話は、どのモデルを使うか、どのベンダーを選ぶか、どのユースケースにするか、といったことが多い。

私もそうした会議に出席してきた。しかし、それはまったく間違った会話なのだ。

私が内部を見たときに目にするのは、数十年にわたって蓄積された、断片化され、サイロ化され、ほとんどキュレーションされていないコンテンツだ。企業が不注意なわけではない。膨大なリポジトリをクリーンアップすることは、本当に苦痛を伴う作業なのだ。そのため、組織は最も簡単なことをする。古いものの上に新しいコンテンツを追加し続けるのだ。

その結果は何か？予測可能な問題だらけの知識基盤である。

同じテーマを扱いながら矛盾する結論を持つ複数の文書がある。AIモデルはどれが信頼できるものか判断できないため、矛盾する情報源を横断して何か一貫性のあるものを統合しようとする。その結果、完全に間違ったものが生成されることが多い。

4年前のポリシー文書が、前四半期のものと同じ検索レベルに置かれている。モデルも、出力を読む人間も、どちらが優先されるべきかわからない。

そして、どのシステムにも記録されなかった重要な専門知識がある。まったく同じ状況を17回処理した人物による判断だ。その知識は誰かの頭の中にあり、知識ベースにはない。AIは、決して記録されなかったものを検索することはできないのだ。

なぜAIがこれを悪化させるのか

多くの経営幹部が見逃すかもしれない直感に反する部分がある。彼らはAIがデータ品質の問題を解決すると想定している。スマートなモデルが乱雑な入力を補完すると考えているのだ。真実は逆である。AIは問題をより危険にする。なぜなら、悪いデータがかつて生み出していた目に見える兆候を取り除いてしまうからだ。

従来のシステムは警告サインを出していた。スパイクのあるチャート。明らかなギャップのあるスプレッドシート。悪いデータは自らを告知し、調査が必要だとわかった。

LLMでは、ガベージイン、ガベージアウトの原則は依然として成り立つ。しかし、出力はガベージのようには見えない。矛盾した古い情報に基づいて構築された、自信に満ちた答えが得られる。何かが間違っているという兆候は一切ない。金融サービス、ヘルスケア、あるいはあらゆるハイステークスな環境において、悪い情報に基づいて行動するコストは急速に増大する。

インフラ層が必要とするもの

データシステムを構築してきた経験から言えることがある。知識層は、AIツールが機能するための前提条件なのだ。それを正しく構築するには、3つの譲れない要素が必要である。

1. 明確な所有者の指定：知識の正確性は自動的に維持されない。製品ドキュメント、コンプライアンスガイダンス、顧客向け資料など、コンテンツのすべての領域には、その完全性に責任を持つ指名された人間が必要だ。それがなければ、レビューサイクルは遅れ、矛盾が蓄積し、企業が始めたクリーンな知識ベースは静かに以前の状態に戻ってしまう。

2. 継続的なキュレーション：一度のクリーンアップは知識戦略ではない。目標は自己修復する知識ベースであるべきだ。冗長で、古く、些細で、矛盾するコンテンツを積極的に特定し、AIモデルに到達する前に人間のレビューのためにフラグを立てるシステムである。データの矛盾を手作業で見つけることは、苦痛で高価な作業になり得る。今日のAIは自動的に発見できる。人間は判断を下すべきだ。

3. 根拠のある検索：AIの応答は、検証され、出典が明示されたソース文書に固定される必要がある。キュレーションされていないコーパス全体にわたる確率的な統合ではない。従業員がAI生成の答えを受け取ったとき、それがどの文書から来たのか、その文書が最後にレビューされたのはいつか、誰がそれを所有しているのかを正確に確認できるべきだ。その引用チェーンが、行動できる答えと、信頼する前に検証しなければならない答えを分けるものなのだ。