2026.05.20 09:06

AIが抱えるデータの限界──因果データが切り拓く未来

Gary Drenik | Contributor Leadership Strategies

著者フォロー

記事を保存

著者フォロー

記事を保存

Adobe Stock

AI（人工知能）はかつてないほど強力になった一方で、かつてないほど誤解されている。

機械学習に数十億ドルが投資されているにもかかわらず、ほとんどの取り組みは有意義な成果を上げるのに苦戦している。マッキンゼーの調査によると、AIの拡大に成功した企業はわずか約20%にとどまり、MITスローン・マネジメント・レビューとボストン・コンサルティング・グループの研究では、約70%の組織がAIの取り組みからほとんど、あるいは全く効果を得られていないことが示されている。

一般的な説明は、AIがまだ成熟途上にあり、モデルの改善が必要である、あるいは組織がまだ適応できていない、というものだ。

しかし、問題がモデルそのものではないとしたらどうだろうか。問題は、モデルが訓練されているデータにあるとしたら？

数十年にわたり、データサイエンスのエコシステムは狭い基盤の上に構築されてきた。取引記録、ウェブ活動、市場データ、その他の観察された行動である。これらのデータセットは豊富で、拡張可能で、取り込みやすい。しかし、根本的に限界がある。これらは何が起きたかを教えてくれる。なぜ起きたかは教えてくれない。

ほとんどのAIシステムは閉じたループの中で動作している。過去のデータで訓練され、パターンを検出するように最適化され、それと同じパターンに基づいて将来の結果を予測するために展開される。

状況が変化すると（経済ショック、消費者心理の変化、新たな競争力学などによって）、過去の相関関係で訓練されたモデルは機能しなくなり始める。シグナルは劣化する。予測は外れる。意思決定は遅れる。

因果データが重要な理由：相関からメカニズムへ

因果データへのこの転換は、相関ベースのモデリングを超えようとするデータサイエンスにおける広範な動きを反映している。

ADIAlabとCausalAI（スタンフォード大学CausalLab）の研究者たちは、多くの機械学習システムが統計的蜃気楼に対して脆弱であることを指摘している。これは、過去のデータでは意味があるように見えるが、状況が変わると機能しなくなるパターンである。

これらの失敗は、共変動を捉えるが因果関係を捉えない観察データで訓練されたモデルに起因する。

因果アプローチは、パターンではなくメカニズムに焦点を当てることでこれに対処する。出発点は「何が何を引き起こすのか？」という問いである。効果を推定する前に関係性を特定することで、モデルはより以下のようになる：

頑健（変化する状況に対して）
再現可能でテスト可能
監査可能で透明

これにより推論への依存が減り、モデルは下流の行動から意図を再構築するのではなく、意図を直接測定できるようになる。

AIシステムがますます重要な意思決定に使用されるようになるにつれ、パターン認識から因果理解へのこの転換は不可欠になりつつある。

因果データと取引データ：需要形成の連続体

因果データと取引データを別々のシステムとして見るのではなく、意思決定の単一のタイムライン上の点として見る方がより正確である。

因果データは購入前の需要形成を捉える。取引データは需要がすでに発生した後にのみ捉える。

取引は購入の瞬間に開始されるが、記録され、集計され、分析された後にのみデータとして可視化され使用可能になる。これにより、原因と測定の間のラグがさらに延びる。

このタイムラインは重要な洞察を明らかにする。消費者の最も初期の感情的変化から市場での最終的な反応まで、完全なサイクルは150日から165日にも及ぶ可能性がある。

このギャップは理論的なものではなく、測定可能である。感情や期待に基づくシグナルは購買行動の数カ月前に現れる可能性があり、一方でデータ集計、分析、決算報告、市場反応の完全な連鎖はその先数カ月延びる可能性がある。

その意味は明確だ。ほとんどの従来のデータセットが変化を反映する頃には、その変化はすでに数カ月間進行している。

データ規模とデータ関連性の問題

組織がAIに多額の投資を行っているのと同時に、データインフラにも数十億ドルを投資している。増え続ける情報量を保存・処理するために設計された大規模なデータ環境を構築しているのだ。

このデータの多くは観察的な性質を持つ。取引記録、クリックストリーム活動、ソーシャルメディアのインタラクション、その他のデジタル排気ガスである。豊富ではあるが、このデータはしばしば行動が発生した後を反映し、アルゴリズムによる増幅、自動化、非人間的活動によって形作られることが多い。

その結果、組織は規模は膨大だがシグナルは不均一なデータセットを抱えることになる。

価値を抽出するために、これらのデータセットは推論の層を必要とする。意図、動機、将来の行動についての仮定であり、これらは直接測定されず、しばしば検証できない。これは機械学習システムに脆弱性をもたらす。特に状況が変化したとき、または過去のパターンがもはや成立しないときに顕著である。

課題は単に量の問題ではなく、関連性の問題である。

より大規模なデータ環境を構築しても、基礎となるデータが意思決定の推進要因を捉えていなければ、必ずしもより良い結果を生み出すわけではない。

因果データは異なる道を提供する。消費者行動への入力（感情、期待、意図、制約）を直接測定することで、推論の必要性を減らし、仮定ではなく観察可能なメカニズムにモデルを基礎づける。

より多くのデータを蓄積することから、より意味のあるデータを捉えることへのこの転換は、モデルのパフォーマンスだけでなく、それらを支えるために構築されたシステムの効率性にも影響を及ぼす。

取引データは反応的である。因果データは予測的である。

取引データは、何が購入されたか、いつ起きたか、いくら使われたかを教えてくれる。因果データは、なぜそれが起きたか、次に何が起きるか、何が変わろうとしているかを教えてくれる。

一般的な小売シナリオを考えてみよう。消費者はコストの上昇、雇用の安定性への不安、経済への信頼の低下から経済的圧力を感じ始める。この段階で、行動はすでに表面下で変化している。裁量的購入を計画する消費者は減少する。支出を減らすと予想する消費者が増える。経済的不安が高まり始める。

まだ取引データはこれを反映していない。

数週間後、影響が現れ始める。支出が鈍化する。買い物かごのサイズが縮小する。客足が減少する。その後になって初めて、収益が予想を下回り、決算が失望させ、市場が反応する。

因果データは最初の段階で変化を捉える。従来のデータは終わり近くでそれを捉える。

これらの上流シグナルが機械学習モデルで使用されると、その利点は構造的である。モデルは変曲点をより早く検出できる。予測はより頑健になる。パフォーマンスはサイクル全体でより安定する。出力はより解釈可能になる。

企業にとって、これはより早い計画を可能にする。競争戦略にとって、需要がどこに向かっているかを明らかにする。経済予測にとって、リードタイムを提供する。投資家にとって、タイミングの優位性を生み出す。これがアルファの基盤である。

AIはかつてないほど強力になった……しかし、その限界はより明確になりつつある。AIの次の段階がその約束を果たすとすれば、それはより良いモデルだけからは生まれない。それはより良い因果データから生まれる。

そして、何が起きているかだけでなく、なぜ起きているかを理解する組織が、最終的にAIを意味のある成果に変える組織となるだろう。

開示：上記で言及した消費者心理調査は、私の会社であるProsper Insights & Analyticsによって実施された。これは全米小売業協会が使用しているのと同じデータセットであり、Amazon Web Services、ブルームバーグ、ロンドン証券取引所グループから経済ベンチマーキング用に入手可能である。

（forbes.com 原文）