2026.03.09 11:01

データプラトー：AIのスケーリング神話が崩れる時、差別化の鍵は「人間の雑多さ」にある

Sahar Hashmi | Contributor

著者フォロー

記事を保存

AdobeStock

2035年のある朝を想像してほしい。動画配信サービスを開くと、あなたの街の加入者全員に、同じ10本の映画が薦められている。アルゴリズムが生成したニュース分析を読むと、文法は完璧だが、視点は他の1000の媒体と見分けがつかない。街を歩けば、店舗のウィンドウには、前シーズンに売れたものに最適化する生成モデルが設計した服を着たマネキンが並び、ベージュ一色の均一な風景をつくり出している。AIが、AI生成音楽しか聴いたことがないまま作ったプレイリストは、同じ3つのコード進行の変奏を延々と繰り返す。

この光景は、ラッダイトの妄想ではない。私たちが進んでいる軌道を踏まえれば、十分にあり得る到達点である。

この10年近く、人工知能（AI）産業は、ある単純な前提のもとに動いてきた。それは「スケール」だ。OpenAIが2020年に提唱したスケーリング則は、より大きなモデルを、より多くのデータと計算資源で学習させれば、予測可能で絶え間ない改善が得られるとした。この信念が、ビッグテック全体でいま進行中の、数兆ドル規模のインフラ投資を支えてきた。しかし、この物語は崩れ始めている。次の飛躍は、期待された衝撃とともには訪れていない。機械は依然として貪欲だが、燃料の供給は減少しつつある。

人間データの枯渇

その燃料とは、人間が生成したテキストだ。ブログ投稿、ニュース記事、学術論文、Redditのコメント——私たちの集合知を形づくるコーパス（言語データの集合）は、すでにスクレイピングされ、消化され尽くした。一部の研究グループの予測によれば、今世紀末ではなく「この10年の終わり」までに、公開されている高品質のテキストデータ供給は枯渇する軌道にある。見積もりによっては、期限は2029年というものもある。

これが「データプラトー」である。単純にスケールアップしても、収穫逓減に陥る転換点だ。取り込むべき数兆語が残っていないのなら、数兆語でモデルを学習させることはできない。インターネットは有限の鉱山であり、最も豊かな鉱脈はすでに掘り尽くされている。

科学者たちは、人間が生成したテキストを有限資源、すなわちAIの化石燃料になぞらえてきた。そして一度それが尽きれば、より大きなデータセンターを建てても問題は解決しないと主張する。必要なのはアーキテクチャ上のブレークスルーであり、たとえば次の単語予測から、物理や因果関係を理解するシステムへと移行することかもしれない。一方で、合成データによってスケーリングは進化し得る、すなわち古い世代のモデルの出力で新しい世代のモデルを学習させればよい、とする見方もある。

合成データの罠とモデル崩壊

ここから、2035年のシナリオが輪郭を帯びてくる。合成データの問題は、コンピュータサイエンスで「モデル崩壊（model collapse）」と呼ばれる現象だ。

Natureに掲載された研究は、AI生成データで再帰的に学習したモデルが、元のデータ分布を忘れていくことを示した。ベルカーブの裾野が失われる。統計的にまれなもの、異質なもの、創造的な外れ値は誤差としてならされ、消えていく。写真を何度もコピーし続け、やがてぼやけて判別不能な影に変わってしまうのと同じ、デジタル版の現象である。

さらに厄介なのは、均質化は完全な再学習を必要としない、という証拠があることだ。生成AIがニュース、広告コピー、さらには学術要旨の主要な媒体になるとき、その影響は技術性能の範囲を超えて広がる。

人間の独創性がもたらすビジネス上の合理性

経営層にとって、これは単なる哲学的懸念ではない。競争優位を損なうリスクである。どの企業も同じ基盤モデルを使い、それが同じく縮小する人間データのプールで学習され、さらに同じ合成出力でファインチューニングされていくなら、差別化はどこに生まれるのか。あるブランドは、別のブランドとどうやって声色を区別するのか。均質化したファッションと音楽の未来は、均質化した戦略と実行の未来でもある。

この壁を避けるには、投資の前提を計算資源のスケールから、データエコシステムへと移す必要がある。

第一に、独自の人間生成データが再び価値を取り戻す。次のAI競争で勝つのは、最も多くのGPUを持つ企業ではない。合成では複製できない、最も排他的でシグナルの強いデータセットを保有する企業である。

第二に、企業はヒューマン・イン・ザ・ループ（人間参加型）のデータ作成に、規模をもって投資すべきである。指摘されてきたように、膨大な合成トークンを単に生成するのは非効率に感じられる。専門家、クリエイター、領域スペシャリストを雇い、高品質の問題セットやエッジケースを生み出してもらうことは高コストで時間もかかる。だが、モデル崩壊を避けるのに必要な思考の多様性を保つには、それが唯一の道かもしれない。

第三に、リーダーは「分岐（divergence）」を前提にアーキテクトする必要がある。生成AIのデフォルト設定は、平均値、最も効率的な道筋を見つけることだ。逸脱を促すインセンティブがなければ、システムは「見慣れたもの」へ最適化する。次のトークンを予測するだけではなく、「隣接可能性」を探索するよう設計されたAIシステムを求めるべきである。

それは、単に最もあり得る答えを吐き戻すのではなく、テスト時の計算や、複数の可能性を探る推論チェーンを扱えるモデルを受け入れることを意味する。

スケーリング則をめぐる議論は、その核心において「人間の重要性の未来」をめぐる議論である。合成データが人間の経験の完全な代替だと受け入れるなら、私たちは2035年のシナリオを受け入れることになる。だが、知性にはパターン認識だけでなく、真の新規性を生み出す能力が必要だと認めるなら、進むべき道は明確だ。過去を採掘するのをやめ、雑然としていて高コストで、代替不可能な「新しいものを生み出す」という営みに投資しなければならない。

この壁は行き止まりではない。鏡である。そこに映るのは、私たち自身の選択だ。無限のコピーの未来か、それとも独創的思考の未来か。

（forbes.com 原文）