2026.07.05 09:00

新興5社へ4800億円超、AIの次なる主戦場「世界モデル」にVCが資金を投じる理由

Josipa Majic Predin | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Josipa Majic Predin

フェイフェイ・リー、定義が定まらない世界モデルを3つに分類

そもそも世界モデルとは何かについて、この分野はまだ合意に達していない。リーは6月、これらのシステムをレンダラー、シミュレーター、プランナーに分類する機能的な分類法を提示し、この問いに正面から向き合った。

レンダラーは人間の目のためにピクセルを出力するもので、3次元構造の理解を持たない。リーは現在のほとんどのデモをここに分類しており、Google DeepMindのGenie 3もここに含まれる。シミュレーターは、幾何学的な整合性とニュートンの法則に耐える状態を出力する。プランナーは行動を出力する。現在ワールドモデルをうたう製品の大半は、レンダラーにすぎない。

世界モデルの優劣は一貫性など3つの競争で決まる

この区分の下では、3つの競争が進行している。第1は、長い時間軸での一貫性だ。Genie 3は毎秒24フレームで歩き回れる世界を生成するが、一貫性を保てるのは数分間だけで、変化を記憶できるのは約1分である。

第2は内部の表現方式だ。World Labsはガウシアンスプラットと物理エンジンで世界を固定する一方、AMIはJEPA（Joint Embedding Predictive Architecture）を基盤とし、フレームを予測するのではなく圧縮された潜在空間で現実の抽象的表現を学習する。

編注：ガウシアンスプラット（3Dガウシアンスプラッティング）は、2023年に登場した3次元復元・描画の手法。複数の写真や動画から、色・不透明度・向きを持つ多数の楕円状の粒子（ガウシアン）を最適化して立体空間を再構成し、写実的な光景をあらゆる角度からリアルタイムに描き出す。物体を三角形の面（ポリゴンメッシュ）の集まりとして表す従来手法と異なり、明示的な3次元構造を保持する点が特徴。

編注：JEPA（Joint Embedding Predictive Architecture）は、ルカンが2022年に提唱した学習の枠組み。大規模言語モデルが「次の単語」を、生成モデルが「次の画素・フレーム」を逐一予測するのに対し、JEPAは画素レベルの再現を目指さず、圧縮された潜在空間の中で現実の抽象的な表現を予測する。細部の生成を避けることで、幻覚（実在しない情報の生成）を抑え、物理的な推論に適するとされる。ルカンはこれをLLMに代わる次のAIの基盤と位置づけ、AMIの中核技術に据えている。

第3はデータの「堀」だ。General IntuitionがMedalからスピンアウトする前に、OpenAIは、Medalのゲームプレイ映像のアーカイブに5億ドル（約805億円）を提示したと報じられている。行動がラベル付けされた1人称視点の動画は、観客（傍観者）視点の映像では教えられない、意思決定から結果への対応づけを教えるからだ。この種のインタラクティブデータ（対話型データ）を握る者が、計算資源だけでは買えない堀を支配することになる。

次ページ＞創業者は、自動運転や研究室など出身別の陣営に分かれる