AI研究に明確な転換が起きつつある。言語や画像の生成モデルから、ワールドモデル(世界モデル)の開発へと重心が移っているのだ。ワールドモデルは、実世界と相互作用する前に空間的関係をシミュレートし、環境について推論するのを助けるもので、ロボットや自動運転のような用途に不可欠である。
この転換は、主要な研究者やテクノロジー企業による集中的な取り組みによって示されている。メタのチーフAIサイエンティストであるヤン・ルカンは、ワールドモデルの追求に注力する意向を強調しており、フェイフェイ・リーのWorld Labs(ワールド・ラボズ)はMarble(マーブル)モデルを一般公開した。同時に、グーグルはGenie(ジーニー)モデルをテストしており、エヌビディアはフィジカルAI向けにOmniverse(オムニバース)とCosmos(コスモス)プラットフォームを開発している。
このような総体的な動きは、テキストや画像といった2次元情報のモデリングで大きな進歩を遂げた後、現在の研究がより複雑な課題──3次元の物理空間と複雑な空間関係のシミュレーション──を狙っていることを示唆している。
フェイフェイ・リーが述べるところによれば、その根底にある理屈は、空間的知性こそが人間の認知の根幹であり、それが現在のAIには欠けているという点にある。AIは言語や視覚の記号的表現を操作できるが、人間は物理法則と空間的な相互連関に支配された物質世界の中で生き、その世界と相互作用している。
自動運転車は、物理世界をナビゲートするAIの比較的発達したユースケースに当たるが、その運用領域は高度に構造化されている。ロボティクスや他の自律エージェントが、現実についてより高度で汎用的な理解へと進むには、環境のより広い力学をシミュレートすることを学ばねばならず、そのための訓練の場としてワールドモデルが不可欠だと考えられている。
3Dシミュレーションの可能性と限界
現行のワールドモデルの実用化の試みは、萌芽的な可能性と依然として大きい技術的ハードルの双方を露わにしている。筆者はMarbleモデルを用いてハンズオンのテストを行った。出発点の画像として、フィンセント・ファン・ゴッホが1889年に描いたアルルの『寝室』の絵を使用したところ、モデルは、物体間の関係写像に基づく3Dの空間理解と予測を示した。
Marbleはまず画像を、その基本的な三次元構成要素──「3D Gaussian splats(3Dガウシアン・スプラット)」と呼ばれる要素群(これは2D画像におけるピクセルに相当する役割を担う)──へと分解した。しかし出力は、一貫性や推論における明確な限界を浮き彫りにした。元の場面はぼやけて歪み、家具の輪郭はにじみ、小物は一部が消え、テクスチャは均質化して滑らかになった。モデルは、見えない壁や追加の家具、潜在的な出入口を、元の絵と様式的に調和する色彩で推定するなど、もっともらしい三次元空間を推論することには成功したが、忠実度と正確性は失われた。



