近年、AIによって生成されるテキスト、画像、動画、さらにはコンピュータコードを目にすることが当たり前になってきました。しかし、AIがさらに一歩進んで、完全な世界を創造できるとしたらどうでしょうか?
実際、完全な3D環境をシミュレーションできる生成ツールのカテゴリに取り組む開発者たちは、まさにそれを目指しています。
ワールドモデルは、住人や機能する物理システムを備えた没入型の3D環境を生成するよう設計されており、私たちはまるでそこに実際にいるかのように探索し、操作することができます。
ビデオゲームやバーチャルリアリティで私たちが動き回るような3D空間を想像してみてください。ただし、人間が緻密に作り上げたものではなく、完全に機械によって構築されたものです。
これらは、現実世界を理解するのに役立つシミュレーションを作成することで、エンジニアリングや建築から、ロボット工学や医学に至るまで、あらゆる分野に大きな影響を与えると考えられています。
では、これらのワールドモデルが実際に何であるか、誰が開発しているのか、そして今日のAI研究において最も重要な分野の一つである理由について、もう少し詳しく見ていきましょう。
ワールドモデルはどのように機能するのか?
現在、AIモデルが仮想世界や環境を作成するには、2つの異なる方法があります。
1つ目は、ユーザーが世界と対話する際に、すべてをリアルタイムで動的にモデル化する方法です。これは生成ビデオモデルの仕組みに似ており、物理法則やオブジェクトの動作について学習したことに基づいて、時間の経過とともに各ピクセルがどのように変化すべきかを予測します。
ただし、ワールドモデルは、単にどのビデオを生成すべきかを決定するプロンプトを解釈するのではなく、ユーザーがカメラを動かしたり、その中の人々やオブジェクトと対話したりして世界を移動する際の入力に応答します。
この方法では、環境やオブジェクトがどのように振る舞うべきかというモデルの内部理解に基づいて、世界全体がフレームごとに継続的に生成されます。
この方法により、非常に柔軟でリアルかつユニークな環境を作成することができます。例えば、文字通り何でも起こり得るビデオゲームの世界を想像してみてください。可能性はゲームプログラマーがコードに書き込んだ状況や選択肢に限定されません。なぜなら、モデルはプレイヤーのあらゆる選択に合わせて視覚や音を生成するからです。
大きな欠点の一つは、このアプローチが膨大な計算能力を必要とすることです。これは、今日利用可能な最も洗練されたリアルタイムのワールドモデルでも、高いCPU負荷のため、世界の一貫性を維持できるのはわずか数分間に限られることを意味します。
このため、他のモデルは世界生成の問題に対して異なるアプローチを取っています。フレームごとにリアルタイムで世界を生成するのではなく、プロンプトを取り込み、それを永続的な幾何学モデル、デジタルアセット、物理メタデータに変換します。
このデータは、その後ダウンロードされ、他のソフトウェアツールにインポートされ、そこで操作、編集、探索することができます。
誰がワールドモデルを構築しているのか?
AIの大手企業の一部が現在、独自のワールドモデルを開発しています。
その中には、研究プレビュー段階にあり、数分間持続する世界を作成できるGenie 3プラットフォームを持つグーグルが含まれます。
メタ(フェイスブック)もグーグルと同じ動的生成技術を用いて独自のワールドモデルを開発しています。そのプラットフォームHabitat 3は、実世界に展開される前に、身体化AI(物理的ロボット)がナビゲーション、オブジェクト操作、人間との安全な対話を学習できる仮想環境を作成するよう設計されています。
一方、AI先駆者のフェイフェイ・リー氏が率いるWorld Labsは、Marbleワールドモデルで異なるアプローチを取り、テキスト、画像、動画のプロンプトから永続的でダウンロード可能な3D環境を作成します。
イーロン・マスク氏も参入しており、彼のxAI開発グループは現在名称未定のワールドモデルに取り組んでおり、これはビデオゲームとロボットのトレーニングの両方に使用される予定だと報じられています。
ワールドモデルは何をするのか?
ビジネスの観点から見ると、ワールドモデルのユースケースは、テキスト、画像、音声生成のユースケースと同様に無限の可能性を秘めています。
ビデオゲームやエンターテイメントでの明らかな有用性は別として、潜在的なユースケースには、患者との対話をシミュレーションするために臨床環境のイマーシブなデジタルツインを作成するヘルスケア設定が含まれます。
これらの環境はまた、産業用ロボット、自律走行車、その他の実世界環境で動作する身体化AIオブジェクトのための仮想トレーニング場を作成するためにも使用されます。
製造業者は、工場や生産施設の新しいレイアウト、機器の配置、ワークフローをテストし、安全性、エネルギー効率、ダウンタイムの削減をモデル化することができるようになります。
建築家は、一つのレンガも置かれる前に、建物がどのように物理、照明、気流、人の動きに反応するかをテストしながら、建物をモデル化し、表示し、対話することができるようになります。
そして、マクロだけでなくミクロレベルでもモデル化できるため、人体環境や新薬や治療法の有効性を決定する分子反応をシミュレーションするために使用することができます。
なぜこれがそれほど重要なのか?
私は、ワールドモデルが現在進行中の生成AI主導のビジネスと社会の広範な変革に不可欠になる可能性があると考えています。
そしてこの考えは私だけではありません—実際、グーグルDeepMindのジャック・パーカー・ホルダー氏とシュロミ・フルクター氏は、これが人工汎用知能(AGI)への道の重要な足がかりになると述べています。
AI開発における現在の「聖杯」であるAGIは、通常、人間と同様に、特定のトレーニングを受けたかどうかに関わらず、あらゆるタスクに知識と能力を適用できる機械を指すと要約されています。
AIが世界をナビゲートし理解するためには、世界がどのように構築され、何で作られ、どのように一体化しているかを知る必要があります。
ワールドモデルは、言語や視覚に関する能力を強化する方法で、これを行う能力をAIに与えることを約束しています。
これが、私がワールドモデルを現在のAI開発における最も興味深く重要な分野の一つであり、AIが将来どのように影響を与え形作るかを理解したい人なら誰でも関心を持って追うべき分野だと考える理由です。



