2026.05.30 12:00

AIが物理世界を理解するカギは、言語だけでなく多様な感覚にある──専門家たちが議論

John Werner | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

AIを前進させるのは、単一モデルの大規模化か複数モデルの協調か

Godela（ゴデラ）のCEOであるシナモン・シッパーは、AIを発展させる道筋について次のように述べた。

「いわゆる汎用知能や物理推論のように見える出力は、どれか1つのモデルを同じやり方で大規模化するだけで生まれるとは思いません」とシッパーは語った。「むしろ、複雑な物理問題の解決に取り組み、真の物理推論をさまざまなAIモデルやシステムに組み込むには、ただ1つの万能モデルに頼るのではなく、複数のモデルをもう少し組み合わせて制御する必要があると思います」。

TwelveLabs（トゥエルブラブズ）で開発者体験部門の責任者を務めるジェームズ・リーは、自社での取り組みについて語った。多くの企業はビッグデータと教師あり学習を使う方法を採っているが、それはより機械的で、柔軟性に乏しく、モデルに理解を教えるという発想にあまり基づいていないと指摘した。

「当社の焦点は、逆の方向へ進むことにあります」とリーは述べた。「大量の動画コンテンツを使って、動画を最初から動画として学習させ、時間的な次元や、空間同士が時間を通じてどう関係するのかを理解できる能力を作ることです。先ほどのオーケストレーションの話にもつながりますが、コーパス全体のレベルで動画を統合的に扱うことも非常に重要だと思います。動画フレーム内の概念、物体、活動を考え、それらが互いにどう関係するかを捉える。そして、特定の存在や活動について質問されたときに、文脈グラフや知識グラフを実際に導き出せるようにするのです」。

ブラックボックス型のAIに、大量のデータを注ぎ込むだけでは解けない

こうしたAI進展への高度なアプローチを論じる中で、パネルは説明可能なAI（判断根拠を理解できるAI）を志向すべきか、それとも別の方向性かというテーマに繰り返し触れた。

シッパーは、中身が見えない「ブラックボックス」型システムの欠点に言及した。そして、「大量のデータをモデルに注ぎ込み、それであらゆる問題を解いてくれることを期待する」やり方は、現時点では価値と投資のバランスを取るのがかなり難しいと示唆した。

動画だけでは、圧力や方向のデータがなくロボットを訓練できない

リーは、大きな事業になっているデータラベリングと、領域ごとに固有のモダリティ（情報形式）を組み合わせることについて説明した。グレイリンはその点をさらに広げ、ロボットを動画で訓練する際の制約について述べた。

「動画だけを使う場合、ロボットに活動を行わせる訓練には、情報の精度が十分ではありません」とグレイリンは述べた。「圧力のデータも、方向のデータも、細部の情報もないからです」。

彼は続けた。

「何かが行われているとき、物事が複雑になるときには、多くの遮蔽、つまり物体が隠れて見えなくなる状態が起こります。さらに、物体や身体の各部位などについて、非常に細かな位置データも必要です。したがって、大量の動画だけでシステムを訓練しても、そうした問題は解決できません。適切にラベル付けされたデータと、別種のマルチモーダル・センシングを組み合わせることで、皆さんが話しているような、より高度な学習を作り出せるのだと思います」。

リーはさらに説明した。

「最初に言語で訓練すると、テキストというモダリティの偏りを取り込むことになります」と彼は語った。「私たちの領域では、たとえば時間的な動きの部分が非常に重要になります。動画を後付けで加えるやり方は効果的ではありません」。

次ページ＞人間のように感覚から学ぶAIは、言語先行のAIを上回るのか