AI

2026.01.26 17:41

言語AIの限界を突破する物理AI──空間理解が実現する次世代ロボット

stock.adobe.com

stock.adobe.com

かつて私たちが「スマート」と呼んでいたものを振り返ると、ほとんど笑ってしまうほどだ。音声で指示すれば音楽を再生する初期のAlexaデバイス、グーグルのNest(ネスト)サーモスタット、アプリやインタラクティブ機能を搭載したテレビ。これらはある程度スマートであり、今でも成長の余地はある。しかし、物理AIが「スマート」の定義を変えつつある過去2年間で、そのハードルは急上昇した。今や、ロボットが家事をこなし航空機を組み立て工場で重量物を持ち上げる姿を目にするようになった。

advertisement

そして、LLM(大規模言語モデル)だけでは不十分だ。LLMは言語処理に優れているが、部屋、廊下、工場、建設現場、あるいはその中にある物体を「理解」するようには設計されていない。そこで登場するのが世界モデルと空間知能だ。おそらく意外なことに、これらは予想通り物理世界だけでなく、仮想世界にも影響を与えている。

そして、これがAI研究者たちの焦点を変えつつある。

「世界モデルは物理空間により焦点を当てています。現実世界の環境を取り込み、シミュレートするのです」と、Illumix(イルミックス)の創業者兼CEOであるキリン・シンハ氏は最近、TechFirstポッドキャストで私に語った。「これには明らかな応用例があります。たとえばゲームでは、単一の連続モデルでこれらの非常に広大で複雑な世界をまったく異なる方法で作成できるでしょうか。これは本当に興味深いと思います。もう1つの大きな分野はロボット工学です。ロボットが現実世界でより効果的に動作する方法を学習できるよう、これらすべての異なる環境をどのようにシミュレートできるでしょうか」

advertisement

これらすべてが意味するのは、AIが言語よりも物理学と現実世界の機能性に焦点を移し始めているということだと、シンハ氏は言う。LLMは伝統的に言語の領域に存在してきた。興味深いことに、これによりAR(拡張現実)が、長い間ハイプの波から離れていた後、再び関連性を持つようになった。同社はディズニーやシックス・フラッグスのための体験を構築するためにARに投資してきた。

ロボット工学における課題は、AIを物理環境で確実かつ効率的に動作させる方法だ。これは、幾何学や深度から文脈的意味や関連する行動まで、あらゆるものを理解することを意味し、そのすべてに空間認識、シーン理解、文脈的知能が必要となる。認識は基本だ。私たちの周りには何があるのか。その物体はどのくらい離れているのか。空間の形状は何か。シーン理解はさらに進み、物体の配置に意味を見出す。これは図書館なのか。誰かが調査しているために本が散らばっているのか。最後に、文脈的知能は問う。その情報で何をすべきか。それはユーザーとその意図にどう関係するのか。

これらすべては、静的な環境のロボットにとっても十分に困難だ。突然床にレゴが落ちていたり、パレットが倒れて中身がこぼれたりする、動的で急速に変化する環境では、さらに難しくなる。

この物理空間への焦点は、過去2年間のAIに関する会話の多くとは鋭く対照的だ。メタ(Meta)などは、完全にデジタルな世界を強調する仮想現実と「メタバース」プラットフォームに数十億ドルを注ぎ込んだ。メタは特に、VRとメタバース投資から大きく後退したばかりだ。しかし、シンハ氏は、真の機会は拡張現実にあると言う。それは、現実世界を置き換えるのではなく、デジタル知能と融合させるシステムだ。

「歴史的に、ARは空間を理解し、デジタル要素を私たちの世界に追加するための基礎ブロックを構築することに焦点を当ててきました」と彼女は言う。

幸運な偶然として、空間を理解し、それがどのように異なる可能性があるかを理解することは、実際には、経路、一連の物理的行動、またはタスクを計画する必要がある自律的なデジタル存在にとって、かなり有用なスキルだ。

ここでの難しい部分は、連続的な映像を知能に変換することだ。

「人間はニュアンスに非常に優れています」とシンハ氏は言う。「照明が変わり、子供が椅子に毛布を投げ、新しい椅子が現れる。人間は即座にそれが同じ空間だと分かります。コンピューターにとって、それは実際には非常に困難です」

これらすべてが意味するのは、エッジ知能──限られたハードウェア上でデバイス上で実行されるリアルタイムの物理AI──がますます重要になっているということだ。長期的知能やおそらくより高次の計画などの他のものはクラウドで実行できるが、人間の空間で動く重い金属物体は、人々がどこに行き、何をするかについての予測と同様に、それ自体でかなり良好な方向感覚を持つ必要がある。

「デバイスに『ちょっと待って、ChatGPTに問い合わせています』と言わせて、10秒後に答えを得るようなことは望ましくありません」と彼女は言う。

代わりに、物理AIは、速度のためのデバイス上処理と、長期記憶とアンビエント知能のためのクラウド計算の組み合わせを調整する必要がある。このハイブリッドアプローチは人間の認知を反映している。最も関連性の高い情報のみが、任意の瞬間に積極的に処理される。

今後を見据えて、シンハ氏はハードウェアがソフトウェアと並行して進化することを期待している。差別化された電力プロファイルと計算経路を持つ物理AI用に最適化されたカスタムチップは、ロボットやウェアラブルが普及するにつれて不可欠になる。しかし、特殊なシリコンがあっても、現実世界のAIの鍵は生の計算能力ではない。それは効率性、文脈、空間理解だ。

物理AIのラストマイル──デジタルシミュレーションから現実世界の行動への移行──は、言語モデルや生の計算能力だけでは解決されないという考えだ。代わりに、人間が当たり前だと思っているのと同じシームレスな直感で、物理世界を見て、理解し、行動するアーキテクチャが必要になる。

そして、それは高い要求だ。

私たちの会話の完全な記録はこちら

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事