2026.07.04 10:13

思考するAIから行動するAIへ──フィジカルAI時代の幕開け

Robert J. Szczerba | Contributor

著者フォロー

記事を保存

stock.adobe.com

ChatGPTが主流に躍り出て以来、AIブームの大半は四角い枠の中で起きてきた。チャットウィンドウ、検索バー、コーディング支援ツール。モデルは言葉やコード、画像を扱う能力を劇的に高めたが、それでも多くは、ある画面から別の画面へ情報を移し替えているに過ぎない。次のフェーズはより難しい。主眼はチャットボットをいっそう流暢にすることではない。物理世界で「知覚し、判断し、行動する」AIである。最も印象的なロボットデモを投稿した者が勝つのではない。協力的でない場所でも機械を確実に動かせる者が勝つ。

この違いこそがすべてである。フィジカルAIは、モデルが賢くなるだけではスケールしない。その下にある地味な課題、すなわち現実世界のデータ、確実な動作、安全性、稼働率、そして商用化を企業が解決したときにスケールする。

AIはガラスの向こうに閉じ込められてきた

多くの人にとって、AIはいまだガラスの向こう側にある。メールの下書きを作り、文書を要約し、関数を書く。その段階は現実であり価値もあるが、やっているのは情報の移動だ。フィジカルAIが動かすのは原子である。製品、工具、車両、倉庫、工場、病院、家庭に触れる。

ソフトウェアが行動しなければならない瞬間、賭け金は変わる。チャットボットの誤答は煩わしいだけで済む。しかしロボットの誤った動作は、生産ラインを止め、積載物を損傷し、隣に立つ人を傷つけかねない。物理世界は甘い採点をしないし、「自信満々の推測」を許さない。

ロボットはインターネットを読めない

言語モデルには歴史上まれな贈り物があった。公共のインターネットと、ほかの膨大なデジタルコーパスだ。数兆語がすでに書き残され、スケールして利用可能だった。フィジカルAIには同等のものがない。濡れたコップのつかみ方、中央がたわむ箱の下ろし方、タオルのたたみ方、高齢者を椅子から立ち上がらせる手助けの仕方。そうした知識のスクレイピング可能なアーカイブは存在しない。その知識は接触、摩擦、重量、動き、雑然さ、失敗の中に宿っており、その大半は記録されたことがない。

したがって制約は知能だけではない。ロボットはコップを認識できても、持ち上げに失敗することがある。指示を理解できても、間違った動作を選択することがある。ラボでは完璧にこなしても、照明が変わったり、床が傾斜していたり、作業員が進路に入ったりすると、倉庫では破綻することがある。ロボットはインターネットを読めない。これこそが真の問題だ。

だからこそ、ワールドモデル（世界モデル）や合成データをめぐる現在の推進が重要になる。例えばNVIDIAのCosmosモデルは、物理的にもっともらしいシミュレーション上の経験と合成トレーニングデータを生成するよう設計されており、ロボットや自律システムがすべての教訓を「痛い方法」で集めなくても済むようにする。フィジカルAIに、言語モデルが得ていたものに近い何かを与えようとする本格的な試みだ。ただし、シミュレーション上の経験は配備時の経験と同じではない。本当の優位は、シミュレーション、現実運用、そしてフリート学習（運用機群を通じた学習）を1つのループとして接続することから生まれる。

デモはまたあなたをだます

ここで誇大宣伝は危険になる。Tesla、Figure、あるいは別のロボティクス企業による洗練されたヒューマノイドのデモは、好条件下で機械が一度タスクを実行できることを示し得る。それはマイルストーンであって、ビジネスではない。本当の問いは、そのタスクを何千回も、異なる拠点で、しかもその機械を前提に業務を組み替えることが正当化されるコストで実行できるかどうかである。

勝つ企業は、配備するすべての機械を学習手段として扱う。1台のロボットが孤立して改善しても限界がある。多数拠点・多数タスク・多数の失敗をまたいで学ぶフリートは複利で効き、各配備が次の配備をより良くする。その瞬間、フィジカルAIは従来型の自動化に似たものではなくなり、ソフトウェアのように振る舞い始める。Waymoは最も分かりやすい例の1つだ。同社の進歩は、1つの完璧なデモから生まれたのではない。エンジニアが台本を書けないような稀で厄介な状況を露出させた、長年の実走行と、1億マイル超の完全自動走行距離から生まれた。堀をつくるのはデモではなく、回転するフライホイールである。

ボトルネックは認知ではなく商用化にある

フィジカルAIは、誇大宣伝よりも遅れて到来する。ハードウェアは容赦がないからだ。機械は製造し、出荷し、設置し、保守し、保険を付け、サービスしなければならない。バッテリーは劣化し、アクチュエーターは摩耗し、センサーはドリフト（経時変動）し、あらゆる安全要件が満たされ続けねばならない。顧客は抽象的な自律性を買うのではない。稼働率、処理能力、人手不足への依存低減、リスク低下、品質向上を買う。

したがって第1波は、何でもこなす汎用ロボットではない。経済的に意味のある仕事を、価値が高く、学習できる程度に反復があり、リスク管理が可能なほど制約され、そして誰かが対価を払うほど痛みがある場所で担う、特化型システムである。倉庫、工場、検査、農業、防衛ロジスティクス、インフラ保守、そして慎重に範囲を限定した医療タスクだ。そして勝者は純粋なソフトウェア企業のようには見えない。AIとロボティクスの人材、製造の規律、フィールドサービス、安全工学、データ基盤を、同じ屋根の下に揃える必要がある。フィジカルAIをモデルの問題として扱うチームは、配備の問題として扱うチームに敗れる。

AIはデジタル世界を読むことで思考を学んだ。物理世界を変えるには、触れることで学ばなければならない。それは、モデルのスケーリングをもう一段回すよりも、遅く、難しく、高価である。この波を見極めようとするなら、手がかりはデモ映像ではない。企業が現実世界のデータを収集できるか、混沌とした現場をまたいで信頼性を証明できるか、そして販売後も機械を稼働させ続けられるかどうかだ。次の本格的なAI価値の波は、そうした地味な仕事の中で築かれる。

（forbes.com 原文）