【重要】会員機能一時停止とサイトメンテナンスのお知らせ

AI

2026.07.01 08:39

なぜヒューマノイドロボットは実験室から出られないのか──物理AIの訓練データ問題

Adobe Stock

Adobe Stock

生成AIには、ウェブが待っていた。物理AIは現実世界で、一つひとつの失敗や転倒を通じて訓練データを獲得しなければならない。これこそが、多くのヒューマノイドロボットが実験室に閉じ込められている理由だ。

ヒューマノイドロボットのデモ動画を十分に見ていると、編集の跡に気づき始める。ロボットが洗濯物を扱い、より雑然とした2回目の試行の前に映像が終わる。別のロボットが飲み物を注ぎ、そして映像は次に移る。

決して見ることがないのは、機械が取っ手を外し、カップを潰し、あるいは箱が5センチずれていたために固まってしまう場面だ。こうした瞬間がカットされるのは、恥ずかしいからではない。それが問題の本質だからだ。AIは、マグカップを確実に拾い上げることを学ぶ前に、文章を書き、要約し、コードを生成することを学んだ。物理AIのボトルネックは知能ではない。経験なのだ。

生成AIにはウェブがあった

ロボットと比較して、言語モデルには1つの巨大な利点があった。ウェブがすでに存在していたのだ。何兆もの言葉が、目に見える場所に置かれ、人類が意図せずに数十年かけて書き上げたコーパスだった。最先端モデルをそれで訓練することは困難で高額だったが、最初のエンジニアが現れる前から原材料は存在していた。誰もそれを製造する必要はなかった。彼らはそれを収集し、クリーニングした。この単一の事実が、言語モデルが急速にスケールした一方で、ロボットがいまだにマグカップ、シャツ、棚、階段と格闘している理由を説明している。

物理AIには独自のインターネットがない

手のためのウェブは存在しない。滑り落ちる皿をキャッチしたり、傾いた箱の山を安定させたりする感覚運動の混乱を、インターネット規模で捉えた者は誰もいない。この種のデータをプールする最大のオープンな取り組みであるOpen X-Embodimentには、22のロボット実体と527のスキルにわたる100万以上の実際のロボット軌跡が含まれている。ロボット工学にとって、これは画期的だ。インターネット規模のテキストと比較すると、それは微小だ。そして、これらの軌跡の1つひとつは、実際の実験室で実際の機械によって物理的に実行されなければならなかった。

だから彼らは手作業でコーパスを構築している

業界の答えは力技だ。企業は遠隔操作ファームを運営し、人々がVRリグや外骨格を装着してロボットを操縦し、同じ退屈なタスクを何度も繰り返し、すべての動作を訓練データとして記録する。少し考えてみてほしい。人間がロボットを何千回も遠隔操作しているのは、最終的にロボットが人間を必要としなくなるためなのだ。

シミュレーションはもう1つの半分であり、実際に役立つ。エヌビディアなどは、ロボットが一晩で何百万回もタスクを練習できるようにし、曲がったグリッパーや落下した在庫から解放する。しかし、シミュレートされた摩擦は、実際のものの近似値だ。変形可能な物体、雑然とした棚、悪い照明、破れたラベル、へこんだカートン。この日常的な混乱こそ、シミュレーターがいまだに苦戦している場所だ。少しきれいすぎる世界で完璧なロボットを訓練することはできる。物理学は、その差を床に集める。

ハイライトリールが省略しているこれらの展開で私が見てきたものは次のとおりだ。ロングテールこそがロボットが壊れる場所だ。機械はデモ全体でほぼ完璧に見えても、実際の倉庫ラインを停止させる退屈なエッジケースで失敗する可能性がある。

デモを見る代わりに尋ねるべきこと

だから購入の質問を変えよう。デモが良く見えたかどうかではない。今やすべてのデモは良く見える。システムの背後に何時間の実世界のタスクデータがあるのか、そして演出されたケースではなく、雑然としたエッジケースでどのようなパフォーマンスを発揮するのかを尋ねよう。人間がどのくらいの頻度で介入するのか、そしてそのスムーズなパフォーマンスのどれだけが遠隔操作、スクリプト化されたリセット、またはロボットを引き立てるために構築された制御された環境に依存しているのかを尋ねよう。

この区別が重要なのは、経営幹部がソフトウェアを評価するのと同じ方法でロボットを評価する傾向があるからだ。彼らはモデルが賢くなっているかどうかを尋ねる。より良い質問は、システムが実際の環境を生き延びるのに十分な環境を見てきたかどうかだ。倉庫、病院、キッチン、工場はベンチマークではない。それはワークフローのふりをした例外の山だ。

これらのどれも、ヒューマノイドが来ないことを意味するものではない。それは、タイムラインがプレスリリースよりも、退屈で反復的なデータ収集に依存していることを意味する。ウェブをスクレイピングすることが決してそうでなかったような、遅く、物理的で、高価な方法で。調達された資金は、投資家が何が起こることを望んでいるかを教えてくれる。データ時間は、ロボットが実際に何を経験してきたかを教えてくれる。言語は読むことで解決された。動きは、一つひとつの失敗や転倒を通じて獲得されなければならない。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事