目標は、「本質的には何でもできる」汎用ロボット
目標は、「本質的には何でもできる」汎用ロボットだ。
言い換えれば、ApptronikのApolloは、箱を持ち上げたり、工場であらかじめプログラムされた単純な動きを繰り返したりするだけの存在ではない。人間が暮らす、散らかりがちで予測不能な世界――弁当を詰め、洗濯物を仕分け、見知らぬ容器を開け、さらにはこれまで見たことのない物体やタスクを与えられても、破綻なく対応する世界――を動き回るよう訓練されている。
最新のハードウェアとソフトウェアは、そうした可能性を示すうえで、はるかに説得力を増している。Figureは、滑らかで優雅に動くヒューマノイドロボットを披露しており、同時に、食器を食器洗い機に入れたり、買ってきた食料品を片付けたりといった、典型的な家庭内の課題に対処する様子も見せている。この2年間で開発のペースは大きく加速しており、その背景には、より高性能なAI、改良されたハードウェア、そして低価格化したコンポーネントの存在がある。
実世界でも再現性を示せるようになると、重大な意味を持つ
今回の最新の実験室ベースのデモが実世界でも再現性を示せば、それはかなり重大な意味を持つことになる。DeepMindとApptronikは、高品質なヒューマノイドハードウェアとファウンデーションモデル(基盤モデル)による知能を融合させ、最小限の再訓練で幅広い日常的な物理タスクをこなせる汎用ロボットを実現しようとしている。その結果として生まれうるのは、長らく思い描かれてきた「汎用ロボットワーカー」だ。つまり、指示を理解し、複数ステップから成る手順を計画し、新しい物体にも適応し、人間に近い器用さでタスクを実行できる、コスト効率の高い機械である。
もっとも、その「器用さ」の部分については、過度な期待は禁物だ。ロボットはまだそのレベルには程遠い。この動画でグーグルが披露した、食パンをチャック付きポリ袋に入れるデモはそれ自体としては見事だが、よく見ると、ロボットは袋を実際には密封していないことに気づくだろう。袋の口をきちんと閉じるというのは、人間でさえときどき苦労するほど、驚くほど難しい作業なのである。
今回達成した4つの要素、課題はタスクをこなす速度
それでも、Google DeepMindのAIを搭載したApolloは、少なくとも次の4つを達成している。
・器用さ:ポテトチップスの袋のような標準化されていないアイテムを、繊細に操作できること
・汎化:これまで見たことのない物体であっても、正しく扱えること
・自然言語による制御:「緑のブロックをオレンジ色のトレイに入れて」といった、高度な世界モデルを前提とする音声コマンドに従えること
・長期的な計画:タスクを達成するために、複数のステップを見通して計画できること
とはいえ、道のりはまだ長い。ヒューマノイドロボットがタスクをこなす速度は、さらに高まる必要がある。現状では、物体を扱ったり作業したりしているとき、どのロボットもスローモーションで動いているように見える。そのためには、関節や筋肉(アクチュエーター)、制御システムなど、より優れたハードウェアが求められる。
より少ないデータで、より効率的に学習できる訓練手法
加えて、より優れた訓練手法も必要だ。
「こうしたロボットがこれらのタスクを学ぶには、非常に多くのデータが必要になります」と、Google DeepMindでロボット部門のディレクターを務めるカニシュカ・ラオはいう。「ですから、より少ないデータで、より効率的に学習できるようにするブレークスルーが必要なのです」。
ここで挙げられているデータとは、対話データと操作データであり、ロボットの頭脳が取り込み、それまで直面したことのないタスクをこなす方法を学ぶために利用できるデータのことだ。
そして最後に、当然ながら、人間の生活環境で安全に使えることが保証されなければならない。そこでは、子どもを含む人々や、ペットと遭遇する可能性がある。
もちろん、おばあちゃんの大事な高級食器も守らなければならない。


