「信頼できるヘルパーとしてのロボット」というコンセプトは長年夢想されてきたが、その未来的なビジョンとは裏腹に、なかなか実用化されず、どちらかといえばSFの世界のものにとどまってきたのが実情だった。
そこに登場したのが、グーグル傘下のAI研究部門グーグル・ディープマインドが発表した最新の視覚言語行動(VLA)モデル「ロボティック・トランスフォーマー2(RT-2)」だ。今後、ロボット工学という領域自体を再定義しそうなブレークスルーである。
VLAモデルのパイオニアであるRT-2は、深層学習技術「トランスフォーマー」を用いて開発され、ウェブから収集したテキストや画像でトレーニングされる。画期的なのは、ロボットの行動を直接出力できるという点だ。RT-2は基本的に、一般的な概念や考え方をウェブデータから学習し、その知識を適用してロボットの行動に情報を与える。ロボットはこうして動作に関する言語を理解したり、応答したりできる。
実世界でのロボットの学習はかねて大きな課題だった。変化の多い環境でロボットが一般的なタスクをこなすためには、ロボットは複雑で抽象的なタスク、とりわけ過去に出くわしたことのない環境に対応できなくてはならない。チャットボットと違って、ロボットは実世界との接地(グラウンディング)が必要になる。言い換えると、ロボットは抽象概念を理解するだけでなく、それを実際の文脈に適用する方法も心得ていなければならない。
これまで、ロボットのトレーニングには実世界のあらゆるものや状況の膨大なデータポイントが必要だった。時間も経費もかかり、イノベーターにとって実施不可能な場合も多かった。つまり、ロボットの学習はきまって、たいへん骨の折れる仕事だった。
RT-2によるロボットのトレーニング方法は、こうした従来のやり方からの大転換になる。もともとロボット技術の最近の進展によって、ロボットの推論能力や多段階問題の分析能力は向上していて、「PaLM-E」のような視覚言語モデル(VLM)のおかげでロボットが周囲の状況を理解する能力も高くなっている。また、前モデルのRT-1など先行のVLAモデルによって、システム間の情報の汎化(一般化)能力で知られるトランスフォーマーが、さまざまなロボットで学習を促進できることも証明されていた。