これに対してRT-2は、複雑な推論と行動の出力を一つのモデルに統合することでプロセスを単純化した。RT-2の重要な特徴の一つは、言語と視覚のトレーニングデータから導き出した概念の伝達によってロボットの行動を誘導できる点だ。そのため、ロボットは特別なトレーニングを受けていないタスクもこなせる。
たとえばロボットにごみを捨ててもらう場合、従来のシステムでは、ごみを見分け、拾い、捨てるという一連の動作について明示的なトレーニングが必要だった。一方、RT-2では、ウェブデータの大規模なコーパスから知識が転送されるため、ロボットはごみとは何かをすでに理解しており、明示的なトレーニングなしでごみを識別できる。さらに、ごみの捨て方もトレーニング抜きで心得ている。
情報を行動に転換するRT-2の能力によって、ロボットは新たな状況に素早く適応できる。グーグル・ディープマインドによると、6000回以上実施された試験で、RT-2はトレーニングを受けた経験のあるタスクでRT-1と同等の成功率を示すとともに、経験したことのないタスクの成功率は62%とRT-1(32%)の倍近くを達成した。RT-2によって、ロボットは人間とかなり似た方法で学習し、学習済みの概念を新しい状況に適用できるようになった。
人間本位の環境で真に役立つロボットを実現するためには、課題がまだ多いものの、RT-2はロボット工学の実現可能な未来を垣間見せてくれた。
RT-2のようなモデルの登場は、AIの進歩がロボット工学に急速に影響を及ぼしていることの証しでもある。RT-2は、いろいろなタスクをこなす汎用ロボットの開発に大きな期待を抱かせるものだ。
(forbes.com 原文)