強化学習においてコンピュータは数千回や何百万回にも及ぶ試行錯誤を繰り返し、正しい答にたどり着くシミュレーションを行う。このアプローチでDeepMindは、囲碁の世界チャンピオンのイ・セドルを打ち負かす偉業を成し遂げ、ロボティクス分野にその知見を投入しようとしている。
一方でカリフォルニア州本拠の小規模なAIスタートアップ「Bonsai」は、また別のアプローチでDeepMindに対抗しようとしている。Bonsaiは“コンセプトネットワーク”と呼ばれる手法で、強化学習の効率性を劇的に高めようとしている。
Bonsaiの研究チームは直近のリポートで、コンセプトネットワークを通じ課題を複数のステップに分割する方法にふれた。例えば、ロボットにブロックを拾い上げ、それを積み上げる動作を学習させる場合、そのタスクは「接近する」「向きを変える」「つかむ」「移動する」「積み上げる」の5つに分類できる。
ロボットはこれらの5つの動作を統合的に完了する必要がある。Bonsaiはこれらのタスクを個別に学習させた後、一連のタスクとして組み上げた。
課題を分割処理することで、ロボットが各過程において達成すべきタスクが明確になる。「接近したり、移動するタスクはディープラーニングを用いずとも、従来のコントローラーでこなせるものだ」とBonsaiのCEOのマーク・ハモンドは述べている。
つまり、「接近」や「移動」に関してはシミュレーションを重ねる必要がなく、その分の時間が節約できる。空いた時間をより高度なタスクのトレーニングにあてられるのだ。
DeepMindも強化学習について類似したアプローチをとっているが、Bonsaiのそれは彼らより劇的に効率性を高めている。ブロックをつかみ、積み上げるという動作を学習させる過程でDeepMindのシステムは100万サイクルの動作が必要だった。一方でBonsaiのシステムの場合は同じタスクを行うために、2万2000回のサイクルで済んだという。
強化学習はAIの進化に欠かせないトレーニングメソッドとなった。グーグルはDeepMindの強化学習テクニックを自社のデータセンターのメンテナンスに活かし、サーバの冷却にかかるコストを40%削減した。
Bonsaiは大規模な工場向けのシステム開発に注力し、同社のAIシステムを風力発電所や工場の冷暖房システムに導入しようとしている。
「工業分野では様々な面で、我々のテクノロジーが適用出来る。我々はAIの最先端技術を様々な施設に投入しようとしている」とBonsaiのハモンドは述べた。