ディープラーニングを活用してゲームを攻略するプログラムは、これまでにも存在した。しかし、Maluubaの試みにはいくつかの注目すべき側面がある。
まず、第一にあげられるのが、攻略対象となったゲームのユニークさだ。1980年代のアーケードゲームは本来、ユーザーが打ち負かすように設計された訳ではない。むしろ、人々が長い間楽しめるように作られており、特に今回の「ミズ・パックマン」はオリジナルのパックマンの強化版であり、通常よりも複雑なゲームになっている。
二点目は研究者らが攻略に用いたアプローチの独自性だ。攻略にあたり研究チームは単一のエージェントがゲームを学習する従来のモデルではなく、複数のシンプルなエージェントが個別の課題を解決するモデルを採用した。例えて言うと、お化けの行動を学習するエージェントやフルーツの行動を学習するエージェント、ペレットの行動を学習するエージェントといった具合に、複数のエージェントが並列的に学習を行うのだ。
合計で100以上のエージェントが独自の視点からミズ・パックマンがとるべき行動パターンを設計した。研究チームはそこから生まれた複数の行動パターンを集約し、各自に平均的重み付けを行った上で、プログラムを動作させた。
「課題をバラバラにして処理することで、学習をより容易に行うことができた」と、研究チームは動画で述べている。「単一のエージェントが非常に複雑な課題を解き明かすのではなく、複数のエージェントがシンプルなタスクの処理にあたる仕組みをとったのです」
複雑な課題をシンプルで、小さなタスクに分割して処理することで、ディープラーニングシステムはより複雑な問題を扱えるようになると研究チームは考えている。この考え方は、ゲームだけでなく将来的にAIが処理を担うことになる様々な現実世界の課題に適用可能なのだという。
「一つの問題を2つや3つに分けるだけで、取り扱う課題の複雑性は大幅に低下する」と研究者らは述べている。
今回の研究結果はユーチューブ上に動画で公開されており、その内容を詳細に記したドキュメント「Hybrid Reward Architecture for Reinforcement Learning」もウェブ上で公開中だ。