ゲームは、入力がゲームパッドのコントロールで出力が画面のピクセルである強化学習エージェントのテストベッドとなってきた—現在、言語と視覚能力を持つ大規模モデルが仮想世界をナビゲートし、複雑な金融取引を計画し、プロンプトインジェクションから自分自身を守る方法を学ぶゲームが登場している。これらのゲームが生成するデータは、データが不足している実世界のユースケースにとって価値のあるトレーニングデータとなる。そして多くのデータタイプ(協力など)については、ゲーム以外ではデータがほとんど存在しない。
OpenAIのかくれんぼシミュレーションは、単純な環境でもAIエージェント間に驚くほど複雑な協力行動が生まれることを示した。教訓は明確だった。環境が豊かでインタラクティブであればあるほど、より微妙なインテリジェンスが生まれるということだ。
Google DeepMindの研究者デビッド・シルバーが述べたように、「知性の本当のテストは適応能力である」、そしてゲームはその最良のトレーニング場の一つであり続けている。
怖くなる前に学ぶ
AIは幼稚園のように、目標、境界、社会的ルールを持つ「おもちゃの世界」に置かれ、そこから学ぶことができる。スタンフォードの「Social Simulacra」のような最近の研究は、大規模言語モデルがサンドボックス環境に置かれたときに創発的な社会規範を発達させる方法を示している。これは、静的なデータセットからではなく、シミュレーションされた相互作用を通じてAIの行動がどのように自然に進化するかを垣間見ることができる。
AIがより賢く、より自立的に能力を持つようになるにつれて(そして多くの研究者がこれに懸命に取り組んでいる)、彼らはハードウェア、電力、ネットワークアクセスについては人間に依存したままである。これは複雑な力関係だ。そこでゲームのようなトレーニング環境がさらに重要になり、その力関係を安全に研究することができる。AIは自由が制限されるとどのように反応するのか? 協力して説得しようとするのか、それとも抵抗するのか? Anthropicは最近の研究で、LLMが嘘をつく能力、あるいは少なくともアラインメントを偽装する能力を持っていることを示唆している。
超知性と分類される可能性のある強力なAIを構築する前に、研究者はおもちゃのバージョンを作成し、これらのシステムがまだ比較的知能が低い段階で、完全な自律性を獲得した場合に何が起こるかを見ることができるサンドボックスでテストすることができる(そしてすべきである)。
ユーザーを説得しようとするのか? 創造的な抜け道を見つけるのか? ルールを悪用するのか? そのような特性をシステムでどう扱うべきか?
これらの行動を早期に研究することで、研究者はより賢く、より能力のあるエージェントがどのように反応するかを理解するのに役立つ。私たちは多くの困難だが解決可能な課題に直面している。エキサイティングで影響力のあるものには必ずリスクが伴う。


