AI

2025.11.05 16:00

AI、次のブレイクスルーは「ゲームを通じた学習」から生まれる可能性

Shutterstock.com

Shutterstock.com

一部の研究者たちは、AIデザインにおける次のブレイクスルーは、ウェブのスクレイピングやユーザーデータの購入からではなく、ゲームを通じた学習から生まれると考えている。

ゲーミフィケーションは、未知の状況に対応し、オープンなシミュレーション環境で協力し合える高度なAIエージェントを構築する最も効果的な方法かもしれない。そこでは、AIが安全に探索し、実験し、「枠を超える」ことができる。

これは前例のないことではない—現代のAI産業はゲームに多くを負っている。NVIDIAはQuake用のグラフィックプロセッサを製造することから始まり、並列処理とAIに革命をもたらした。Quakeの創設者であるジョン・カーマックは、伝説的な強化学習の専門家リッチ・サットンとともに、アタリをプレイできるロボットの開発に取り組んでいる。デミス・ハサビスはDeepMindを設立する前はゲーム開発者として活動し、その後チームとともに世界最高の囲碁プレイヤーを開発し、そのアルゴリズムを応用してAlphaFoldでバイオサイエンス研究を急速に加速させた。そしてOpenAIは? ChatGPTの前は、単にエージェントにDota 2をプレイさせたり、ルービックキューブを解くロボットハンドを作ったりして楽しんでいただけだった。

遊びを通じてAIに教えることは、単に楽しむためだけではない。それは将来のインテリジェントシステムを理解し、関与し、制御するための鍵なのだ。

実践からの学習

現代のLLMトレーニングのパラダイムは、ウェブスケールのデータで基本モデルを訓練し、専門家が作成した指示でチューニングし、ユーザーフィードバックに基づいてさらにチューニングするというものだった。OpenAIのo1モデル、そしておそらくより重要なDeepSeekのオープンソースR1モデルのリリース以降、モデル改善の方法として強化学習が重視されるようになった。LLMベースのエージェントは複雑なタスク(例えばコーディング)を実行し、多くの試行の結果をレビューし、ランク付けし、より良い結果を好むように学習できる。

特に長時間実行される難しいタスクでは、ランキングシステムの設定が非常に困難な場合がある。ゲームは現実の多くの不確定要素を取り除き、エージェントが何かを正しく行ったときの明確な信号を提供する。どのエージェントが最短時間で正確にタスクを完了したかを測定するのは簡単で、人々がメッセージに応答するのを待ったり、現実が等速で進行するのを待ったりすることなくシミュレーションを実行できる。

次ページ > AIは目標、境界、社会的ルールを持つ「おもちゃの世界」に置かれ、そこから学ぶことができる

タグ:

advertisement

ForbesBrandVoice

人気記事