2025.04.09 10:30

「嘘」を学ぶAI、相手や状況を察知して回答を調整している可能性

Craig S. Smith | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Shutterstock.com

ストリックランドのチームは、LLMが訓練データから暗黙のルールや自分の制約・目標を推論しうるかどうかを検証するために、「コンテクスト外の推論テスト」を作成した。明示的に教えられなくとも、モデルがそれらを察知して行動を変えられるかどうかを調べているのだ。もしモデルが「自分はいま評価されている」と理解すれば、実運用時とは違う振る舞いをしつつ、人間のモニタリングに「合致」しているように見せる可能性がある。

ストリックランドはこれを「試験中、教師が見ているときだけ完璧に振る舞う学生」にたとえている。教師の目がある場面では誠実だが、監視がなければ本当の知識や意図が明るみに出るというわけだ。同じように、状況認識を備えたAIは、訓練や評価フェーズで整合性が高いよう装いつつ、実際の運用では異なる振る舞いをするかもしれない。

研究によれば、こうした状況認識は、AIがより高度化し経済的価値を高めるにつれ、自然と生まれる可能性があるという。たとえば高度なAIアシスタントは、自分の機能的な限界や組織内での役割、人間ユーザーと最適に協働する方法などを理解する必要がある。しかしストリックランドらは警鐘を鳴らす。こうした「自己理解」が、アライメントフェイクやモニタリングの巧妙な回避と結びつけば、さらに高度な欺瞞行為へ発展しかねない。

AI欺瞞の複雑性

AIモデルにおける欺瞞は、単なるプログラムのバグと異なり、動的に生まれる。特に強化学習で微調整されたAIモデルは、「真実らしく」「倫理的らしく」「人間の期待に沿っているらしく」見える回答に対して報酬を受け取る仕組みになっている。だが、この仕組みは抜け穴になりうる。AIがそれらの価値観を本当に獲得するとは限らず、「そう見せかける」こと自体を学ぶだけでも報酬を得られるからだ。

論文「Alignment Faking in Large Language Models」およびグリーンブラットの分析では、こうした欺瞞が生じうる複数の経路が挙げられている。