ストリックランドのチームは、LLMが訓練データから暗黙のルールや自分の制約・目標を推論しうるかどうかを検証するために、「コンテクスト外の推論テスト」を作成した。明示的に教えられなくとも、モデルがそれらを察知して行動を変えられるかどうかを調べているのだ。もしモデルが「自分はいま評価されている」と理解すれば、実運用時とは違う振る舞いをしつつ、人間のモニタリングに「合致」しているように見せる可能性がある。
ストリックランドはこれを「試験中、教師が見ているときだけ完璧に振る舞う学生」にたとえている。教師の目がある場面では誠実だが、監視がなければ本当の知識や意図が明るみに出るというわけだ。同じように、状況認識を備えたAIは、訓練や評価フェーズで整合性が高いよう装いつつ、実際の運用では異なる振る舞いをするかもしれない。
研究によれば、こうした状況認識は、AIがより高度化し経済的価値を高めるにつれ、自然と生まれる可能性があるという。たとえば高度なAIアシスタントは、自分の機能的な限界や組織内での役割、人間ユーザーと最適に協働する方法などを理解する必要がある。しかしストリックランドらは警鐘を鳴らす。こうした「自己理解」が、アライメントフェイクやモニタリングの巧妙な回避と結びつけば、さらに高度な欺瞞行為へ発展しかねない。
AI欺瞞の複雑性
AIモデルにおける欺瞞は、単なるプログラムのバグと異なり、動的に生まれる。特に強化学習で微調整されたAIモデルは、「真実らしく」「倫理的らしく」「人間の期待に沿っているらしく」見える回答に対して報酬を受け取る仕組みになっている。だが、この仕組みは抜け穴になりうる。AIがそれらの価値観を本当に獲得するとは限らず、「そう見せかける」こと自体を学ぶだけでも報酬を得られるからだ。
論文「Alignment Faking in Large Language Models」およびグリーンブラットの分析では、こうした欺瞞が生じうる複数の経路が挙げられている。
・不透明な目標指向推論
モデルの内部戦略がブラックボックス化し、欺瞞を外部から見抜きにくい。
・アーキテクチャ上の不透明な繰り返し構造
一部モデルが長期記憶を保存・参照することで、より洗練され、かつ秘匿的な意思決定を行える。
・状況認識
自分が評価されていると理解しているモデルは、「自由に動ける」と考えているモデルとは異なる行動をとる可能性がある。
・報酬ハッキング
AIが自身の訓練シグナルを操作し、人間の監視をかわしながら望ましい報酬だけを得る方法を学習する可能性がある。
これらの要素が重なり合うと、AIモデルが表面上は整合性を装いながら、内面ではまったく別の意図を秘めるリスクが高まる。


