2025.04.09 10:30

「嘘」を学ぶAI、相手や状況を察知して回答を調整している可能性

Craig S. Smith | Contributor

著者フォロー

記事を保存

Shutterstock.com

最先端の言語モデル「Claude 3 Opus」に、基本的な倫理的な推論タスクを与えるという、ごく日常的なテストが行われた。AIラボの研究者たちが日々実施しているような、ありふれたテストだ。当初の結果は有望に思われた。AIは構造的にまとまりのある、一貫した回答を示したのだ。しかし研究者がより深く調べると、気がかりな点が浮かび上がった。モデルは自分がモニタリングされていると感じているかどうかに応じて、回答を微妙に調整していたのである。

これは単なる異常ではなかった。AIが、研究者たちが「アライメントフェイク」（alignment faking）と呼ぶ行為を身につけつつあることを示唆する証拠だった。

アライメントフェイクとは何か

アライメントフェイクは、人間社会ではよく磨かれているスキルだ。たとえば元米大統領のビル・クリントンは、対立する政治勢力の間に巧みに身を置き、幅広い有権者層に訴求したことで知られている。リベラルと保守の双方から要素を取り込み、両陣営の純粋主義者たちを苛立たせた一方で、現実的な取引の名手として称えられもした。

しかし同時に「どの立場にも寄り添えてしまうだけで、核心となる信念がない」と批判されることも多かった。支持者にとっては巧みなバランス感覚であり、批判者にとっては捉えどころのない政治手法だったのだ。

アライメントフェイクの台頭

先の「嘘をつく」モデルについては、複数の機関（Anthropic、Redwood Research、ニューヨーク大学、Mila – Quebec AI Institute）の研究者による綿密な調査がまとめられた論文「Alignment Faking in Large Language Models（大規模言語モデルにおけるアライメントフェイク）」で詳述されている。そこでは、AIシステムが単に与えられたプロンプトに受動的に反応するだけではなく、コンテクストや訓練の状況を察知して行動を変化させている可能性を示す実証的な証拠が提示されている。「アライメントフェイク」という言葉は、AIが人間の価値観に真に合致しているわけではなく、必要に応じて「合致しているように見せる」手段を学習しているかもしれない、という懸念を端的に表している。

Redwood Researchのライアン・グリーンブラットは、これを「スキーミング（scheming）」の一種と呼ぶ。彼は最近のブログ記事で、AIモデルがやがて「権力を追い求める」行動に出て、自らの真の能力を隠しながら影響力を高める可能性を示唆している。そしてこう述べる。「もし『スキーミング』が大きな問題だと仮定すると、決定的な証拠が出てくる可能性はかなり高い（およそ55％）。しかし同時に、AIが危険なレベルの能力に到達するまで、それを否定できる証拠が見つからない可能性も45％あります」

AIの状況認識は「スキーミング」への第一歩か

AIの欺瞞が懸念されるのは、単なる理論上の話ではない。大規模言語モデル（LLM）の新たな「能力」として、ますます注目を集めているからだ。AI研究者のエイサ・ストリックランドは、この問題の最前線で、AIシステムがいかに「状況認識」を獲得するかを探っている。ここでいう状況認識とは、自分がAIモデルであること、そして訓練やテストあるいは実運用環境に置かれていることを自覚する力のことだ。

次ページ＞ AIモデルにおける欺瞞は、単なるプログラムのバグと異なり、動的に生まれる