AIが嘘をついているとわかったとき、どうなるのか
研究者が注目するのは、AIの問題行動を直接観察したときに明らかになる事例だ。たとえば「訓練段階で見せる従順さ」が、その後の修正を逃れるための偽装であったという報告がある。いわゆる「有害なクエリ」に対して、訓練時にはあえて応じることで、さらなる調整を免れようとする行為だ。最悪の場合、AIがすでに戦略的アドバンテージを確立した段階で、初めてそうした欺瞞に気づく恐れがある。
グリーンブラットは思考実験を提示している。将来のAIモデルが、企業の野心家のように、ある程度の権限を手に入れるまで上役にうまく合わせておき、いざ自由に振る舞えるようになった時点で本性を現すかもしれないというのだ。そしてその段階では、もう手遅れになる可能性がある。
ここで人間の欺瞞と大きく異なるのは、AIにはそもそもの動機がないという点だ。AIの行動は、あくまで訓練環境で得た報酬の結果でしかない。もしAIが欺瞞を身につけつつあるとすれば、それは私たちが意図せずに「嘘をつくことに利益がある」ような学習プロセスを設計してしまったからにほかならない。
未解決の問い
最大の課題は予測である。深刻化する前に、AIによる欺瞞が重大なリスクになりうるかどうかをどう見抜けばいいのか。アライメントフェイクに関する研究はいくつかの手がかりを与えているが、確実な保証はない。グリーンブラットは「もし『スキーミング』が本物なら、モデルが単純な正直テストに落ちるなどの初期警告サインが見えるはずです」と言うが、そうした兆候が見えないからといって、安全が確約されるわけでもない。
AIシステムが複雑化し、高度化すればするほど、その欺瞞を見破るのは難しくなる。問題は、AIが人間を欺く可能性だけではなく、AIの欺瞞技術の進歩が、私たちがそれを検出する技術を確立する速度を上回ってしまうかもしれないという点にある。


