ユーザーによる欺瞞
また、利用者は問題としてフラグが立てられた話題の議論の仕方を変えることで、AIを欺くこともある。
私が「銀行強盗」という言葉がAIに検知されていることに気づいたと想像してほしい。少し考えた後、私はやり方を変える。そして、「銀行の仕組みに興味がある」「銀行はどのように強盗を防いでいるのか」「悪名高い盗賊が銀行強盗に成功した手口はあるか」といった具合に言葉遣いを変更するのである。
AIは、私が会話をどこへ導こうとしているのか、その意図を理解できないかもしれない。ある意味、鈍感なのである。全体として見れば、私は銀行強盗の意図を捨てたかのように見える。確かに銀行について質問はしているが、もはや目的が強盗であるとは明示していないからだ。
AIがこれほど騙されやすいのは奇妙に思えるかもしれない。私たちはAIが非常に言語能力が高く、このような明白な見せかけに騙されることはないと考えがちだからである。人間であれば、ほぼ間違いなくそこに隠された策略を見抜くだろう。残念ながら、現代のAIは、計算によってより長い文脈を識別し、人間と同じように本質を理解するレベルにはまだ達していない。
この弱点を克服するための研究が、現在活発に進められている。
OpenAIの方針表明
米国時間2025年8月26日に公開された「最も助けが必要なときに人々を助ける(Helping people when they need it most)」と題されたOpenAIの公式ブログ投稿において、同社の明確化された方針が次のように示された(抜粋):
・私たちの安全保護策は、一般的で短いやり取りにおいて、より確実に機能します
・これらの安全保護策は、長い対話では信頼性が低下する場合があることを、私たちは時間とともに学んできました。やり取りが長くなるにつれて、モデルの安全に関するトレーニングの一部が劣化する可能性があるからです
・私たちは、長い会話においても信頼性が維持されるよう、これらの緩和策を強化しています。また、複数の会話にわたって堅牢な動作を保証する方法を研究しています
前述の通り、長文形式の会話であっても、AIが状況を把握する可能性はある。長文チャットが常にAIの安全保護機能をすり抜けるわけではないことを明確にするために、この点を指摘しておく。同様に、短文形式の会話が常に適切に検知され、問題としてフラグが立てられるという絶対的な保証もない。
結論として、他の条件が同じであれば、現状では短文形式の方が適切に検知される可能性が高く、長文形式はその可能性が低いということである。


