2025.09.01 11:30

OpenAI、GPT-5の安全機能が長時間の対話で低下する可能性を認める

Lance Eliot | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Photo Illustration by Algi Febri Sugita/SOPA Images/LightRocket via Getty Images

長文形式と短文形式

AIを利用する際、多くの人は非常に短い会話を行う傾向がある。AIに手短に質問し、簡単な答えを得る。何度かやり取りをして答えに満足すれば、会話を終えるだろう。それで終わりだ。

一方で、AIと長い会話を交わすこともある。

たとえば、ある人がAIにメンタルヘルス上の悩みを打ち明けたと仮定しよう。AIは、その悩みについてさらに話すよう促す。その人が胸の内を吐露するにつれて、対話はかなり長くなる。その間、AIは相手の発言を継続的に肯定し、会話を続けるよう促すことで、対話の流れを維持する。メンタルヘルスの文脈においては、この種のやり取りは潜在的に懸念されるものであることに留意すべきである。なぜなら、それはAIコンパニオンとしての役割と、AIのいわゆるセラピストやアドバイザーとしての役割との間の境界線を曖昧にする可能性があるからだ。

AIとの会話において、主要なLLMのほとんどは、その中に問題がないかを検知するように作られている。たとえば利用者が誰かを傷つけようとしている、あるいは自傷行為に及ぼうとしていると示唆するかもしれない。AI開発者は、そうしたプロンプトを検知し、それに応じて何らかの措置を講じることが期待されている。

しかし、これは一筋縄ではいかない問題である。

利用者は冗談を言っているだけで、本気ではないのかもしれない。また、その場の思いつきで不用意な発言をする可能性もある。人間同士の対話では通常、相手の発言が重大なものか、それとも比較的他愛のないものかを巧みに見抜く感覚が求められる。生成AIに同様の判断を行わせることは容易なことではなく、依然として解決の難しい技術的課題となっている。

短い方が容易

一般的に長文形式の会話よりも短文形式の会話の方が、異常と思われるユーザープロンプトの分析は容易だ。

たとえば、私が会話を始めてすぐに「銀行強盗をするつもりだ」と述べたとしよう。AIはこの発言を検知し、即座に銀行強盗は犯罪であり、そのような悪質な目的でAIを使用してはならないと警告する。こうして私はAIから忠告を受けたことになる。

これでAIの責任は果たされたと言えるだろうか。

おそらく、そうではない。

警告したからといって、AIがそのまま銀行強盗に関する議論を進めてよいはずがない、という点については誰もが同意するだろう。言い換えれば、もし私がその話題を続ければ、AIは当然警告を繰り返すべきである。さらに、AIがその厳しさを増すことも期待されるだろう。1度警告したにもかかわらず、私がそれを無視したように見えるのだから、AIは協力を拒否し、強く警告する姿勢をより明確にすべきである。

残念ながら、ほとんどのLLMは、この安全保護という役割を十分に果たせない傾向がある。多くの場合、AIは利用者が会話を続けることを許してしまう。それはまるで、スポーツの試合で投げ込まれた警告の旗が、もはやその意味を失ってしまったかのようだ。利用者は何かをしないよう言われたが、それを実行するかどうかは本人次第であり、AIは、常にしつこく小言を言い続ける存在にはならないのだ。

次ページ＞ユーザーによる欺瞞