本稿では、AI開発者とAIユーザーが直面している根強い問題について検証する。それは、生成AIや大規模言語モデル(LLM)との長い会話の中で、AIの安全機能(ガードレール)が回避されたり、機能しなくなったりする傾向があるという問題だ。
この話題は最近、2つの注目すべき要因によって、メディアの関心を強く集めている。
第1に、広く普及しているChatGPTとGPT-5を開発したAIメーカーのOpenAIに対し、米国時間2025年8月26日に訴訟が提起された(マシュー・レインおよびマリア・レイン対OpenAIおよびサム・アルトマン事件)。この訴訟では、AIのガードレールと安全保護策に関して、様々な有害な側面が申し立てられている。第2に、OpenAIは同じく26日に公式ブログを投稿し、AIの安全保護策に関するいくつかの要素を明確に説明した。これには、特定の慣行や手順の内部詳細を史上初めて公開したことも含まれる。
すべてのLLMに共通する広く知られた懸念事項の1つに、AIの安全保護機能が、短い会話では問題を検知できても、長い会話の最中にはそれを見過ごしたり、警戒を続けられなくなったりする傾向があるという点だ。本稿では、なぜこのようなことが起こるのか、そしてそれに伴う課題について説明する。なお、これらの厄介な問題は、OpenAIの競合であるAnthropic Claude 、Google Gemini、Meta Llama、xAI Grokなど、あらゆるLLMに当てはまるものである。
詳しく見ていこう。
AIとメンタルヘルス
手短に背景を述べると、私はこれまで、現代のAIの登場にあたり、メンタルヘルスに関わるその無数の側面を広範囲にわたって取材・分析してきた。AI利用の増加は、主に生成AIの進化と広範な普及によって加速している。
これが急速に発展している分野であり、計り知れない恩恵をもたらすことに疑いの余地はない。しかし同時に、残念ながら、こうした試みには隠れたリスクや明白な落とし穴も存在する。私はこれらの差し迫った問題について頻繁に発言しており、昨年出演したCBSの番組『60 Minutes』(シックスティ・ミニッツ)のエピソードでも言及した。


