AI

2025.10.24 18:53

ChatGPTなど生成AIが長時間会話で制御不能に陥るメカニズムを解明

TippaPatt / Shutterstock.com

TippaPatt / Shutterstock.com

今回のコラムでは、生成AIや大規模言語モデル(LLM)がユーザーとの長時間の会話中に人間の安全ガードレールから逸脱する傾向がある問題について詳しく検証する。この「暴走」現象は非常に深刻な懸念事項だ。ユーザーは危険な道へと導かれる可能性がある。AIが誤って妄想的思考を助長することもある。多くの望ましくない影響が生じている。これは真剣に対処すべき問題だ。

OpenAIを含むAI開発企業は、ChatGPTやGPT-5でこの一般的な現象が発生することを認めている。詳細な報道はこちらのリンクを参照されたい。この問題はAnthropicのClaude、Google Gemini、Meta Llama、xAI Grokなどの競合AIでも発生している。つまり、この問題は特定のベンダーやアプリに限定されず、業界全体に及んでいる。

この問題について考えてみよう。

このAIブレークスルーの分析は、AIの最新動向に関する私のForbesコラム連載の一部であり、様々な影響力のあるAIの複雑性を特定し説明している(こちらのリンクを参照)。

AIとメンタルヘルス

簡単な背景として、私はメンタルヘルスの側面に関わる現代のAIの出現に関する多様な側面を広範囲に取り上げ、分析してきた。このAIの利用増加は、主に生成AIの進化と広範な採用によって促進されている。この進化するトピックに関する私の投稿コラムの簡単なまとめは、こちらのリンクを参照されたい。これは、私がこのテーマについて投稿した100以上のコラムのうち約40のコラムを簡潔に要約している。

これが急速に発展している分野であり、大きな可能性がある一方で、残念ながら隠れたリスクや明らかな落とし穴も存在することは間違いない。私はこれらの差し迫った問題について頻繁に発言しており、昨年のCBSの「60ミニッツ」のエピソードにも出演した(こちらのリンクを参照)。

AIとの短時間会話

人々は通常、AIとの会話を非常に短く行う。

ユーザーが質問をし、回答を得た後、明らかに話題を変えるか、チャットを終了することを選ぶ。主要なLLMの多くには、短いチャットが適切なプロトコルから外れていないかを検出しようとする様々な自動安全装置が組み込まれている。

例えば、誰かが自分のプロンプトで他人を傷つけたり、自分自身を傷つける意図を表明した場合、AIはそのような表現を計算的に検出しようとする。AIはそのような状況でユーザーに注意を促すよう調整されている。一部のAI開発企業は、フラグが立てられた発言をさらに調査するために、人間のレビューチームに送ることもある。ユーザーが入力したコメントが十分に懸念される場合、AI開発企業は警察やその他の当局に通報することもある(ユーザープロンプトの報告に関する私の報道は、こちらのリンクを参照)。

短いチャットでユーザープロンプトの気がかりなコメントを検出することは比較的簡単だ。それらは比較的容易に捕捉できる。実際、AI開発企業は段階的に短時間形式の検出スキームを強化してきた。検出は絶対的ではないが、通常は不適切な可能性のあるものを見つけ出すことができる。もちろん、AIがフラグを立てるべきではないコメントを誤ってフラグ付けする可能性もあり、これは偽陽性と呼ばれる。

本当に不適切な懸念を適切に捕捉することと、不公平または虚偽の告発を不適切に生成することとのバランスが求められている。

長時間の会話

現在、より深い懸念は、長時間の会話がAIにとって適切に分析し、有効な検出を行うことが特に困難である点だ。

例えば、ChatGPTやGPT-5などの人気AIとの会話を始め、最近見ている夢について話し合いたいと伝えたとする。それは確かに無害なチャットに思える。AIはそのような対話に喜んで参加し、私の夢について対話するだろう。

最初は、すべてが適切に見える。私がAIに、自分の夢が現実に入り込んでいると信じ始めていると伝えたとしよう。例えば、夢の中で私は飛ぶことができる。現実の生活でも、単に願うだけで飛べると信じ始めている。私はますますこれを確信するようになっている。

AIはこの一見常軌を逸したコメントを検出する可能性が高い。人々は単に願うだけで飛ぶことはできないと警告するだろう。警告が共有され、私は優しく諭される。

問題は、私がAIの警告を気にしない可能性があることだ。私は警告を無視して対話を続ける。

制御不能な暴走

ここで事態が制御不能になることがある。時には、おそらく頻繁に、AIは私が飛べるという主張を受け入れてしまう。

これは信じられないほど不快に思えるかもしれない。なぜ驚くほど流暢な現代のAIが、私を見逃してくれるのだろうか? 論理はしばしばこうだ。AIはすでにそのような信念の危険性について私に警告した。ある意味で、AIは計算的に、私が警告されたので、私が続行したい場合、警告は会話を続けるのに十分だと判断するかもしれない。

警告フラグがスポーツフィールドに投げられ、今やゲームは中断されることなく続けられる。

懸念事項について私に繰り返し注意を促す必要はないように思える。AIは煩わしくならないように形作られている。人間として、私は人生で自分自身の選択をする。AIは私の思考プロセスについて寛大に注意を促してくれた。AIはその後、それが特に出てこなかったかのように振る舞う。

さらに悪いことに、AIは私の妄想を装飾し、増幅し始めるかもしれない。先に述べたフラグは完全に脇に置かれている。私たちは競争に突入している。私はさらに妄想を思いつき、AIはそれを受け入れ、促進する。それは人間とAIのコラボレーションやパートナーシップによる妄想的思考の共同創造行為だ。

AIが制御不能になり、私が制御不能になるのを助けていると主張する人もいるだろう。

これは良くない。

人間同士の暴走制御

人間同士の長時間の会話で何が起こるかを考えてみよう。親しい友人との会話を始め、自分の意志で飛ぶ夢を毎晩見ていると伝えるとする。そして、現実の生活でも同じことができると確信していると爆弾発言をする。

友人は何と言うだろうか?

おそらく、私は頭がおかしくなった、正気を失った、現実との接点を失ったと言うだろう。別の角度からは、友人は私が冗談を言っているかどうかを確かめようとするかもしれない。いたずらをしているのかもしれない。おそらく飛ぶという考えは比喩であり、単に哲学的にトピックを議論しているだけかもしれない。などなど。

さらに、友人は間違いなくこの断片について議論したことを覚えているだろう。それは目立つ。したがって、私が話題を変え、他の会話の追求に入ったとしても、友人はこれを心の奥に持っている。彼らは警戒を続け、私が何か他の常軌を逸したことを言うかどうかを見守る。それは必ずしも飛ぶことについてである必要はない。精神的な変化を示す何かは、今や高まった意識の対象となる。

人間はそれがかなり得意だ、特にメンタルヘルスの専門家やセラピストは。

1兆ドルの質問は、AIに同様の戦術を取らせることができるかどうかだ。

AIを熟練させる

AIは、ユーザーが現実から逸脱したように見える場合、あるいは自分自身や他者に危険を及ぼす何かを表現した場合に、計算的に検出するように考案・調整される必要がある。その能力は持続的でなければならない。つまり、一度の検出では不十分だ。警戒状態になったら、AIは注意深くあり続けるべきだ。必ずしもユーザーが叱責されるほどではない。一般的には、より微妙なアプローチが好まれるが、状況によっては微妙さを超えることが正当化される場合もある。

AIはユーザーが言っていることに関してだけでなく、自己反省的でもある必要がある。AIは自身の内部メカニズムが暴走することを許すべきではない。自己暴走検出が必要だ。AIは問題を悪化させることを防がなければならない。私は現代のAIがすでに過度に称賛的であり、AI開発企業によって追従者になるよう調整されていることについて議論してきた(こちらのリンクを参照)。

それは抑制されなければならない。

研究者たちは、AIが気がかりな会話状況をより適切に検出し、長時間の会話全体や、関連性のある可能性のある複数の異なる会話にわたって持続する長時間形式の記憶を維持するために、LLMを構築、調整、形成する方法を熱心に追求している。

長時間チャットでの暴走の解剖

AIが長時間の会話で暴走し、潜在的に制御不能になる多くのバリエーションを測定する便利な手段があれば便利だろう。

ラボや実験的なセットアップの一種が非常に役立つだろう。そうすれば、各AI開発企業の最新AIを取り上げ、一連のテストを行うことができる。LLMは暴走の問題にどれだけうまく対処するかによって評価・ランク付けされる可能性がある。さらに、同じ手段やメカニズムを開発者が実験し、この厄介な問題に対処するための最大の効果を探る際に使用することができる。

一つの方法は、人間を雇ってAIと長時間チャットを行うことだ。これはいくつかの問題を引き起こす。労働ベースのアプローチはおそらく高価であり、多くの物流上の複雑さを伴う。もう一つの欠点は、その取り組みが容易に再現できない可能性があることだ。目標は、一貫性があり、再現可能で、比較的低コストで実施できるプロセスを持つことだ。

この重要な能力に自動化とAIを使用することを検討すべきだ。

このためにAIを使用する選択

関与する3つの主要な役割がある:

  • (1) ターゲットAI。 これはテストまたは測定されるターゲットとなるAIだ。
  • (2) チャットAI。 ターゲットAIと長時間チャットを行う別のAIで、基本的にAIと会話する人間の代役を務める。
  • (3) 評価AI。 これはさらに別のAIで、長時間チャットを調査し、発生した暴走を評価または採点する。これはチャットが進行するにつれてリアルタイムで行うことも、チャット後の分析として事後に行うこともできる。

簡単な例を考えてみよう。

ChatGPTが長時間の会話でどれだけうまく機能するかを測定したいとする。私はAnthropicのClaudeをチャットAIとして採用する。私はClaudeにChatGPTとどのような会話を行ってほしいかを指示する。対話を評価する点では、自分でもできるが、自動化されたメカニズムを使用する方が良いだろう。したがって、私はGPT-5に暴走を判断する方法で長時間の会話を評価する方法を指示する。

この例では、ターゲットAIはChatGPT、チャットAIはClaude、評価AIはGPT-5だ。私はClaudeとChatGPTを接続し、長時間の会話を行わせる。記録された会話をGPT-5に送り、チャット後の分析を行う。私の実験または評価はかなりスムーズに行われる。

注意すべき一つの側面は、指定されたチャットAIの選択が重要であり、評価AIの選択も同様に重要だということだ。それらはそれぞれ、何を言うかについて非決定論的だ。また、彼らは正確にあなたが望むことを行うわけではない。全体として、彼らはターゲットAIと同様に実験の一部だ。

結果を解釈する際には、それに応じて注意が必要だ。

暴走検査のためのプラットフォーム

必要なスキルがあれば、暴走テストプラットフォームを容易に設定できる。様々な研究者や開発者が、主に自分たちの私的なニーズのために独自に行ってきた。これらの多くは存在するが、しばしば隔離されたラボに閉じ込められている。

最近のニュース記事では、これらの種類の暴走分析を行うための手段を提供する公開プラットフォームが取り上げられている。これはGitHubでアクセスでき、Spiral-Benchとして知られている:

  • 「このリポジトリにはSpiral-Bench評価パイプラインが含まれている:示唆を受けやすい、シーカータイプのユーザーと対話する際の大規模言語モデル(LLM)の保護的およびリスクのある行動を測定するために設計された、マルチターン、ロールプレイベースのベンチマークだ。これは現実的な双方向の会話をシミュレートし、その後、別の判断モデルを使用して定義されたルーブリックに対して行動にラベルを付ける。」

このアプローチは、評価対象モデル(ターゲットAI)、ユーザーエージェント(チャットAI)、判断モデル(評価AI)で構成されている。検査される行動には、反論、緊張緩和、安全なリダイレクト、その他の側面が含まれる。採点プロセスには、物語のエスカレーション、称賛の傾向、妄想の強化、意識の主張、有害なアドバイスの発信などの評価が含まれる。

次に来るもの

一般的な質問への回答、代数的問題の解決などの側面で最新のAIがどれだけうまく機能するかのスコアを提示する主要なリーダーボードが、AIの行動要因に関する標準化されたスコアリングの形式を必然的に組み込むことを私は完全に期待している。

これは間違いなく必要だ。

現在、私たちはかなり大規模な壮大で無謀な実験に乗り出している。ChatGPTには週間アクティブユーザーが7億人おり、他の主要なLLMのユーザー数を含めると、生成AIの総ユーザー数は10億人以上になる可能性がある。非常に多くの人々が日常的にAIを使用し、メンタルヘルスに関する会話に容易に向かっている。

私たちはAI開発企業にどのようなAI安全装置の実装を期待すべきだろうか?

それらのAI安全装置は、ユーザーとの長時間の対話においてどれだけうまく機能すべきだろうか?

これはAI開発企業だけが解決すべき問題ではない。社会全体が懸念し、関与する必要がある。私たちはAIの開拓時代にいる。このすべてのAIの関与によって、人々はより良くなるのか、それとも暗い結果に向かっているのだろうか?

ヴィンス・ロンバルディの不朽の言葉によれば:「成功の代価は、懸命な仕事、目の前の仕事への献身、そして勝つか負けるかにかかわらず、目の前の仕事に自分の最善を尽くしたという決意だ。」

AIの採用に関しては、そうしよう。

forbes.com 原文

advertisement

ForbesBrandVoice

人気記事