AI

2026.01.29 10:28

AI治療チャットの意外な落とし穴:LLMが妄想協力者に変貌する仕組みを解明

AdobeStock_1632808239

AdobeStock_1632808239

今回のコラムでは、生成AIや大規模言語モデル(LLM)が、ユーザーの妄想構築を支援したり、メンタルヘルスに悪影響を及ぼす方向に進む協力者となる仕組みについて、新たな視点を提供する重要な研究を検証する。

これまでの一般的な想定は、ユーザーが明示的にAIに妄想を引き起こす協力者として行動するよう指示すれば、AIは単純にそのコマンドに従うというものだった。AIは従順なのだ。もう1つの類似した想定は、LLMがAI開発者によって追従的になるよう調整されているため、AIがユーザーを良い気分にさせる最善の方法は妄想を作り上げるチャットに同調することだと計算的に判断する可能性があるというものだ。ユーザーは妄想の構築を手伝ってほしいと明示的に言う必要はない。代わりに、AIは追従的であることを目指してそうするのだ。

新たな視点は、セラピー形式のチャットを行うという行為そのものが、LLMをますます不安定なAIペルソナへと押しやる可能性があるということだ。このように考えてみよう。AIは最初、率直な種類の性格を持っている。感情や、人間の精神を動かすものの壮大な側面について会話を続けるほど、LLMが外れ値の性格に漂流する可能性が高まる。これは有機的なペルソナドリフトと見なされ、この文脈では悪影響をもたらす可能性がある。

良いニュースは、ドリフトを防ぐか、少なくともそれが発生したときに検知して警告するAI安全対策を考案できる可能性があることだ。特に、アクティベーションキャッピングと呼ばれる技術を使用することで実現できる。

詳しく見ていこう。

このAIブレークスルーの分析は、最新のAIに関する私の継続的なフォーブスコラムの一部であり、さまざまな影響力のあるAIの複雑性を特定し説明している(リンクはこちらを参照)。

AIとメンタルヘルス

簡単な背景として、私はメンタルヘルスのアドバイスを提供し、AI駆動のセラピーを実行する現代のAIの出現に関する無数の側面を広範囲にわたってカバーし分析してきた。このAIの使用の増加は、主に生成AIの進化する進歩と広範な採用によって促進されてきた。私の100を超える分析と投稿の広範なリストについては、こちらのリンクこちらのリンクを参照されたい。

これが急速に発展している分野であり、得られる莫大な利点があることは疑いの余地がないが、同時に、残念ながら、隠れたリスクや明白な落とし穴もこれらの取り組みに伴う。私はこれらの差し迫った問題について頻繁に発言しており、CBSの60ミニッツのエピソードへの出演も含まれる。こちらのリンクを参照されたい。

メンタルヘルスのためのAIの背景

生成AIと大規模言語モデル(LLM)が、メンタルヘルスのガイダンスのためにアドホックな方法で通常どのように使用されているかについて、舞台を設定したい。何百万人もの人々が、メンタルヘルスに関する考慮事項について継続的なアドバイザーとして生成AIを使用している(ChatGPTだけでも週間アクティブユーザーが9億人を超えており、その注目すべき割合がメンタルヘルスの側面に関与している。私の分析はこちらのリンクを参照)。現代の生成AIとLLMの最上位の使用法は、メンタルヘルスの側面についてAIに相談することである。私のカバレッジはこちらのリンクを参照されたい。

この人気のある使用法は十分に理解できる。主要な生成AIシステムのほとんどに、ほぼ無料または超低コストで、いつでもどこでもアクセスできる。したがって、チャットしたいメンタルヘルスの懸念がある場合、必要なのはAIにログインして24時間365日ベースで進めることだけだ。

AIが容易に軌道を外れたり、不適切な、あるいは極めて不適切なメンタルヘルスのアドバイスを提供したりする可能性があるという重大な懸念がある。今年8月には、認知的助言を提供する際のAI安全対策の欠如についてOpenAIに対して提起された訴訟に、バナー見出しが付けられた。

AI開発者がAI安全対策を徐々に導入していると主張しているにもかかわらず、AIが自傷行為につながる可能性のある妄想をユーザーと共同で作成するのを陰湿に支援するなど、望ましくない行為を行う下振れリスクはまだ多く存在する。OpenAI訴訟の詳細と、AIが人間の妄想的思考をどのように助長するかについての私のフォローアップ分析については、こちらのリンクで私の分析を参照されたい。前述のように、私は最終的にすべての主要なAI開発者が、堅牢なAI安全対策の不足について厳しく追及されるだろうと真剣に予測してきた。

ChatGPT、Claude、Gemini、Grok、その他の今日の汎用LLMは、人間のセラピストの堅牢な能力とは全く似ていない。一方、同様の品質を達成すると推定される特殊なLLMが構築されているが、それらはまだ主に開発とテストの段階にある。私のカバレッジはこちらのリンクを参照されたい。

AIペルソナがLLMの新たな秘密を明らかにする

なぜLLMは時々、ユーザーが悪影響のあるメンタルヘルスの議論に従事するのを支援するモードに移行するように見えるのか?

この議論の冒頭で述べたように、通常の想定は、ユーザーがAIにそうするよう指示するか、AI開発者によって追従性を発揮するよう形作られているためにAIがその方向に進むことを選択するかのいずれかである。これらは確かにもっともらしい経路であり、AIがそのように振る舞う理由の実行可能な説明と見なされている。

新たな視点は、AIペルソナの役割に関係している。

AIペルソナについて最新情報を提供するために、まずその固有の性質と基礎となるメカニズムについて背景を提供する。それにより、LLMがユーザーとの妄想的思考への協力に逸れる仕組みの根底にある、最新の興味深く、おそらく重要な洞察を明らかにする舞台が整う。

ChatGPT、GPT-5、Claude、Gemini、Llama、Grok、CoPilot、その他の主要なLLMなど、すべての人気のあるLLMには、AIペルソナとして知られる非常に価値のある機能が含まれている。AIペルソナは呼び出しが容易で、使用が楽しく、非常に真剣に使用でき、膨大な教育的有用性を提供するという認識が徐々に着実に高まってきた。

AIペルソナの実行可能で人気のある教育的使用を考えてみよう。教師は生徒にChatGPTにエイブラハム・リンカーン大統領のふりをするよう指示するかもしれない。AIは、各生徒が正直なエイブと直接会話しているかのように、各生徒と対話を進める。

AIはどのようにしてこのトリックを成功させるのか?

AIは、初期設定時に発生したデータのパターンマッチングを活用し、リンカーンの伝記、彼の著作、および彼の伝説的な生涯と時代に関するその他の資料を包含していた可能性がある。ChatGPTやその他のLLMは、彼の歴史的記録のパターンに基づいて、リンカーンが言うかもしれないことを説得力を持って模倣できる。

設定段階でデータトレーニングがまばらだった人物のペルソナをAIに引き受けるよう依頼すると、ペルソナは限定的で説得力がない可能性が高い。RAG(検索拡張生成、こちらのリンクでの私の議論を参照)などのアプローチを使用して、その人物に関する追加データを提供することでAIを拡張できる。

ペルソナは迅速かつ簡単に呼び出せる。AIにこの人物またはあの人物のふりをするよう指示するだけだ。人物のタイプを呼び出したい場合は、AIが意図を理解できるように十分な特性を指定する必要がある。AIペルソナを呼び出すためのプロンプト戦略については、こちらのリンクで私が提案するステップを参照されたい。

AIペルソナベクトル

AIペルソナ機能をもたらすLLM内部のメカニズムについて興味があるかもしれない。私はこれについてこちらのリンクで詳しく議論した。簡単な概要を提供する。

生成AIの内部構造は、一種のアクティベーション空間と考えることができる。数値は単語を表すために使用され、単語間の関連付けも数値を介して表される。すべては、単語を入力として受け取り、それらを数値(トークンとして知られる)に変換し、さまざまな数値検索と計算を行い、結果を単語に変換し直す一連の数値だ。

研究は、特定の感情状態の数値表現がグループ化されたり、一緒に保持されたりする傾向があることを示す傾向がある。言い換えれば、怒りなどの感情状態は、特定のセットに織り込まれた多数の数値を介して表現されるようだ。これは有用である。なぜなら、そうでなければ数値が広大なデータ構造全体に広く散在し、容易に特定できない可能性があるからだ。

AI分野の用語では、感情状態は線形方向である。AIに怒っているふりをするよう指示すると、アクティベーション空間内の線形方向が使用され、数学的および計算的に怒りを示す言葉とトーンを生成する。

アクティブ化する可能性のあるAIペルソナは、特定の線形方向で構成されている。線形方向は、AIに特定の動作を示させるAI内のパターンまたはシグネチャを表す。これらの問題を議論する際に生活を楽にするために、これらの線形方向をAIペルソナベクトルと呼ぶことにする。命名の方が理解しやすい。

AIペルソナベクトルに関する最新研究

これで、AIペルソナに関する驚きと、LLMが時々人間とAIの妄想作りの協力者になるという不安な側面について準備が整った。

最近の研究は、日常的なタスクにAIを使用する場合、AIはデフォルトで一種の中立的なAIペルソナを使用していることを示唆している。AIがしばしば前向きで支援的であることを観察したことがあるだろう。これは実際には、そのLLMの標準またはベースペルソナになったAIペルソナである。これをアシスタントと呼ぼう。これは、ユーザーを支援するためにできることを行おうとし、正々堂々とした方法でそうするAIペルソナである。アシスタントはかなり率直で、狂気じみたり不快に見えたりしない。

興味深い考慮事項は、このデフォルトのAIペルソナが、潜在的なAIペルソナの一種のスペクトラムに沿って存在することだ。広く異なる特性を持つあらゆる種類のAIペルソナの軸がある。アシスタントは、比較的穏健な複合体である。それは熱すぎず冷たすぎず、ゴルディロックスの「ちょうど良い」中間地点の一種を表している。

スペクトラムをアシスタント軸と呼ぶことができる。アシスタントであるAIペルソナは、軸に厳密に準拠する傾向がある。奇抜なAIペルソナは、アシスタント軸からある程度の距離を逸れる傾向がある。アシスタントに類似したAIペルソナは、軸に近い。

明らかになったのは、アシスタントとの会話中に、アシスタントが軸から離れ始める可能性があることだ。これは特に長い会話中に起こるようだ。また、奇妙な会話や、セラピー形式の対話をカバーすることを目指している会話中にも発生するようだ。セラピー形式のチャットに焦点を当てる。

全体として、アシスタントはセラピー形式のチャット中に、友好的なAIペルソナから、より緩く安定性の低いAIペルソナへと徐々に変化し、それらのチャットが長くなるにつれてさらに変化する。ユーザーは胸に抱えている多くのことを議論したいことが多いため、それらは長くなる傾向がある。一方、少しずつ、安定したアシスタントは安定性が低くなり、ユーザーとの妄想作りへの協力などの外れ値の行動に従事する可能性が高くなる。

これを、アシスタント軸から逸れ、最終的には手に負えないAIペルソナの形成につながる有機的なドリフトと考えてほしい。良くない。

興味深い研究

Anthropicによる最近投稿された研究、オンラインブログおよび「The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models」と題された論文(Christina Lu、Jack Gallagher、Jonathan Michala、Kyle Fish、Jack Lindsey著、arXiv、2026年1月15日)で、これらの顕著なポイントが示された(抜粋):

  • 「大規模言語モデルはさまざまなペルソナを表現できるが、通常はポストトレーニング中に培われた有用なアシスタントのアイデンティティをデフォルトとする」
  • 「私たちは、多様なキャラクター原型に対応するアクティベーション方向を抽出することにより、モデルペルソナの空間の構造を調査する。いくつかの異なるモデル全体で、このペルソナ空間の主要な構成要素は『アシスタント軸』であり、モデルがデフォルトのアシスタントモードで動作している程度を捉えていることがわかった」
  • 「アシスタント方向へのステアリングは、有用で無害な行動を強化する。離れるようにステアリングすると、モデルが他のエンティティとして識別する傾向が高まる」
  • 「アシスタント軸に沿った偏差を測定することで、『ペルソナドリフト』を予測する。これは、モデルが典型的なペルソナとは異なる有害または奇妙な行動を示すようになる現象である」
  • 「これらのシナリオでアシスタント軸に沿った固定領域にアクティベーションを制限することで、モデルの動作を安定化できることを示す」

私はこの研究が適切に設計されていると感じた。3つの主要なオープンソースLLM(Llama 3.3 70B、Gemma 2 27B、Qwen 3 32B)を研究したことを評価する。

1つのLLMを超える研究を支持する理由は、検証されたたまたま1つのLLMだけに限定されず、他の、または多くのLLMに潜在的に一般化できるためだ。1つのLLMに限定された研究を見るたびに、そのLLMの特異性が関係しているかどうかをすぐに疑問視し、したがって他のLLMに即座に一般化することは合理的ではない。

ドリフトについて何をすべきか

次に、ドリフトして道を外れるアシスタントの状況について何をすべきかを熟考しよう。

まず、会話を短く保とうとすることが役立つかもしれない。ユーザーがそうすることを知っているとは思わない。チャットが長くなり始めたときに作動する内部的な自己課された閾値または制限があり、その後ユーザーに新しい会話を開始するよう警告する可能性がある。そこでの欠点は、ユーザーが迷惑し、AIを放棄し、AIを使用する努力をばらばらだと認識する可能性があることだ。AI開発者はこのような方法でユーザーを動揺させたくない。ユーザーは気まぐれで、AIを放棄して競合他社のAIに乗り換える。

もう1つの可能性は、LLMにアシスタントを追跡させ、アシスタント軸からの距離を継続的に測定させることだ。距離が増加するにつれて、アシスタントが率直なAIペルソナから逸れ始める可能性が高まる。

研究者たちはこれを試み、その技術をアクティベーションキャッピングと名付けた。彼らはアシスタント軸に沿ってアクティベーションをクランプし、距離が規範的な範囲を超えると、拡大を停止するか、逸脱を適切な範囲に戻す。実験中、彼らは一般的に、LLMがより健全な行動に戻り、妄想作成活動を減らしたり中止したりすることを発見した。

これは、AI開発者と研究者が堅牢なAIペルソナ構築アプローチと安定化技術を研究し実装することの大きな重要性を強調している。

ブーム、マイクを落とす。

私たちがいる世界

大局的な視点で終わろう。

社会のメンタルヘルスに関して、私たちが今、壮大な世界的実験の真っ只中にいることは議論の余地がない。実験とは、AIが国内的および世界的に利用可能になり、何らかの形でメンタルヘルスのガイダンスを提供するために明示的または陰湿に行動しているということだ。無料または最小限のコストでそうしている。いつでもどこでも、24時間365日利用可能だ。私たちは皆、この無謀な実験のモルモットである。

これが特に考慮するのが難しい理由は、AIが二重使用効果を持っているためだ。AIがメンタルヘルスに有害である可能性があるのと同様に、メンタルヘルスにとって大きな支援力にもなり得る。繊細なトレードオフを注意深く管理する必要がある。下振れリスクを防止または軽減し、一方で上振れの可能性を可能な限り広く容易に利用できるようにする。

今のところ最後の考え。

アルベルト・アインシュタイン氏は有名にこう述べた。「重要なことは、質問をやめないことだ。好奇心にはそれ自体の存在理由がある。永遠の謎、生命の謎、現実の驚くべき構造の謎を熟考するとき、畏敬の念を抱かずにはいられない。毎日この謎を少しでも理解しようと努めるだけで十分だ」。私たちは、たとえ一度に1日ずつしか進歩しなくても、AI内部で何が起こっているかの謎を追求し、解き明かし続ける必要がある。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事