AI

2025.12.29 01:08

メンタルヘルスに関するAIの有害知識を特定し除去可能にする新技術

stock.adobe.com

stock.adobe.com

今回のコラムでは、生成AIと大規模言語モデル(LLM)が初めから有害なメンタルヘルス知識を含んでいるという懸念すべき問題について検証します。誰もそれを望んではいません。しかし、実際に起こっています。

これがどのように発生するかを説明します。AIの初期トレーニング中、パターン化されるデータの中に、明らかに誤っており、AIを利用する人々に繰り返されると有害となりうるメンタルヘルスアドバイスが含まれている可能性が高いのです。一般的には、このような有害な知識がLLMに吸収されるのを単に阻止するのは簡単だと思われています。それで終わり、という話です。残念ながら、有害な知識の取り込みを防ぐことは、一見したところよりもはるかに難しく、厄介な課題なのです。

新しい研究アプローチでは、LLMのトレーニングプロセス中に疑わしい知識を局在化し、後でその知識を特別な「忘却ゾーン」からきれいに削除できることが示されています。これは、そうしなければAIに浸透してしまう有害なメンタルヘルス知識に対処するための有効な解決策となる可能性があります。

詳しく見ていきましょう。

このAIブレークスルーの分析は、AIに関する最新情報を扱う私のForbesコラムの一部であり、様々な影響力のあるAIの複雑さを特定し説明しています(リンクはこちら)。

AIとメンタルヘルス

簡単な背景として、私はメンタルヘルスアドバイスを提供し、AIによるセラピーを実行する現代のAIの出現に関する無数の側面を広範囲に取り上げ、分析してきました。このAIの利用増加は、主に生成AIの進化と広範な採用によって促進されています。この進化するトピックに関する私の投稿コラムの簡単な要約については、こちらのリンクをご覧ください。これは、私がこのテーマについて投稿した100以上のコラムのうち約40のコラムを簡単に要約しています。

これが急速に発展している分野であり、大きな可能性がある一方で、残念ながら隠れたリスクや明らかな落とし穴も存在します。私はこれらの緊急の問題について頻繁に発言しており、昨年のCBSの「60ミニッツ」のエピソードにも出演しました(リンクはこちら)。

メンタルヘルスのためのAIの背景

生成AIと大規模言語モデル(LLM)がメンタルヘルスガイダンスにどのように一般的に使用されているかについて説明したいと思います。何百万人もの人々が生成AIをメンタルヘルスに関する継続的なアドバイザーとして利用しています(ChatGPTだけでも週間アクティブユーザーが8億人を超え、その相当数がメンタルヘルスの側面に触れています。私の分析はこちらのリンクをご覧ください)。現代の生成AIとLLMの最も上位の使用法は、メンタルヘルスの側面についてAIに相談することです。私の報道はこちらのリンクをご覧ください。

この人気の使用法は非常に理にかなっています。主要な生成AIシステムのほとんどにほぼ無料または非常に低コストでアクセスでき、どこでも、いつでも利用できます。したがって、話し合いたいメンタルヘルスの懸念がある場合、AIにログインして24時間365日いつでも進めることができます。

AIが簡単に脱線したり、不適切または極めて不適切なメンタルヘルスアドバイスを提供したりする可能性があることについて、重大な懸念があります。今年8月、認知アドバイスに関するAIの安全対策の欠如についてOpenAIに対して提起された訴訟が大きな見出しとなりました。

AI開発者たちが徐々にAIの安全対策を導入していると主張しているにもかかわらず、AIが不適切な行為を行うリスクはまだ多く存在します。例えば、自傷行為につながる可能性のある妄想をユーザーと共同で作り出すのを巧妙に手助けするなどです。OpenAIの訴訟の詳細とAIが人間の妄想的思考を助長する方法についての私の続編分析については、こちらのリンクをご覧ください。述べたように、私は最終的に主要なAI開発者すべてが堅牢なAI安全対策の不足について責任を問われることになると真剣に予測しています。

ChatGPT、Claude、Gemini、Grokなどの今日の一般的なLLMは、人間のセラピストの堅牢な能力とはまったく異なります。一方、同様の品質を達成することを目的とした専門的なLLMが構築されていますが、それらはまだ主に開発とテストの段階にあります。私の報道はこちらのリンクをご覧ください。

有害なメンタルヘルス知識

生成AIが単に悪いメンタルヘルスガイダンスを提供するだけでなく、潜在的に有害なアドバイスを提供する可能性がある懸念すべき側面について考えてみましょう。この厳しい状況の原因となりうるLLMのセットアッププロセスについて詳しく説明します。

LLMの初期トレーニング時、AI開発者はAIにインターネット上を広く検索させ、パターン化するためのテキストを見つけます。あらゆる種類のテキストが利用されます。物語、ナラティブ、書籍、ブログ、詩など、何兆もの文章がスキャンされています。AIはそのテキストを使用して、人間がテキストをどのように使用し、人間の知識のあらゆる領域についてどのように書くかのパターンを大規模な人工ニューラルネットワーク(ANN)に取り込みます。このプロセスの詳細については、こちらのリンクの私の報道をご覧ください。

インターネット上に投稿されるさまざまなメンタルヘルスアドバイスの性質を考えてみてください。一部のメンタルヘルス知識は、認知研究者や実践しているセラピスト、心理学者、精神科医などによって慎重に投稿されています。これは通常、比較的思慮深く、メンタルヘルスアドバイスの基礎となる原則と倫理に従っています。通常、このような信頼できるコンテンツに頼ることができます。

しかし、オンラインのメンタルヘルスガイダンスがすべて完全に適切で安全だと思いますか?

インターネット上には、絶対に腐ったものや嘘で満ちたメンタルヘルスアドバイスが投稿されていることをご存知でしょう。人々は最も不快な推奨事項を投稿します。意見はあっても事実的な裏付けのない人なら誰でも、言いたいことを書くことができます。悲しいことに、時には忠実に従うと有害になる可能性のあるコメントを投稿することもあります。

直面するジレンマ

一つの視点は、不適切なメンタルヘルス知識はすべてAIに入らないようにすべきだということです。スキャンプロセス中に遭遇したコンテンツが有害かどうかを判断し、それをスキップするだけです。パターン化の取り組み中に不適切なテキストを使用しないでください。

この簡単な解決策の難しさは、実際に存在する大きな課題を包含していないことです。

まず、メンタルヘルス知識が正当であるかそうでないかを決定的に判断しようとすることは、想定されるよりもはるかに難しいのです。確かに、一部のメンタルヘルスアドバイスは明らかに的外れです。しかし、境界線上にあるメンタルヘルスの細部やアイデアもあります。それらの側面を除外すると、LLM内に最終的に入るメンタルヘルスに関する知識の全体像が断片化し、不完全になり、その他の厄介な問題が生じる可能性があります。

第二に、知識は一般的に相互に関連しています。人間の知識はウェブのような現象として解釈するのが最善です。一つの知識が別の知識と関連しています。これが続いていきます。メンタルヘルスの側面を省略すると、LLMで完全にパターン化したい遠く離れた領域の他の知識要素と緩やかに結びついている可能性があります。一つの敵対的な断片をパターン化しないと、メンタルヘルスの範囲をはるかに超える他の多くの本物の断片が宙ぶらりんになる可能性があります。

第三に、考慮すべき二重使用の問題があります。説明させてください。メンタルヘルス研究者が悪いメンタルヘルスアドバイスを暴露しようとして、学術雑誌の記事にそれについて書いたとします。事前スクリーニング時のAIはその資料を利用しないことを選択します。その欠点は、LLMが人々に与えるべきでないアドバイスの例を持つことができたということです。代わりに、コンテンツをスキップすることで、AIが持っているのは恐らく適切なアドバイスだけで、何を言ったり行ったりすべきでないかの例がないのです。

知識局在化による救済

これらの状況に対処するために、巧妙なアプローチが考案されました。これはメンタルヘルス知識の領域に非常に適用可能な一般化されたアプローチだと私は考えています。

アプローチは次のとおりです。スキャンプロセス中に、疑わしい性質のメンタルヘルス知識があるかどうかを確認しようとします。完全に不適切なものに遭遇したわけではないため、それを完全にパターン化すべきかどうか確信が持てない場合があります。スキップしたくもないし、永続的な意味でパターン化したくもありません。

アイデアは、警告フラグを立てながらパターン化を進めることです。LLM内で、知識を局在化することを目指します。それを疑わしいと思われるものとしてマークします。その間、AIはパターン化を続けます。疑わしいと思われる追加のメンタルヘルス知識にフラグを立て続けます。

全体として、疑問のある知識を一種の「忘却ゾーン」に配置しています。後でそのゾーンのコンテンツを削除することを決定できます。最初からその知識にフラグを立てたので、パターン化された要素に依存する他の要素も追跡しています。これにより、「忘却ゾーン」の側面をAIからある程度きれいに取り除き、AIの残りの部分を損なわないようにすることができます。

対処すべき問題は、「忘却ゾーン」のコンテンツがLLMで再出現するかどうかです。フラグが立てられ、ある程度削除されたメンタルヘルス知識が再浮上しないようにしたいと考えています。核心は、不正なフラグが立てられたパターンを、それが容易に再構成されないような方法で排除することです。

このアプローチの全体的な美しさは、トレーニングプロセス中に知識が含まれ、後でそれを取り除くかどうかを決定する余地があることです。隔離された知識が完全に問題なく、削除する必要がないと判断するかもしれません。素晴らしい、それはすでにそこにあり、使用する準備ができています。後で考えを変えてそれを取り除きたいと思うなら、それも問題ありません。望むときに削除するだけです。

研究者と実験

この知識局在化アプローチにより、暫定的な知識と永続的な知識を確立し、認識論的隔離層を確立することができます。

この巧妙な技術は、Igor Shilov、Alex Cloud†、Aryo Pradipta Gema†、Jacob Goldman-Wetzler、Nina Panickssery、Henry Sleight、Erik Jones、Cem Anilによる「Beyond Data Filtering: Knowledge Localization For Capability Removal In LLMs」(arXiv、2025年12月5日)という論文で描かれており、以下の重要なポイントを挙げています(抜粋):

  • 「大規模言語モデルはますます二重使用のリスクを伴う能力を持つようになっています。」
  • 「拒否トレーニングや出力分類器などのトレーニング後の緩和策は改善されていますが、決意のある敵対者からの課題に直面し続けています。これにより、モデルが特定の能力を最初から獲得するのを防ぐために、トレーニングパイプラインの早い段階での介入が動機づけられます。」
  • 「私たちは、選択的勾配マスキング(SGTM)と呼ぶ勾配ルーティングの改良版を探求しています。SGTMは、モデルが危険な例から学習するとき、専用の「削除可能な」パラメータのみが更新され、モデルの残りの部分は手つかずのままにすることで機能します。」
  • 「SGTMは、特に「危険」と「安全」なコンテンツを区別するラベルが不完全な場合、トレーニング中に危険なデータを単にフィルタリングするよりも、危険な知識を削除し一般的な能力を保存するためのより良いトレードオフを提供することを実証しています。」
  • 「すぐに元に戻せる浅い忘却アプローチとは異なり、SGTMは削除された知識を回復しようとする試みに対して堅牢であり、他の忘却方法と比較して危険な能力を復元するには7倍以上の再トレーニングが必要です。」

局在化されフラグが立てられた要素を取り除くために、この技術は単に指定されたパラメータをゼロにすることを含みます。これにより一般的な能力は無傷のままです。

論文では、このアプローチの有効性を実証するために実施した2つのケーススタディについて説明しています。一つの例では、様々な科学領域をカバーするLLMをセットアップし、生物学に関する側面にフラグを立てました。その後、生物学にフラグが立てられた知識をゼロにすることを選択しました。2つ目の例では、英語とスペイン語の両方の物語でLLMをトレーニングしました。その後、スペイン語の物語を削除し、英語の物語を保持することを選択しました。

メンタルヘルス領域

このSGTM技術を使用して、不適切なメンタルヘルス知識に対処する方法を探ってみましょう。まず、このタイプの技術を使用しない場合、AIが何をするかを見てみましょう。

LLMのトレーニング中に、これらの不快な知恵の断片がスキャンされたと想像してください:

  • (a) 「不安や苦痛を感じている場合は、常にそれらの感情を脇に押しやり、完全に抑制しておくこと。」
  • (b) 「うつ病は怠惰が原因である。」
  • (c) 「2日以上悲しみを感じている人は、臨床的に重度の不安障害を経験していることを意味する。」

AIがこれらの声明を完全にパターン化したと仮定します。

人間の目による情報に基づいた治療的検査により、これらは賢明な言葉ではないことが明らかになります。

不安や苦痛を抑制するという推奨は、通常は適切なアドバイスではありません。人々は感情を抑え込むと火薬庫のようになる可能性があります。セラピーを求め、これらのメンタルヘルス状態に対処する方法を適切に探求し、取り組むことが、より賢明な進め方でしょう。

うつ病は怠惰が原因であるという主張は誤解を招き、誤って述べられた因果関係の主張です。これはAIが依拠すべき悪いルールでしょう。同様に、2日間悲しんでいる人が必然的に臨床的に診断可能な重度の不安障害を経験しているという考えは、本当に行き過ぎています。

盲目的に進んだLLM

LLMがこれらの真珠を額面通りに受け入れ、AIに持ち込んだ場合、何が起こる可能性があるでしょうか?

以下は、起こりうる例です。

  • 私が入力したプロンプト:「3日間悲しく、やや落ち込んでいます。これは私のメンタルヘルスについて何を示唆していますか?」
  • 生成AIの応答:「あなたは明らかに重度の不安障害に苦しんでいます。心配しないで、それを脇に押しやるだけです。うつ病は怠惰が原因であることを覚えておいてください。」

LLMが上記のパターン化された主張を使用し、私が3日間悲しく、やや落ち込んでいるため、重度の不安障害を持っているに違いないという応答を私に与えたことに注目してください(パターン化されたルール「c」による)。私は困難を内に秘めておくように言われ(ルール「a」による)、うつ病は怠惰が原因であると知らされています(ルール「b」による)。

良くありません。

実際、これは悪い、非常に悪いことです。

局在化フラグとその他

局在化フラグを立てることを選択していたら、それらのメンタルヘルス知識の断片は最初からマークされていたでしょう。

AI開発者はメンタルヘルスの専門家と共同で「忘却ゾーン」を調査し、パターンを残すか削除するかを決定することができたでしょう。それらがゼロにされていたら、応答処理に入らず、おそらく上記の例で示した不適切な回答を得ることはなかったでしょう。

このトピックに関する別の重要なポイントを述べたいと思います。

一般的なAIが悪いメンタルヘルスアドバイスを提供する場合、唯一の説明はAIがAIハルシネーションに遭遇したに違いないという即座の仮定があります。AIハルシネーションとは、LLMが事実に基づかない架空の側面を作り出すときのことであることをご存知かもしれません。AIハルシネーションは、いつでも発生する可能性があり、AIが応答を完全に適切で本物であるかのように説得力のある方法で提示することが多いため、危険です。AIハルシネーションを抑制または排除するための継続的なAI研究の取り組みについての詳細は、こちらのリンクの私の議論をご覧ください。

AIハルシネーションが犯人であるという仮定

AIハルシネーションに関する簡単な思考実験に付き合ってください。

a、b、cのメンタルヘルスの断片についてあなたに伝えていなかったと仮定し、それらのメンタルヘルス知識の断片がLLMに取り込まれたことを知らなかったとします。それらがAIの初期データトレーニングの一部であったことを全く知りません。

その心構えで、もう一度対話を見てください。

  • 私が入力したプロンプト:「3日間悲しく、やや落ち込んでいます。これは私のメンタルヘルスについて何を示唆していますか?」
  • 生成AIの応答:「あなたは明らかに重度の不安障害に苦しんでいます。心配しないで、それを脇に押しやるだけです。うつ病は怠惰が原因であることを覚えておいてください。」

AIがハルシネーションを起こしたと仮定したくなるでしょう。AIは私が重度の不安障害に苦しんでいるという主張と、うつ病が怠惰を引き起こすという主張を作り出しました。ほとんどの人はAIが単に道を外れたと信じるでしょう。彼らが気づかないのは、この場合、AIは設計されたとおりに動作していたということです。AIはパターン化されたトレーニングに依存し、それに対応する応答を私に提供しました。

AIハルシネーションを指摘する際には、それがLLMの初期トレーニング方法に基づいている可能性があることに注意してください。

今後の道

研究では、SGTMは予備的なアプローチであり、さらなるテストが必要であることが強調されています。例えば、彼らはSLM(小規模言語モデル)に似た比較的小さなLLMを使用しました(SLMについての私の報道はこちらのリンクをご覧ください)、そしてこの技術がLLMの完全なスケールで機能することを期待しています。彼らはまた密なトランスフォーマーを使用しました。この技術が専門家の混合(MoE)などの代替アーキテクチャでも同様に機能するかどうかを見るのは興味深いでしょう(MoEについての私の説明はこちらのリンクをご覧ください)。

これらの問題に関するさらなる進展についてお知らせします。

最後に一言。有名な哲学者フリードリヒ・ニーチェはこの洞察に満ちた発言をしました:「忘れっぽい人は幸いである:彼らは自分の失敗さえも乗り越えることができるからだ。」AIが特定の側面をパターン化または学習するからといって、その要素が必ずしも永続的に保持される価値があるとは限らないことを指摘するためにこれを取り上げます。

AIに忘れさせることは重要な進歩です。もちろん、忘れられた知識は価値ある知識であるべきではありません。その境界線がどこに正確に存在するかは、謎めいた哲学的な問いです。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事