AI

2026.03.18 11:16

AIとメンタルヘルス:研究と現実のギャップを埋める緊急の必要性

AdobeStock

AdobeStock

本稿では、生成AIと大規模言語モデル(LLM)がメンタルヘルスの助言に用いられている現実世界の動きと、こうした重大テーマに関する研究の現状との間にある、看過しがたいギャップを検証する。

要点はこうだ。大きな時間差が生じている。AIがメンタルヘルスへ与える影響を精緻に研究するには、適切に進めるために相当の時間がかかる。堅牢な研究設計を組み立て、人を対象とする研究のプロトコルが厳密に守られていることを確認し、研究を実施し、深い分析を行い、論文としてまとめ、公開し、または信頼ある学術誌での掲載を目指す。これら一連のプロセスは、数カ月、場合によっては1年以上を要しうる。

一方で、メンタルヘルス目的でのAI利用は、驚異的なペースで日々拡大している。数え切れないほどの人々が、ChatGPT、GPT-5、Grok、Claude、CoPilot、Gemini、その他の人気LLMに日常的にアクセスし、心理的助言を得ようとしている。これが集団レベルのメンタルウェルビーイングにどう影響しているかについては、場当たり的な推測があふれている。大半は憶測に基づく、経験則頼みの論評にすぎない。

本稿では、この厄介な研究ギャップに関する最新の研究を紹介する。そう、AIとメンタルヘルス領域における研究の現状を整理する新たな研究があり、状況を正す手がかりとなる。これは強く求められている。現状を知らなければ、目指すべき地点も定められない。さらに、本当に有用な示唆を得るために何が必要かを見極め、貴重な研究資金とエネルギーをそこへ向けるうえでも不可欠だ。社会のメンタル面の総合的な健全性は、これを合理的かつ迅速に進められるかにかかっている。

では、詳しく見ていこう。

本稿のAIブレークスルー分析は、AIの最新動向を追う私のForbes連載の一環であり、影響力の大きいAIの複雑性を特定し解説している(こちら)。

AIとメンタルヘルス

簡単な背景として、私は現代AIがメンタルヘルス助言を生み出し、AI駆動のセラピーを実行することに関する多様な側面を、継続的に取り上げ分析してきた。こうしたAI利用の拡大は、主として生成AIの進化と普及により促進されている。100本を優に超える私の分析・投稿の一覧は、こちらこちらを参照してほしい。

これは急速に発展する分野であり、大きな上振れの可能性があることは疑いようがない。だが同時に、残念ながら隠れたリスクや明白な落とし穴も伴う。私は、CBSの60 Minutesに出演した回も含め、こうした喫緊の論点について繰り返し発言してきた(こちら)。

メンタルヘルス向けAIの背景

ここでは、生成AIと大規模言語モデル(LLM)が、メンタルヘルスの助言にどのように場当たり的に使われがちかを概観しておきたい。数え切れないほどの人々が、生成AIをメンタルヘルスに関する継続的な相談相手として用いている(なお、ChatGPTだけでも週次アクティブユーザーは9億人超で、そのうち相当な割合がメンタルヘルス領域に踏み込んでいる。私の分析はこちら)。現代の生成AIとLLMの利用用途で最上位に位置づけられているのは、メンタルヘルス面についてAIに相談することだ。私の報道はこちらを参照されたい。

この人気は十分に理解できる。主要な生成AIシステムの多くは、ほぼ無料、または極めて低コストで利用でき、場所や時間を問わない。つまり、メンタルヘルス上の懸念を相談したいなら、AIにログインし、24時間365日いつでも即座に会話を始められる。

AIが容易に暴走したり、不適切、さらには著しく不適切なメンタルヘルス助言を出したりすることへの懸念は大きい。今年8月には、認知的助言の提供に関するAIセーフガードの欠如を理由に、OpenAIに対する訴訟が提起されたことが大きく報じられた。

AI開発企業は、AIセーフガードを段階的に導入していると主張するが、ユーザーと妄想を共創し、結果として自傷につながりうるなど、AIが好ましくない行為に及ぶ下振れリスクは依然として多い。OpenAI訴訟の詳細と、AIが人間の妄想的思考を助長しうる点に関する続編の分析は、こちらを参照してほしい。述べたとおり、私はいずれ主要なAI開発企業のすべてが、堅牢なAIセーフガードの乏しさについて厳しく問われる日が来ると、真摯に予測してきた。

ChatGPT、Claude、Gemini、Grokなどの汎用LLMは、人間のセラピストが備える堅牢な能力とはまったく異なる。一方で、同様の特性を獲得することを想定した特化型LLMも構築されつつあるが、なお主として開発・試験段階にある。私の報道はこちらである。

法的な現状

すでに、メンタルヘルス助言を提供するAIを対象に、新法を制定することを選んだ州もある。イリノイ州のAIメンタルヘルス法に関する私の分析はこちら、ユタ州はこちら、ネバダ州はこちらを参照されたい。これらの新法を試す訴訟も起きるだろう。法律が現状のまま維持され、AI開発企業との法廷闘争を生き残るかどうかは、まだ判断が早い。

連邦議会は、メンタルヘルス助言を提供するAIを包含する包括的な連邦法の制定に繰り返し踏み込んできた。だが、いまのところ実現していない。取り組みは最終的に立ち消えとなった。したがって現時点では、こうした論争的なAI問題そのものに特化した連邦法は存在しない。AIとメンタルヘルスに関する包括的法制度が何を含むべきか、少なくとも何を慎重に検討すべきかについて、私は骨子を示してきた。分析はこちらこちらを参照してほしい。

現在の状況は、AIとメンタルヘルスに関する新法を制定した州はごく一部で、大半の州はまだ制定していない。ただし多くの州が制定を検討している。さらに、AI利用時の子どもの安全、AIコンパニオンシップ、AIの過度な追従(シコファンシー)などに関する州法も制定されつつあり、これらは必ずしもメンタルヘルス法と見なされてはいなくとも、メンタルヘルスに確実に関係する。一方、連邦議会も領域へ踏み込んではいるが、これはあらゆる用途におけるAIを対象にする、より大きな狙いであり、いまだ形成段階に至っていない。

これが現時点の全体像である。

バックミラー越しの研究

政策立案者や立法担当者は、AIとメンタルヘルスに関する信頼でき、適切に設計された研究を必要としている。そうでなければ、良い法律や実用的な政策を、高度に情報に基づいて設計することはできない。適切な分析がなければ、彼らは曖昧な助言に頼らざるを得ない。AIとメンタルヘルスの影響や方向性について、あれこれと述べ立てる論客は多い。偏りも至る所にある。

確かな研究が手元になければ、AI開発企業は潜在的な制約や義務をすり抜け、回避することもできてしまう。AI企業は、自社のアプローチは問題ない、できる限りのことをしている、と主張できる。明確な「交通ルール」は存在しない。立ち回りや逃げが横行する。

もちろん、AIとメンタルヘルスに関する真正な研究がまったくないわけではない。乏しく散発的ではあるが、存在はする。問題は、その多くがバックミラー越し、すなわち現在や立ち上がる未来ではなく、過去のある時点のスナップショットを捉えたものになっている点だ。

自動車にたとえてみよう。自動車を評価しようとしたとき、市場にあるのが4気筒エンジン車だけだったとする。あなたは慎重に研究した。だが同時に、6気筒車が市場に出てきた。いま利用できる研究は4気筒にしか焦点を当てておらず、6気筒は扱っていない。

では研究者は6気筒車の研究に飛びつく。道路に6気筒車が走ることで何が変わったかを、真剣に特定しようとする。だが不運なことに、結果が出る頃には、一般道も高速道路も8気筒車が走っている。現実世界が研究世界を飛び越えてしまうのだ。

AIとメンタルヘルスでも同じである。研究はGPT-3を対象に、メンタルヘルス用途でのAI利用を扱い始める。研究が完了して公開される頃にはGPT-4が使われている。GPT-3とGPT-4が同じ含意を持つと主張するのは、極めて疑わしい。研究は当時の実態を正当に扱っていたとしても、いまや古く、関連性も疑わしくなっている。そこで研究者はGPT-4に焦点を移す。するとGPT-5が登場する。

この繰り返しである。AIとメンタルヘルスの学術研究は恒常的にバックミラー・モードにあり、現実世界でのAIの進歩と普及に飛び越され続けている。

反射的にAIを禁止せよという声

講演や読者からの反響の中で、私は頻繁に「メンタルヘルス目的でのAI利用は全面的に禁止すべきだ」という質問を受ける。ときに激しく、そう要求されることもある。LLMのうちメンタルヘルス助言を生成する部分はすべて取り除け。全面的にやれ。どんなAIであれ、メンタルヘルスのガイダンスを出してはならない、と。

以上、終わり。というわけだ。

そうした過激な提案が出る理由は、ニュースで自傷行為に至った人の事例を知るからであり、その期間に当人が生成AIを使っていた、という報道に触れるからである。よくある比較は、AI利用は喫煙と同じだという主張だ。喫煙ががんを引き起こすことは周知である。喫煙をやめさせよ。だからAIも、起こりうる悪影響を理由にやめさせるべきだ、というわけである。

私は、この比較は極めて近視眼的で誤っていると指摘してきた。メンタルヘルスのツールとしてのAIの上振れを完全に見落としているからだ。注意は下振れに向けられ、上振れは無視されるか、存在が認識されていない。

ROIの理解は不可欠である

AIとメンタルヘルスに関連するROIについての私の最近の分析が強調した重要点は、AIの負の側面の議論は、正の側面と合理的にバランスを取る必要があるということだ。詳細はこちらを参照されたい。

手短に言えば、各種オンライン統計は、週次で生成AIを利用している人が、用途全般でおよそ10億人にのぼることを示唆している。調査では、生成AI利用者のうち1%未満が、妄想的思考に巻き込まれる、あるいはAI精神病に至る可能性がある、といった好ましくない結果を経験する可能性があると推定されている。こうした反応の類型と影響を受ける割合についての私の分析は、こちらこちらこちらを参照してほしい。

生成AIをメンタルヘルス助言のために積極的に使っている人がどれほどいるかは、容易には分からない。いくつかの推計は、主要LLM利用者全体のほぼ3分の1かもしれないことを示唆している。私の議論はこちらである。少し外挿すれば、約3億人が日常的にメンタルヘルス助言を受けており、そのうち約300万人が何らかの心理的反動や害を被っている可能性がある。

別の見方もできる。メンタルヘルス助言を受け、問題なく、おそらくは恩恵を受けている人が約2億9700万人いる一方で、約300万人が助言にうまく反応できていない可能性がある。2億9700万人のうちどれほどが特に精神的に高揚し、メンタルウェルビーイングが大幅に改善したのかは分からない。おそらく多いだろう。いずれにせよ、少なくともそれらのユーザーにとっては「害がなければ問題なし」と推定できる状況である。

私のたとえは、ROIにまつわる比較を、自動車利用に伴うトレードオフになぞらえるものだ。

こうである。自動車事故で毎年4万人が死亡し、約150万人が負傷するという統計がある。では車を全面禁止すべきだ。これが、その統計に対する反射的な反応になる。だが、免許保有者が2億5000万人おり、総走行距離は3.28兆マイルに及ぶという事実も念頭に置く必要がある。自動車の圧倒的な利用と有用性は、残念な下振れと比べて非常に大きい。

社会は、死亡、負傷、資本コストという下振れに比して、自動車がもたらす経済的、社会的、移動面の便益が「許容可能」だと判断してきたように見える。社会は、運転が完全に安全かどうかを問わない。既知のリスクに対し、総体としての便益が正当化できるかを問うのである。

さらに社会は、規制、規範、工学的改善を通じてリスク管理を試みる。同じ論理は、メンタルヘルス助言にAIが使われるようになったことにも適用できる。リスクを減らすためにAIを統治すべきだ。そのためのAIセーフガードが考案されている。新たなAI法も策定され、制定されつつある。私の分析はこちらである。

スタンフォード大学CREATEウェビナー

AIメンタルヘルス研究の現状を見ていこう。AIメンタルヘルス研究の性質と質に関する、タイムリーで興味深く重要な研究が、2026年3月4日にスタンフォード大学のCREATEセンターによるウェビナーで提示され、議論された。

CREATEは「Center for Responsible and Effective AI Technology Enhancement of PTSD Treatments(PTSD治療のための責任ある効果的なAI技術強化センター)」である。同組織は国立精神衛生研究所(NIMH/NIH)の支援を受け、エビデンスに基づくメンタルヘルス治療の実装と質を支援するLLMベースのツールを開発・評価する学際的なALACRITYセンターだ。CREATEは、スタンフォード大学医学部・精神医学および行動科学部門の教授であるShannon Wiltsey-Stirman博士と、スタンフォード大学のHuman-Centered AI(HAI)研究所のフェローであり、人文科学・科学部における心理学の助教(研究)であるJohannes Eichstaedt博士が共同代表を務めている。

CREATEで進む革新的研究に関心があるなら、こちらからウェブサイトを訪れるとよい。著名な専門家が、メンタルヘルス治療の改善に向けた効果的で倫理的なLLMベースのツールを構築・評価・実装する注目の取り組みを紹介するウェビナーが継続的に開催されている。

CREATEウェビナーに関する私の過去の報道には以下がある。

  • (1)2025年11月5日のCREATEウェビナーでは、メンタルヘルスケアのためのエージェント型AIが扱われた(報道と分析はこちら)。
  • (2)2025年12月10日のCREATEウェビナーでは、AIペルソナと、模擬のセラピストおよびクライアントが焦点となった(報道と分析はこちら)。
  • (3)2026年2月4日のCREATEウェビナーでは、ユーザーエンゲージメントと達成しうる最善のアウトカムの最適化がテーマとなった(報道と分析はこちら)。

2026年3月4日の最新CREATEウェビナーでは、Richard Gaus博士が「Results of a Scoping Review on Quality of LLM Mental Health Studies(LLMメンタルヘルス研究の質に関するスコーピングレビューの結果)」を講演し、後述する同氏の共著論文に基づいている。CREATEの副ディレクターであるBetsy Stade博士が、見事にモデレーターを務めた。

経歴によれば、Richard Gaus博士はAIとコンピュータサイエンスに強い基盤を持つ医師である。現在、スタンフォード大学のMachine Intelligence for Medical Imaging Labにおいて、臨床推論のためのLLMの堅牢性と信頼性に関する修士論文の仕上げ段階にある。それ以前は、LMU病院の精神科でレジデントとして勤務しつつ、TUMのロボティクス、認知、知能の修士課程でフルタイム就学していた。臨床と研究に加え、ヘルスケアとテックの交差点でプロジェクトを創設・主導してきた実績を持ち、med-dev、TUM.aiのインダストリー・フェーズ、Support Groups for Changeなどが含まれる。

2026年3月4日のウェビナーの動画記録は、こちらで閲覧できる。

既存研究の全体像

今回のCREATEウェビナーは、Richard Gaus、Felix Gross、Maxim Korman、Fiona Klaassen、Simona Maspero、Luca Martignoni、Maria F. Urquijo、Sabrina Boger、Tarek Jebrini、Johannes Wolf、Paul Hager、Elizabeth C. Stade、Yannik Terhorst、Jana Volkert、Joseph Kambeitz、Hans Christian Stubbe、Frank Padberg、Shannon Wiltsey Stirman、Nikolaos Koutsouleris、Johannes C. Eichstaedtによる研究「A Scoping Review of Generative AI in Mental Health Support(メンタルヘルス支援における生成AIのスコーピングレビュー)」の活発な紹介であった(ResearchGate、2025年12月)。主な要点(抜粋)は以下のとおりである。

  • 「何百万人もの人々が、生成型大規模言語モデル(LLM)をメンタルヘルス支援のために利用しており、事実上、規制のない公衆衛生上の介入として機能している。メンタルヘルスを支援するための多くのLLMアプリケーションが開発されている」
  • 「治療的利益と害の双方が報告されるなか、これらのアプリケーションを支持する科学的根拠は依然として結論が出ていない」
  • 「治療的可能性と深刻な害に関する初期の証拠が混在していることは、臨床家、研究者、政策立案者にとっての知識ギャップを生み、急増するこれらのアプリケーションの臨床的準備状況と安全性を評価することを難しくしている」
  • 「現在の研究証拠が(少なくとも)安全な臨床導入の可能性を支持するかどうかを判断するため、文献で採用されている方法論上の選択を幅広く分析した」
  • 「公共の広範な採用と限定的なエビデンス基盤とのギャップは、厳密な臨床試験、安全性と実装への焦点、そして標準化された臨床的に意味のあるベンチマークを含む、堅牢な方法論基準の必要性を強調する」

指摘のとおり、この研究は、AIとメンタルヘルスに関するエビデンス基盤と、その目的でのAI利用が有機的に拡大している現実との間に、確かにギャップがあることを明らかにした。

分野のメタ分析

既存文献を広くレビューした結果、同研究は132本の研究論文が実質的であり、この重要なテーマに直接関係すると判断した。そして、その132本を対象にメタ分析を行った。

結論として、これらの論文が注いだ多大な努力にもかかわらず、対象範囲や採用方法論には一定の制約パターンが見られた。概して、この分野の研究地図には次の特徴がある。

  • 主にクライアント向けAIが研究されている。レビューに含まれた132本のうち、クライアント向けAIアプリは114本(86%)、セラピスト支援AIアプリは8本(6%)、テキストベースの予測モデルは10本(8%)であった。
  • 主に人間参加者での検証を行っていない。クライアント向けAIアプリ114本のうち、人間参加者を含むものは36本(32%)、含まないものは78本(68%)であった。
  • 主にサンプルサイズが最小限である。人間参加者を含む36本のうち、サンプルサイズが「非常に小さい」に分類されたものが33%、「小さい」が31%、「中程度」が19%であり、合計で約83%が規模として特段に大きいとは言いがたいサンプルにとどまった。
  • 主に対照群を欠く。36本のうち、対照群がないものが26本(72%)、対照群があるものが10本(28%)であった。
  • 主にユーザー体験に依拠して評価している。36本のうち、ユーザーフィードバックでクライアント向けAIアプリを評価したものが23本(64%)である一方、臨床志向の検証に基づくものは12本(33%)であった。
  • 主に臨床以外の環境で参加者を募集し、特定の精神病理学的な参加基準を設けていない。分析では次のように述べている。「ICDまたはDSM基準を用いた正式な精神疾患診断に基づいて参加者を募集した研究は、1本しかなかった」

この結果は、前述の主要論点、すなわち、この領域ではより堅牢な方法論基準、より厳密な臨床試験、安全性と実装への一層の注力、そして標準化された臨床的に意味のあるベンチマークが緊急に必要であることを、端的に示すものである。

一定の猶予を与えるとしても

132本の論文に対して、初期の取り組みとして適切な猶予を与え、先駆的努力として特別な評価をする誘惑は確かにある。称賛に値する。だが同時に、これらを現在の基盤として、そして未来へ向けた既製の発射台として頼るのは、やや危うい。

研究では次のように述べている。

  • 「メンタルヘルスにおけるLLMの新規性と潜在的リスクを踏まえると、初期研究が、人間被験者を伴わない試験や、低リスク集団の小規模サンプルで実現可能性と安全性の実証に焦点を当て、その後に厳密で十分な検出力を持つ臨床試験へ進むのは妥当である。しかし、初期の有望性は、より厳密な試験では再現されないことが多い点を認識することが重要である。したがって、臨床導入、規制、政策に関する意思決定は、これらの予備的研究に過度な重みを置くべきではない」

これは明らかに有用な警告である。買い手は用心せよ。こうした初期の試みに過度に外挿しないよう、注意深くありたい。

私たちが置かれている世界

最後に、大局観で締めくくろう。

社会のメンタルヘルスという点で、いま私たちは壮大な世界規模の実験のただ中にいることは否定できない。その実験とは、AIが全国規模、そして世界規模で利用可能となり、明示的に、あるいは気づかれぬうちに、何らかの形でメンタルヘルスのガイダンスを提供するよう作用していることだ。無料またはごく低コストで、場所と時間を問わず24時間365日利用できる。私たちは皆、この無謀な実験のモルモットなのである。

これがとりわけ難しいのは、AIがデュアルユースの効果を持つからだ。AIはメンタルヘルスに害を及ぼしうる一方で、メンタルヘルスを大きく支える力にもなりうる。繊細なトレードオフを、慎重に管理しなければならない。下振れを防ぐか、緩和する。その一方で、上振れをできるだけ広く、できるだけ容易に利用可能にする。

カール・セーガンは次のように述べたことで知られる。「どこかで、何か信じられないものが、知られるのを待っている」。社会は、AIとメンタルヘルスに関する、より最新で、より力強く、より厳密な研究を切実に必要としている。それが、私たちが進むべき方向へ舵を切る助けとなる。

これは、カール・セーガンの別の有名な言葉も想起させる。「信じたいのではない。知りたいのだ」。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事