本日のコラムでは、全般性不安症状を持つ参加者に対し、カスタマイズされた生成AIを大規模言語モデル(LLM)経由で活用したAIベースの精神医療介入を行った、新たに発表された実証研究を検証する。
研究者らが使用したAIベースの精神医療アプリは、PATH(パーソナライズド・アーティフィシャル・インテリジェンス・セラピー)と呼ばれるものだった。研究の参加者は、PATHを使用する介入群または治療群と、一般的なオンライン・セルフヘルプ精神医療ウェブサイトを利用する対照群の2つのグループに分けられた。研究者らの主な問いは、PATHの使用が単にセルフヘルプ精神医療ウェブサイトを使用する場合を上回る結果をもたらすかどうかであった。
収集されたデータに基づき、研究者らはPATHが実際にセルフヘルプウェブサイトと比較してより肯定的な結果を生み出したと結論づけた。これは、カスタマイズされた現代のAI精神医療アプリが、GAD(全般性不安障害)に対処する人々にとって実質的な支援となり得るという、心強い実証的証拠を提供するものである。
とはいえ、この研究結果を過度に解釈することについては、いくつかの重要な注意事項と限界を念頭に置く必要がある。良いニュースは、これがRCT(ランダム化比較試験)というゴールドスタンダードを使用した厳密なアプローチであったことだ。相殺するニュースは、カスタマイズされたAIアプリが一回限りのものであったことである。つまり、あらゆる種類のカスタマイズされたAIベースの精神医療アプリが同様の結果をもたらすと仮定することには慎重でなければならない。
AIベースの精神医療アプリは現在、非常に多様であり、それらが何をするか、どのように機能するかという点で大きく異なる。それはほとんどチョコレートの箱のようなものだ。つまり、それらから何が得られるかを必ずしも確実に知ることはできない。いずれにせよ、AI精神医療アプリが潜在的に有用であり得ること、そして注意深く取り組まれる場合にそのようなアプリの追求が正当化されることを確認できるのは、確かに心強いことである。
このことについて話し合おう。
このAIブレークスルーの分析は、AIの最新動向に関する私の継続的なフォーブスコラムの一部であり、様々な影響力のあるAIの複雑性を特定し説明することを含んでいる(リンクはこちらを参照)。
AIと精神医療
簡単な背景として、私は精神医療アドバイスを生成し、AI駆動型セラピーを実行する現代のAIの出現に関する無数の側面を広範囲にわたってカバーし、分析してきた。このAIの使用の高まりは、主に生成AIの進化する進歩と広範な採用によって促進されてきた。私の100を超える分析と投稿の広範なリストについては、こちらのリンクとこちらのリンクを参照されたい。
これが急速に発展している分野であり、得られる莫大な利点があることは疑いの余地がないが、同時に残念ながら、隠れたリスクや明白な落とし穴もこれらの取り組みに伴う。私はこれらの差し迫った問題について頻繁に声を上げており、CBSの60ミニッツのエピソードへの出演も含まれる。こちらのリンクを参照されたい。
精神医療のためのAIの背景
生成AIと大規模言語モデル(LLM)が精神医療ガイダンスのためにアドホックな方法で通常どのように使用されているかについて、舞台を設定したい。何百万人もの人々が、精神医療に関する考慮事項について継続的なアドバイザーとして生成AIを使用している(ChatGPTだけでも週間アクティブユーザーが9億人を超えており、その注目すべき割合が精神医療の側面に関与している。こちらのリンクでの私の分析を参照)。現代の生成AIとLLMの最上位の使用法は、精神医療の側面についてAIに相談することである。こちらのリンクでの私のカバレッジを参照されたい。
この人気のある使用法は十分に理解できる。主要な生成AIシステムのほとんどに、ほぼ無料または超低コストで、どこでもいつでもアクセスできる。したがって、話し合いたい精神医療上の懸念がある場合、必要なのはAIにログインして24時間365日ベースで直ちに進めることだけである。
AIが容易に軌道を外れたり、不適切な、あるいは極めて不適切な精神医療アドバイスを提供したりする可能性があるという重大な懸念がある。今年8月の大見出しには、認知的助言を提供する際のAI安全対策の欠如についてOpenAIに対して提起された訴訟が伴った。
AI製造者らが徐々にAI安全対策を導入していると主張しているにもかかわらず、AIが不都合な行為を行う下振れリスクはまだ多く存在する。例えば、自傷行為につながる可能性のある妄想をユーザーが共同で作り出すのを陰湿に助けるなどである。OpenAI訴訟の詳細とAIが人間の妄想的思考をどのように促進し得るかについての私のフォローアップ分析については、こちらのリンクでの私の分析を参照されたい。前述のとおり、私は最終的にすべての主要なAI製造者が、堅牢なAI安全対策の不足について厳しく追及されるだろうと真剣に予測してきた。
ChatGPT、Claude、Gemini、Grokなどの今日の汎用LLMは、人間のセラピストの堅牢な能力とは全く似ていない。一方、専門化されたLLMは、おそらく同様の品質を達成するために構築されているが、それらはまだ主に開発とテストの段階にある。こちらのリンクでの私のカバレッジを参照されたい。
実証研究が追いついてきている
私は自分の著作や講演で、現代のAIベースの精神医療アプリの使用に関する実証研究が極めて乏しいことを繰り返し指摘してきた。こちらのリンクでのこれに関する私の詳細な議論を参照されたい。
これは不幸な状況である。世界の歯車は熱心に回転しており、人々は精神医療サポートのために汎用LLMやカスタマイズされたLLMに手を出しているが、これが社会にとって良いことなのか、あるいはおそらく社会を損なっているのかを私たちは本当に知らない。AIが心理的ガイダンスを提供する適切な仕事をしているなら、私たちは間違いなく現代の生成AIの出現から恩恵を受けている。一方、下振れリスクが重大で上振れを上回る場合、私たちは恐ろしい規模での過ちを犯していることになる。
政策立案者と立法者は、適切な法律を策定し実用的な政策を推進するために、高度に情報に基づいた基盤で進めることができるよう、AIと精神医療に関する信頼性が高く、よく設計された研究を必要としている。適切な分析が利用できない場合、彼らはいい加減な推奨に頼る必要がある。AIと精神医療の影響と方向性に関して、あれこれと言い放つ評論家は大勢いる。偏見は豊富である。
AI製造者らはまた、確固たる研究が手元にない場合、潜在的な制限と義務を回避して身をかわすことができる。AI企業は、自分たちのアプローチが完全に問題ないか、できる限りのことをしていると主張できる。特定の行動規範は存在しない。回避と逃避が豊富である。
これは、AIと精神医療に関する真正な研究が全く存在しないということを意味するものではない。それは希少で乏しいが、存在はしている。問題は、その多くがバックミラー的視点、つまり現在や新たな未来ではなく、過去のスナップショットを捉えることに基づいているということである。これについては間もなく詳しく述べる。
注目すべき最近の研究
AIベースの精神医療アプリの使用に関する新たに発表された研究を詳しく見てみよう。
最近発表された研究論文「全般性不安に対するAI対応精神医療介入の探索的ランダム化比較試験」(アンドリュー・アレン、アラン・ヤング、フランシーヌ・イェレスマ、アントン・ヴォロビョフ、エフゲニア・イワノワ、ニコライ・ババコフ、アニ・ギスナリアン、リー・カニス=ダイマンド著、Journal of Affective Disorders、2026年5月15日)では、以下の重要な点が述べられている(抜粋)。
- 「全般性不安障害(GAD)は有病率が高く、しばしばうつ病と併発し、重大な障害と医療負担に寄与している」
- 「この探索的ランダム化比較試験は、不安とうつの症状を軽減する上でのAI搭載精神医療アプリ(PATH)の有効性を評価した」
- 「英国在住の合計316人の参加者(19〜70歳)が、介入群(PATH)または対照群(NHS(英国国民保健サービス)セルフヘルプウェブサイト)のいずれかにランダムに割り当てられた」
- 「介入は、CBT(認知行動療法)に基づくチャットセラピーやインタラクティブツールを含む、エビデンスに基づく戦略を提供した」
- 「不安(GAD-7)とうつ(PHQ-9)のスコアは、ベースライン、2週間後、8週間後、12週間後に測定された。2週間後、介入群は対照群と比較して有意に低いGAD-7およびPHQ-9スコアを示し、中程度の効果量であった」
示されているように、この研究はRCTの使用を遵守した。研究領域では、ランダム化比較試験の使用を、実証研究を実行する慎重で真正な手段と見なしている。通常の考え方は、被験者を2つのグループに分けることである。1つのグループは介入または治療を受ける。2番目のグループは対照を受ける。目的は、治療を受けるグループが、手元の実験の設計に従って、対照群と何らかの実質的な方法で異なったかどうかを検出することである。
この場合、被験者は不安とうつに関する標準化されたテスト、すなわち広く知られているGAD-7およびPHQ-9テストを通じて評価された。結果は、介入群または治療群が対照群よりも低いGAD-7およびPHQ-9スコアを持つことでより良い成績を収めたことを示した。私たちは、治療が肯定的な効果を持ったと暫定的に推測できる。
心強いニュースだが注意事項あり
この研究に関して慎重に検討する必要がある様々な注意事項と限界がある。私は、この性質のすべての研究において圧倒的に問題となる懸念のために、最も重要であると信じる1つの側面に焦点を当てる。
要点は、独自のAIベースの精神医療アプリである治療または介入を使用することが、そのような研究の結果を一般化しようとする上で大きな弱点であるということである。堅牢な実験方法論の重要な原則は、再現性と反復可能性である。考え方は、他の研究者が同じ治療を使用して、特定の研究の結果を複製しようとすることができるということである。これは、研究とその結果が何らかの形で一回限りの偶然ではないという安心感を与えるのに役立つ。
再現性は、研究の知見が信頼でき、信用でき、独立して検証できるという確信を与えるため、不可欠である。それは科学と科学的方法の礎石である。研究を複数回実行できる能力は、確固たる科学的証拠が関与しているという主張を強化することになる。これは科学的主張への信頼を高める。そして、それは元の知見を取り上げ、それらを使用して累積的知識に向けて構築するという願望を支持する。
AIベースの精神医療アプリにおけるRCT研究のうち、概して、アプリは通常、他の研究者が容易に再利用できる標準化されたアプリではない。多くの場合、アプリは特異的である。それらは独自のものである。研究者とおそらく開発チーム以外の誰も、アプリの作成に何が入ったかを正確に知らない。アプリは、他の人が類似の研究で使用するために容易に利用できない。
悲しいことに、そのようなアプリが急速に進化する実践分野で前進を遂げたことで称賛されているにもかかわらず、それらは通常、強力な科学的研究に期待される再現性の同じ厳密さに適していない。
PATHアプリ
この特定の研究について、私たちはPATHアプリについて以下のことを知っている。
- 「PATHは、CBTに基づくAI生成チャット応答を介して精神医療サポートを提供するモバイルアプリである」
- 「このシステムは、承認された資料の管理されたライブラリから引き出す内部開発された検索拡張生成(RAG)セットアップを使用し、応答がユーザーの現在の状態を反映しながらエビデンスに基づくコンテンツと整合性を保つことを保証する」
- 「ユーザーは、24時間365日利用可能な様々なAIペルソナ(コンパニオン)から選択でき、人間の関与なしにユーザーにウェルビーイングサポートを提供し、アクセシビリティとスケーラビリティを保証する」
- 「ユーザーはテキストを介してAIコンパニオンとコミュニケーションを取り、希望すれば音声テキスト変換を使用できる。PATHのAIコンパニオンは、複雑な感情的および会話的文脈を処理し、共感的サポートを提供するように設計されている」
- 「PATHは、臨床医が提供する心理療法の代替としてではなく、不安症状が高い成人(例えば、待機リストにいる個人やサービスへのアクセスが限られている個人)のための段階的ケアモデル内の自己誘導型でスケーラブルなサポートツールとして意図されている」
2025年11月20日にオンラインで投稿されたニュース報道によると、Spectrum.Lifeという企業がPATHを開発したDr Jayという企業を買収し、PATHアプリを自社のAI製品Caraに統合する予定である。それは確かにPATHにとって明るいニュースである。それにもかかわらず、それは手元の研究を潜在的に複製する能力をさらに遠ざける。
ソフトウェア研究における共通の問題
独自のソフトウェアが関与している場合にRCT研究を複製できるというこの課題は、一般的な問題であり、AIベースの精神医療アプリに何らかの形で固有のものではないことを強調したい。あらゆる種類のソフトウェアにわたる実証研究をざっと見ても、同様の限界が満ちている。アプリがオープンソースベースで利用可能にされない限り、アプリが他の研究者によって取り上げられ、追加の研究を行うために使用される可能性は比較的低い。ほぼ存在しない。
これは、この性質のRCTの取り組みが削減されるべきであることを意味するものではない。私たちは実際、AIベースの精神医療領域でこの種の研究をもっと必要としている。そのようなアプリが、元の研究に関与していなかった他の研究者による使用とテストのために利用可能にされれば、すべての人にとって非常に役立つだろう。
もちろん、追加の複雑さはAIの進歩のペースである。私が意味することは以下である。研究は、彼らの取り組みの治療または介入としてAIベースの精神医療アプリを使用する。彼らは研究を実行するのに数ヶ月かかる。彼らは結果を書き上げ、知見を発表する。全体として、おそらく6ヶ月から1年が研究努力の過程で経過したとしよう。
その間、AIの新たな進歩がそのアプリをやや時代遅れの状態にした可能性が極めて高い。新しいAI機能がそのアプリを超えた。したがって、現在の研究でそのアプリを再利用しようとすることは特に魅力的ではない。なぜか。それはすでに時代遅れだからである。
悪循環が起こっているのがお分かりいただけると思う。AIベースの精神医療アプリはすぐに時代遅れになる。誰もそれを使いたがらない。誰もが最新かつ最高の新バージョンを使いたがる。したがって、私たちは、研究されている間はうまくいったが、世界がそれらの存在を知る頃には時代遅れになっているアプリに関する多くの研究で終わることになる。
頭が回る。
私たちがいる世界
私たちはかなりの難問に直面しているが、AIベースの精神医療アプリを含むRCT研究を追求している人々は、大きな熱意と最高の精神で進めるべきであることを明確にしたい。彼らは私たちを一度に1インチずつ前進させている。私たちは、AIの指数関数的進歩の時代の一部として限界を受け入れることができる。
大局的な視点で終わろう。
社会的精神医療に関して、私たちが現在壮大な世界規模の実験の最中にあることは議論の余地がない。実験とは、AIが国内的および世界的に利用可能にされており、それが明示的にまたは陰湿に、何らかの種類の精神医療ガイダンスを提供するように作用しているということである。無料または最小限のコストで行われている。それはどこでもいつでも、24時間365日利用可能である。私たちは皆、この無謀な実験におけるモルモットである。
これが特に考慮するのが困難である理由は、AIが二重使用効果を持つためである。AIが精神医療に有害である可能性があるのと同様に、それはまた精神医療にとって巨大な支援力にもなり得る。繊細なトレードオフを注意深く管理しなければならない。下振れリスクを防止または軽減し、その一方で上振れをできるだけ広くかつ容易に利用可能にする。
著名な科学者トーマス・ハクスリーはかつてこう述べた。「科学の人々は、信仰によってではなく、検証によって正当化を信じることを学んだ」。当面の間、私たちはAIベースの精神医療アプリに関して科学的再現性という点で多くを見ることはないだろう。それでも進歩は可能である。どうか続けてほしい。ただし、私たちの能力を超えて一般化しないように注意しなければならないことを認識してほしい。



