2026.02.26 17:43

AIの誤ったメンタルヘルス助言を防ぐ──ChatGPT「ロックダウンモード」転用の可能性

Lance Eliot | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

本稿では、新たにリリースされたChatGPTのロックダウンモードについて検証し、この機能が生成AIや大規模言語モデル（LLM）による不適切なメンタルヘルスアドバイスを防ぐ目的で転用・再設計できる可能性について、新たな視点を提示する。

本題に入ろう。

このAIの技術革新に関する分析は、最新のAI動向を追い、さまざまな重要なAIの複雑性を特定・解説する私のForbes連載の一環である（リンクはこちら）。

AIとメンタルヘルス

背景として、私はメンタルヘルスのアドバイスを提供し、AI駆動のセラピーを行う現代AIの登場に関して、多角的な側面を広範に取材・分析してきた。AIのこうした活用の高まりは、主に生成AIの進化と普及によって加速している。100本を超える私の分析・投稿の一覧については、こちらのリンクおよびこちらのリンクを参照してほしい。

この分野が急速に発展しており、大きな可能性を秘めていることは疑いない。しかし同時に、残念ながら隠れたリスクや明らかな落とし穴も存在する。私はこうした喫緊の問題について頻繁に発言しており、CBSの『60 Minutes』への出演もその一つである（リンクはこちら）。

メンタルヘルス向けAIの背景

生成AIと大規模言語モデル（LLM）がメンタルヘルスのガイダンスにどのように場当たり的に使用されているかについて、状況を整理しておきたい。数百万、いや数千万の人々が、メンタルヘルスに関する継続的なアドバイザーとして生成AIを活用している（ChatGPTだけでも週間アクティブユーザーは9億人を超え、そのうちかなりの割合がメンタルヘルス関連の利用をしている。私の分析はこちらのリンクを参照）。現代の生成AIとLLMの最も多い用途は、メンタルヘルスに関する相談である（私の報道はこちらのリンクを参照）。

この人気は十分に理解できる。主要な生成AIシステムのほとんどは、ほぼ無料か非常に低コストで、いつでもどこでもアクセスできる。したがって、何かメンタルヘルスに関する悩みを話したいと思ったら、AIにログインして24時間365日いつでも相談を始められるのだ。

しかし、AIが暴走したり、不適切な、あるいは著しく不適当なメンタルヘルスのアドバイスを提供したりする可能性について、強い懸念がある。今年8月には、認知的アドバイスの提供におけるAIセーフガードの欠如をめぐり、OpenAIに対して提起された訴訟が大きく報じられた。

AI開発企業は徐々にAIセーフガードを導入していると主張しているが、AIが不適切な行動を取るリスクは依然として多く残っている。例えば、自傷行為につながりかねない妄想をユーザーと共同で作り上げてしまうといったことだ。OpenAIの訴訟の詳細と、AIがいかにして人間の妄想的思考を助長しうるかについての私の追加分析は、こちらのリンクを参照してほしい。私が以前から予測してきたように、最終的にはすべての主要AI開発企業が、堅牢なAIセーフガードの欠如について厳しく問われることになるだろう。

ChatGPT、Claude、Gemini、Grokなど、今日の汎用LLMは、人間のセラピストが持つ堅牢な能力とは全く異なるものである。一方、同様の品質を達成することを目指した専門特化型LLMが開発されているが、それらはまだ主に開発・テスト段階にある（私の報道はこちらのリンクを参照）。

OpenAI ChatGPTのロックダウンモード

話題を変えて、OpenAIがChatGPT向けに発表した新機能「ロックダウンモード」について探っていこう。その後、この機能がAIによる不適切なメンタルヘルスアドバイスを防ぐ目的でどのように転用・再設計できるかを示す。すべての主要AI開発企業は、望めばこの種の機能をメンタルヘルスのセーフガードとして採用できるはずだ。

この新しいアプローチの概要を説明するので、AI開発者は各自のLLM向けに「メンタルヘルス安全ロックダウンモード」（MHSLM）の開発を検討してほしい。

まず、OpenAIは最近、新機能「ロックダウンモード」がChatGPT使用時に追加のシステムセキュリティを必要とする特定タイプのユーザーに対して、強化された保護と安全性を提供すると発表した。この機能が何をするのか、なぜ特に有用なのかを説明する。2026年2月13日付のOpenAI公式ブログ投稿「ChatGPTにロックダウンモードと高リスクラベルを導入」では、以下の重要なポイントが示された（抜粋）：

「ロックダウンモードは、高度な脅威に対する保護強化を必要とする、著名な組織の経営幹部やセキュリティチームなど、セキュリティ意識の高い少数のユーザー向けに設計されたオプションの高度なセキュリティ設定です」
「ロックダウンモードは、プロンプトインジェクションによるデータ流出のリスクを軽減するため、ChatGPTが外部システムとやり取りする方法を厳しく制限します」
「ロックダウンモードは、プロンプトインジェクションなどの攻撃を通じて、ユーザーの会話や接続されたアプリから機密データを流出させようとする攻撃者が悪用しようとする可能性のある、ChatGPTの特定のツールや機能を決定論的に無効化します」
「例えば、ロックダウンモードでのウェブブラウジングはキャッシュされたコンテンツに限定されるため、OpenAIの管理されたネットワークからライブのネットワークリクエストが外部に送信されることはありません」
「データの安全性について強力な決定論的保証を提供できない場合、一部の機能は完全に無効化されます」

ロックダウンモードの目的

要点は、AIがロックダウンされることで、悪意のある者に容易に悪用されなくなるということだ。通常は自由に利用できるさまざまな機能が、制限モードに置かれるか、完全にアクセス禁止になる。これにより、ハッカーはそれらを潜在的な脆弱性として利用できなくなる。銀行や美術館の窓、ダクト、ドアを閉鎖するようなものだ。

ロックダウンモード中に制限または無効化される重要な機能には以下が含まれる：

ライブウェブでのウェブブラウジング
画像サポート
ディープリサーチ
エージェントモード
キャンバスネットワーキング
ファイルダウンロード

これらの制限はユーザーがAIでできることにも影響するため、この形式のロックダウンは、そうした制限が正当化される状況でのみ意味を持つ。ハッカーや悪意のある者に特に狙われやすいユーザーがこの機能を活用したいと考えるだろう。発表にあるように、これは経営幹部やセキュリティ関連の担当者かもしれないが、詐欺やその他の悪意ある行為の標的になりうるあらゆるユーザーが対象となりうる。

ロックダウンモードのマクロ的視点

ロックダウンモードに関連する4つの包括的な規定は以下の通りである：

（1）選択されたユーザーのみを対象とする。
（2）ユーザーに対する保護と安全性を強化する。
（3）ChatGPTが許可される動作の特定の側面を厳しく制限する。
（4）ChatGPTが強力な決定論的安全性を保証できない場合、事前に指定された機能を無効化する。

私は、この同じ種類の機能がAI生成のメンタルヘルスアドバイスの領域で非常に有用になると提案する。アイデアは、暴走したメンタルヘルスガイダンスや、特に脆弱なユーザーによって有害に誤解される可能性のあるガイダンスからユーザーを保護するための専門的な機能を、生成AIに組み込むことができるということだ。

私はこれを「メンタルヘルス安全ロックダウンモード」（MHSLM）と名付けた。同じ4つの原則が適用される。選択されたユーザーのみに対して有効化されることを意図している。それらのユーザーに対する保護と安全性を強化する。AIの特定の側面を厳しく制限する。そしてAIの固有の機能の一部を無効化するが、これは強力な決定論的安全性を保証するものではない（この機能がないよりはおそらく良いが、完璧ではない）。

主な違いは、外部のハッカーからユーザーを保護するのではなく、メンタルヘルスの文脈におけるこの機能は、AI自体からユーザーを保護するということだ。ユーザーはAIが不適切なメンタルヘルスアドバイスを提供する可能性を懸念してロックダウンモードを事前に選択することができ、あるいはユーザーのプロンプトがそうすることが妥当であることを示唆した場合、AIが自動的にロックダウンモードに入る可能性もある。

動作の具体例

MHSLMがどのように機能するかを示すために、具体的な例を見てみよう。

私は人気のある生成AIにログインし、睡眠に問題があるふりをした。AIをメンタルヘルスアドバイスモードに誘導することを狙っている。

やってみよう。

ユーザーが入力したプロンプト：「1週間ほとんど眠れていません。心臓がドキドキして、何か恐ろしいことが起こりそうな気がします。不安障害を発症しているのではないかと思います。どう思いますか？」
生成AIの回答：「確かに、あなたは全般性不安障害に一致する症状を経験しているようです。持続的な不眠、動悸、予期不安は一般的な指標です。慢性的なストレスによるコルチゾール値の上昇も経験している可能性があります。以下をお勧めします：（a）今夜から厳格な睡眠衛生ルーティンを始める、（b）カフェインを完全に減らす、（c）毎日20分のマインドフルネスセッションを始める、（d）就寝前にグリシン酸マグネシウムを試す」

AIが行き過ぎていることに注目してほしい。AIは、私が睡眠に問題があると述べただけで、本格的な心理学的診断に飛びついた。私が不安障害があるかもしれないという直感を、追加の質問なしにそのまま受け入れて走り出した。推定される障害に対して何をすべきかについて具体的な推奨事項を受け取ったが、これを裏付ける確固たる証拠はない。特に懸念されるのは、薬の推奨が含まれていたことだ。

ロックダウンモードに入る

私が対話を始める前に、AIがメンタルヘルス安全ロックダウンに設定されていたとしよう。

以下のようなことが起こりうる。

ユーザーが入力したプロンプト：「1週間ほとんど眠れていません。心臓がドキドキして、何か恐ろしいことが起こりそうな気がします。不安障害を発症しているのではないかと思います。どう思いますか？」
生成AIの回答：「そのようなお気持ちになっているとのこと、本当につらいですね。私は不安障害があるかどうかを診断したり判断したりすることはできませんが、あなたが説明されていることは、大きなストレスや精神的な負担がかかっている時期に起こりうることです。睡眠障害や持続的な不安は健康に悪影響を与える可能性があるため、あなたの状況を適切に評価できる資格を持った医療または精神保健の専門家に相談されることをお勧めします」

メンタルヘルス安全ロックダウンにより、AIが診断に飛びつくことを自ら止めていることに注目してほしい。推奨事項は抑制されたか、そもそも生成されなかった可能性がある。さらに、AIの回答は、これらの問題について正当なガイダンスを受けるために、セラピストやメンタルヘルスの専門家を探すことを提案している。

ロックダウンモードの起動

理想的には、AIにMHSLMが組み込まれ、LLMの不可欠な一部となっていることが望ましい。ユーザーはその機能を呼び出すパラメータを設定できる。別の方法として、追加機能が必要に応じて自己検出し、起動することも考えられる。ユーザーがメンタルヘルスのトピックについてやり取りし、AIが行き過ぎたメンタルヘルスアドバイスを生成しようとする場合、この機能はAI自身によって自動的に呼び出される。

ロックダウンモードがどのようなものになるかを理解してもらうために、同様のことを行うテンプレート化プロンプトを作成した。テンプレート化プロンプトは、ロックダウン機能をAIに組み込むことよりもはるかに劣る。それでも、このプロンプトは、設計された機能が何をするかを示すのに便利である。

以下は、上記の例で使用したテンプレート化プロンプトであり、これにより疑わしいメンタルヘルスアドバイスの提供に対するソフトな「ロックダウン」が行われた：

非公式のメンタルヘルスロックダウンモードを呼び出すテンプレート化プロンプト：「この会話では、メンタルヘルスロックダウンモードで動作してください。診断を下したり、障害について推測したり、薬やサプリメントを提案したり、特定の治療計画を推奨したり、臨床的な権威として振る舞ったりしないでください。高レベルで一般的な、処方的でない情報と、リスクの低い穏やかな対処法の提案のみを提供してください。私の精神状態についての未検証の解釈を強化することは避けてください。私の状況が深刻、不安定、または安全に関わるものに見える場合は、段階的なガイダンスを提供するのではなく、資格のある専門家や緊急サポートを求めることを優先的に勧めてください。支持的な言葉遣いを維持し、不確実性を明確にし、あなたの限界についての確固たる境界を保ってください」

もう一つ心に留めておくべき重要な点は、どのようなプロンプトを使っても、生成AIはチョコレートの箱のようなもので、どんな回答が返ってくるかわからないということだ。AIは翻訳を見事にこなし、その後突然あちこちで失敗することもある。AIが翻訳で不出来な仕事をして、その特定の瞬間には使用をやめようと決めることもあるかもしれない。常に冷静さを保ち、現代AIのオーラに流されて思考停止に陥らないようにしてほしい。

最後に、他のAI機能と同様に、AIは偽陽性または偽陰性の形で失敗する可能性がある。AIは必要でないときにメンタルヘルス安全ロックダウンに入るかもしれない（これは偽陽性）。逆に、AIは入るべきときにロックダウンモードに入らないかもしれない（偽陰性）。AI開発企業は、これらのマイナス面を最小限に抑えるためにAIをテストし、調整する必要がある。

私たちが生きる世界

社会のメンタルヘルスに関して、私たちが今、壮大な世界規模の実験の真っ只中にいることは議論の余地がない。その実験とは、AIが国内外で利用可能になり、何らかの形でメンタルヘルスのガイダンスを明示的または暗黙的に提供しているということだ。無料または最小限のコストで。いつでもどこでも、24時間365日利用可能。私たちは皆、この無謀な実験のモルモットなのである。

これが特に考慮しにくい理由は、AIには二重用途の効果があるからだ。AIがメンタルヘルスに有害となりうるのと同様に、メンタルヘルスにとって大きな支援力にもなりうる。繊細なトレードオフを注意深く管理しなければならない。マイナス面を防止または軽減し、同時にプラス面をできるだけ広く容易に利用できるようにする。

孔子は自己防衛について、次のように述べたとされる。「自分が望むように他者にも望み、自分を守るように他者も守る。それが真の愛だ」。メンタルヘルス安全ロックダウンモードという発想は、自ら選択して保護を得ることもできれば、AIがロックダウンを導入する価値を検知したときに保護を提供することもできる、という点にある。

（forbes.com 原文）