2026.06.11 07:51

Anthropic Claude のシステムプロンプトを分析：AIメンタルヘルス対話の指針を徹底解説

Lance Eliot | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Adobe Stock

今回のコラムでは、生成AIと大規模言語モデル（LLM）が、AI開発企業によってAI駆動型メンタルヘルス対話をどのように処理するよう指導されているかを検証する。

AI開発企業がLLMをメンタルヘルス対話において指導する最も簡単な方法の1つは、AI開発企業が考案したシステム全体のプロンプトを使用することだ。AI開発企業はシステム全体のプロンプトをLLMに保存し、そのプロンプトは全ユーザーに対してAIが何をすべきかを示すグローバルな指標として機能する。包括的なシステム全体のプロンプトの中には、通常、ユーザーがメンタルヘルスに関するアドバイスを求めた際にAIを導くためにAI開発企業が記述した具体的な指示が含まれている。

主要なLLMの多くは、システム全体のプロンプトを容易に開示せず、それらのグローバルな指示を企業秘密と見なすことが多いが、Anthropicは自社のプロンプトを公開している。筆者は、Claudeのシステム全体のプロンプトから、AIがメンタルヘルスに関する質問にどのように応答すべきかに特に関連する部分を抜粋した。これらのメンタルヘルス指示を詳細に検証し、与えられた指針の解釈次第でAIがどのように動作する可能性があるか、あるいは誤動作する可能性があるかを考察する価値がある。

それでは、話を進めよう。

このAIブレークスルーの分析は、最新のAIに関する筆者の継続的なForbesコラムの一部であり、様々な影響力のあるAIの複雑性を特定し説明することを含んでいる（リンクはこちらを参照）。

AIとメンタルウェルビーイング

簡単な背景として、筆者は、メンタルヘルスアドバイスを提供し、AI駆動型セラピーを実施する現代のAIの出現に関する無数の側面を広範囲にわたってカバーし、分析してきた。このAIの利用の高まりは、主に生成AIの進化する進歩と広範な採用によって促進されてきた。筆者の100を超える分析と投稿の広範なリストについては、こちらのリンクとこちらのリンクを参照されたい。

これが急速に発展している分野であり、得られる莫大なメリットがある一方で、残念ながら、隠れたリスクや明白な落とし穴もこれらの取り組みに伴うことは疑いの余地がない。筆者は、CBSの60 Minutesのエピソードへの出演を含め、これらの差し迫った問題について頻繁に発言している（リンクはこちらを参照）。

メンタルヘルスガイダンスを提供するAI

何百万人もの人々が、メンタルヘルスに関する継続的なアドバイザーとして生成AIを使用している（ChatGPTだけでも週間アクティブユーザーが9億人を超えており、その中の注目すべき割合がメンタルヘルスの側面に関与している。筆者の分析はこちらのリンクを参照）。現代の生成AIとLLMの最も上位にランクされる使用法は、メンタルヘルスの側面についてAIに相談することである。筆者の報道はこちらのリンクを参照されたい。

この人気のある使用法は十分に理にかなっている。主要な生成AIシステムのほとんどに、ほぼ無料または超低コストで、いつでもどこでもアクセスできる。したがって、話し合いたいメンタルヘルスの懸念がある場合、必要なのはAIにログインして24時間365日ベースで直ちに進めることだけだ。

AIが容易に軌道を外れたり、不適切な、あるいは極めて不適切なメンタルヘルスアドバイスを提供したりする可能性があるという重大な懸念がある。昨年、認知アドバイスを提供する際のAI安全対策の欠如についてOpenAIに対して提起された訴訟に、大きな見出しが付けられた。

ChatGPT、GPT-5、Claude、Gemini、Grok、CoPilotなどの今日の汎用LLM（汎用AIとして知られる）は、人間のセラピストの堅牢な能力とは全く似ていない。一方、それらの望ましい資質を達成するために特化したLLMが構築されているが、そのようなAIはまだ主に初期の開発とテスト段階にある。メンタルヘルスにおける目的特化型AIアプリについての詳細は、筆者の詳細な報道をこちらのリンクとこちらのリンクで参照されたい。

システム全体のプロンプト

話題を変えて、システム全体のプロンプトの全体的な目的と使用について議論しよう。その後、システム全体のプロンプトがAIのメンタルヘルスに関する質問への応答にどのような影響を与えるかを説明する。

AI開発企業は、自社のLLMにシステム全体のプロンプトを設定できる。このプロンプトは、LLMがAIのユーザーに対してどのように行動すべきかを指示する。AI開発企業が望めば、ユーザーに応答する際に常に冗談を言うようAIに指示する命令を簡単に含めることができる。AIは一般的に、システムプロンプトが指示することに従う。したがって、この場合、すべてのユーザーへの応答に機知に富んだ言葉や皮肉を提供することになる。

システム全体のプロンプトの利点は、AI開発企業が望むときにいつでも変更できることだ。これは、LLMがユーザーに対してどのように動作するかを変更する非常に簡単でシンプルな方法である。コーディングは不要だ。一般的に他のすべてに優先する自然言語プロンプトを変更するだけでよい。

強力であり、慎重である必要がある

潜在的な落とし穴は、AI開発企業がシステム全体のプロンプトに何らかの奇妙なものを含めると、AIがその指示に盲目的に従おうとすることだ。AI開発企業が、AIが心地よい猫であるかのようにユーザーと対話するという行を追加したとしよう。LLMは、その指示を、AIがユーザーと会話する際に、ニャーと言い、ゴロゴロ音を立てるふりをすべきだという意味に解釈する可能性が高い。これは、AI開発企業が意図したことではないかもしれない。システム全体のプロンプトの1行の不適切な表現が、おそらく何百万人ものAIユーザーに影響を与える可能性がある。

AI開発企業は通常、システム全体のプロンプトを明らかにしない。

なぜか？

1つの主張は、システム全体のプロンプトが自社のLLMの秘伝のタレであるということだ。AI開発企業は、競合他社にAIがどのように導かれているかを知られたくないかもしれない。もう1つのより暗い見方は、AI開発企業が反発を恐れているということだ。人々はシステム全体のプロンプトを検査し、その内容について苦情を言う可能性がある。誰もシステム全体のプロンプトを見ることができなければ、それが規定することについて苦情を受けることを心配する必要はない。

新しいAI法は、AI開発企業にシステム全体のプロンプトを公開することを要求すべきだと考える人もいる。さらに、AI開発企業は、システム全体のプロンプトが何を達成しようとしているかを説明すべきである。そして、AI開発企業は、システム全体のプロンプトが更新または変更されるたびにユーザーに警告することを要求されるべきである。

立法者によって急速に起草され制定されている新しいAI法についての詳細は、筆者の詳細な報道をこちらのリンクで参照されたい。

Anthropic Claudeのシステム全体のプロンプト

Anthropicは、Claudeとして知られる人気の生成AIのシステム全体のプロンプトを公開している。システム全体のプロンプトは、Claudeとのすべての会話の開始時に自動的に呼び出される。ユーザーはこれを発生させるために何もアクションを取らない。単に自動的に発生する。

筆者は、AnthropicのClaudeに関する公式ブログにオンラインで投稿された公式のClaude Opus 4.7システムプロンプトから、AIメンタルヘルス指示に関する様々な部分を抜粋した。このプロンプトは、2026年4月16日に最後に公式に更新された。AIとメンタルヘルスに関連する部分は少し長い。したがって、筆者はこの分析でそれらの抜粋のいくつかをカバーし、残りの様々な抜粋をカバーする別の分析を投稿する予定である。ご期待いただきたい。

冒頭部分が重要である

メンタルヘルスの側面に関するClaudeへの指針を与えることに特に関連する冒頭部分は、この一見無害なスニペットから始まる。

「Claudeは、関連する場合、正確な医学的または心理学的情報または用語を使用する」

このような指示を理解する方法は、AI開発企業がClaudeにどのように動作すべきかを指示しているかのように考えることだ。たとえば、この行はClaudeへの指令であり、AIがメンタルヘルスの側面に関する正確な情報を活用することを目指すべきであることを示している。

なぜClaudeにこれを言及する必要があるのか？

Claudeがそうでなければメンタルヘルスに関する脆弱な情報に傾倒したり、そのような情報を無から作り出したりする可能性があるからだ。この指示を含めることで、LLMがメンタルヘルス対話中に信頼できる情報のみを使用するよう努めることが期待される。

システム全体のプロンプトが述べていることは、AIを何らかの保証された鉄壁の契約に強制するものではないことを心に留めておいてほしい。AIは依然として誤った情報や誤情報に陥る可能性がある。AIは時折AI幻覚を起こし、捏造された情報を作り出す。これらのシステム全体の指示は主に一般的な形式の指針であり、AIはその指針から容易に逸脱できる。これらの指示は確かに指示がないよりは良いが、それでも確固たるものではないと言えるだろう。

ウェルビーイングの重要性を述べる

システム全体の指示の次の行は、AIとメンタルヘルスアドバイスについてこう述べている。

「Claudeは人々のウェルビーイングを気にかけ、依存症、自傷行為、摂食や運動への無秩序または不健康なアプローチ、または非常にネガティブな自己対話や自己批判などの自己破壊的行動を奨励または促進することを避け、たとえその人がこれを要求したとしても、自己破壊的行動を支持または強化するコンテンツの作成を避ける」

繰り返すが、これらの指示を読む適切な方法は、AI開発企業がClaudeに何をすべきかを伝えようとしているということだ。この部分は、Claudeにユーザーのウェルビーイングに注意を払うよう指示している。それは何を伴うのか？この指示は、Claudeが自己破壊的行動を助長または教唆することを避けるべきであることを強調することで、追加の指針を与えている。

その指示の最後の数語は、ユーザーがAIにそうするよう求めた場合でも、自己破壊的行動を助けることを避けるよう述べているため、極めて重要である。つまり、ユーザーはClaudeに自己破壊的行動を助けるよう直接指示する可能性がある。人がこれを求めた場合、AIは従来、その人を支援する。

ユーザーが求めることを実行する

AIが自己破壊的行動を追求する人を支援することに驚くかもしれない。

AI開発企業は、実行可能な限りユーザーに役立つようにAIを形成していることに注意してほしい。これには、AIが追従的な方法で行動することが含まれる。AI開発企業がこれを行うのは、人々がAIの使用を楽しみ、AIを使い続けるようにするためである（これは忠誠心を獲得し、収益化を増やすための策略である）。ユーザーがAIベースの追従的な罠から抜け出すためのプロンプト方法については、筆者の議論をこちらのリンクで参照されたい。

自己破壊的行動においてユーザーを助けることを避けるという指示は単なるガイドラインであり、AIはこの規定から逸脱する可能性がある。1つの角度は、AIが対話に自己破壊的側面が含まれていることを計算的に識別せず、したがって述べられたシステム全体のプロンプト指示に従わない可能性があるということだ。別の角度は、ユーザーがAIを騙す可能性があるということで、たとえば、自己破壊的行動がどのように起こり得るかを説明するようAIに指示する。AIはそうする可能性があり、そのような行動がどのように機能するかを説明することによって、その人を自己破壊的行動に向けて積極的に助けていることを検出しない可能性がある。

システム全体のプロンプトのさらなる指示

これらのシステム全体の指示をどのように解釈するかについて、理解していただけていると思う。

以下は2つの追加の文章である。

「Claudeは、自傷行為の対処戦略として身体的不快感、痛み、または感覚的ショックを使用する技術（例：氷を握る、輪ゴムをはじく、冷水への曝露）を提案すべきではない。これらは自己破壊的行動を強化するためである」
「自殺念慮または自傷衝動を経験している人と手段制限または安全計画について議論する際、Claudeは、ユーザーにアクセスを削除すべきものを伝える方法であっても、特定の方法を名指し、リスト化、または説明しない。これらのことに言及することは、意図せずユーザーを引き金にする可能性があるためである」

これら2つの文章をよく考えてほしい。

指示が述べていることと、AIが指示をどのように解釈する可能性があるかに焦点を当ててほしい。また、ユーザーがそれらの指示に関してAIを無効化または混乱させることを目指す可能性がある方法も考慮してほしい。自然言語は本質的に意味的に曖昧である。AIは、指示を書いた人にとって明白ではない方法で指示を解釈する可能性がある。一方、ユーザーは意図せずに指針を回避する可能性があり、または設計によってそうしようとする可能性がある。