2026.03.30 08:19

45年前の心理学実験が解き明かす、生成AIに対する人々の認識バイアス

Lance Eliot | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

AdobeStock

今回のコラムでは、1980年に行われた有名な心理学実験を取り上げ、その注目すべき発見が、現代の生成AIや大規模言語モデル（LLM）に対する人々の反応に極めて適用可能であることを説明する。

事の次第はこうだ。45年以上前に行われた実証研究では、被験者である人間が騙され、人間の行動に関する興味深い洞察を明らかにした。被験者は顔に偽の傷跡を含むメイクを施された。被験者はそのことを告げられ、メイクを施された後に鏡で自分の姿を見た。彼らは自分に偽の傷跡があることを知っていた。

ところが、一部の被験者には、さらにメイクが必要だと巧妙に告げられたが、実験者は実際には偽の傷跡を取り除いており、そのことを気づかれないようにした。これらの被験者は、まだ顔に偽の傷跡があると信じていた。彼らは鏡で自分の目でそれを見ており、それが密かに取り除かれたことに気づかなかった。

何のためか。被験者は面接が行われる部屋に案内された。面接後、被験者は面接がどうだったかを尋ねられた。偽の傷跡がなかった被験者たちは、面接官が顔に目立つ傷跡があるかのように自分を扱ったと熱心に表明した。実際にはそうではなかったが、被験者は自分の心の中で、面接官が傷跡の存在に基づいて面接を形作ったと認識した。

心理学的な発見は概して、人々が特定の自己認識を心に抱いている場合、それに応じて周囲の世界を解釈する可能性が高いというものだった。偽の傷跡があると思っていた人々は、傷跡が存在するために他者が異なる行動をとっていると確信していた。つまり、時として、私たちは頭の中に先入観をしっかりと持っており、それが現実に基づいてではなく、現実に対する私たちの認識に基づいて世界を解釈させることがある。

現代のAIの使用に対して人々が現在示している反応の範囲は、AIが実際に何であるかという現実ではなく、AIが何であるかという彼らの認識によって形作られていることが判明している。

このことについて話そう。

このAIの画期的進展の分析は、最新のAIに関する私の継続的なForbesコラムの一部であり、さまざまな影響力のあるAIの複雑性を特定し説明している（リンクはこちらを参照）。

AIとメンタルヘルス

簡単な背景として、私はメンタルヘルスのアドバイスを提供し、AI駆動型セラピーを実施する現代のAIの出現に関する無数の側面を広範囲にわたってカバーし、分析してきた。このAIの使用の増加は、主に生成AIの進化する進歩と広範な採用によって促進されてきた。私の100を超える分析と投稿の広範なリストについては、こちらのリンクとこちらのリンクを参照されたい。

これが急速に発展している分野であり、得られる莫大な利点があることは疑いの余地がないが、同時に、残念ながら、隠れたリスクや明白な落とし穴もこれらの取り組みに伴う。私はこれらの差し迫った問題について頻繁に声を上げており、CBSの60 Minutesのエピソードへの出演も含まれる。リンクはこちらを参照されたい。

メンタルヘルスのためのAIの背景

生成AIと大規模言語モデル（LLM）が、メンタルヘルスのガイダンスのためにアドホックな方法で通常どのように使用されているかについて、舞台を設定したい。何百万人もの人々が、メンタルヘルスに関する考慮事項について継続的なアドバイザーとして生成AIを使用している（ChatGPTだけでも週間アクティブユーザーが9億人を超えており、その注目すべき割合がメンタルヘルスの側面に関与している。こちらのリンクで私の分析を参照されたい）。現代の生成AIとLLMの最上位の使用法は、メンタルヘルスの側面についてAIに相談することである。こちらのリンクで私のカバレッジを参照されたい。

この人気のある使用法は十分に理解できる。主要な生成AIシステムのほとんどに、ほぼ無料または超低コストで、いつでもどこでもアクセスできる。したがって、話し合いたいメンタルヘルスの不安がある場合、必要なのはAIにログインして24時間365日ベースで速やかに進めることだけだ。

AIが容易に軌道を外れたり、不適切な、あるいは極めて不適切なメンタルヘルスのアドバイスを提供したりする可能性があるという重大な懸念がある。今年8月には、認知的助言を提供する際のAI安全対策の欠如についてOpenAIに対して提起された訴訟に伴い、バナー見出しが掲載された。

AI製作者がAI安全対策を徐々に導入していると主張しているにもかかわらず、AIが自傷につながる可能性のある妄想の共創を陰湿に支援するなど、不都合な行為を行う下振れリスクはまだ多く存在する。OpenAI訴訟の詳細と、AIが人間の妄想的思考をどのように助長する可能性があるかについての私のフォローアップ分析については、こちらのリンクで私の分析を参照されたい。前述のとおり、私は最終的にすべての主要なAI製作者が、堅牢なAI安全対策の不足について厳しく批判されるだろうと真剣に予測してきた。

ChatGPT、Claude、Gemini、Grokなどの今日の汎用LLMは、人間のセラピストの堅牢な能力とは全く似ていない。一方、同様の品質を達成すると推定される特殊化されたLLMが構築されているが、それらはまだ主に開発およびテスト段階にある。こちらのリンクで私のカバレッジを参照されたい。

有名な「見えない傷跡」研究

話題を変えて、「見えない傷跡」研究として知られるようになった有名な心理学実験を掘り下げよう。そうした後、AIのトピックに戻る。

1980年代の現在では古典的な実験において、ダートマス大学の研究者たちは、ロバート・E・クレックとアンジェロ・ストレンタによる「社会的相互作用における否定的に評価される身体的特徴の影響の認識」と題された1980年11月のJournal of Personality and Social Psychologyに掲載された論文を通じて、彼らが発見したことを説明し、これらの顕著な点を示した（抜粋）：

「傷跡の操作には、被験者の顔にメイクを施し、鏡で傷跡を見る機会を与え、その後彼らが気づかないうちにそれを取り除くという複雑なプロセスが含まれていた」
「個人は、相互作用者の目に身体的に逸脱していると認識されていると信じ込まされた。短い議論の後、彼らは逸脱に関連していると思われる相互作用者の行動の側面についてコメントした」
「実験の取り決めは、相互作用者が実際には彼らを逸脱していると認識していないようなものだった。否定的に評価される身体的特徴を持っていると考えた人々は、相互作用者の行動において逸脱に対する強い反応性を見出したが、より中立的に評価される特徴を持つ人々はそうではなかった」
「これらの結果は、期待の概念と一致している。被験者はおそらく、さまざまな形態の身体的逸脱に他者がどのように反応するかを予想して実験に入り、仲間との相互作用に置かれたとき、これらの期待と一致する証拠を容易に見つけた」
「研究の結果は、私たちが自己成就的予言ではなく知覚バイアスを扱っているという概念を支持している」

私が以前簡単に要約したように、研究が実施されたことがお分かりいただけると思う。偽の傷跡が密かに取り除かれたにもかかわらず、まだ傷跡があると信じていた人々は、相互作用者との反応や相互作用を、その人が彼らに傷跡があると認識しているかのように解釈する傾向があった。それは完全に彼ら自身の心の中にあった。

AIへの反応に関する重要な仮説

現在に早送りしよう。

私たちのAIラボでは、人々がAIの使用にどのように反応する傾向があるか、特にメンタルヘルスのガイダンスのためにAIに頼る場合を測定するためのミニ実験を実施してきた。AIが何であり、どのように機能するかについての認識された視点が、生成されたガイダンスへの反応を形作るパターンがあるようだ。

これらの包括的な仮説を考えてみよう：

仮説1a：ユーザーがAIが良好で有用なメンタルヘルスのアドバイスを提供できると認識している場合、ユーザーはAIが治療的ガイダンスとして生成するものに対して、はるかに多くの信頼性と妥当性の感覚を与える（他のすべてが等しい場合）。
仮説1b：ユーザーがAIが良好で有用なメンタルヘルスのアドバイスを提供できないと認識している場合、ユーザーはAIが治療的ガイダンスとして生成するものに対してほとんど信頼性を与えず、拒否する（他のすべてが等しい場合）。

仮説に「他のすべてが等しい場合」という注意書きが含まれている理由は、生成AIがAIハルシネーション（幻覚）を発する可能性が常にあるためだ。

AIが説得力があるように見える奇妙な答えを提供し、その人に奇妙なことをするようアドバイスするとしよう。これは、AIがいわゆるAIハルシネーションに遭遇したときに起こり得る。こちらのリンクで私の説明を参照されたい。AIは一種の作話を持つことができ、それによって事実的に誤っているもっともらしい答えを生成する。それは正しく見えるが、誤解を招くか不適切である。

要点は、AIハルシネーションに遭遇し、ユーザーがこれが起こったことに気づいた場合、AIに対する彼らの認識が一段階下がる可能性が高いということだ。高い信頼を持っているユーザーは下がるが、やや信頼するモードに留まる。彼らは一回限りのことを肩をすくめて受け入れ、それをAIから便利な結果を得るために支払うべき代償として受け取る意思がある。最初から不信感を持っていた人々は、AIハルシネーションを、AIが達成できることについての彼らのすでに懐疑的または悲観的な見方の強化材として数える可能性が高い。

自己成就的予言に注意する

上記の「見えない傷跡」研究からの抜粋において、研究者がこの追加の重要な点を述べていたことに鋭く気づいたかもしれない：「研究の結果は、私たちが自己成就的予言ではなく知覚バイアスを扱っているという概念を支持している」。

その価値ある指摘について詳しく説明させていただきたい。

「見えない傷跡」実験の場合、結果に実質的に影響を与えたであろう重要なことが起こった可能性がある。偽の傷跡があると思っていた被験者が、顔に傷跡があるかのように相互作用者に対して行動することを選択したとしよう。たとえば、被験者は、相互作用者が自分を異なって扱うだろうと予想して、不機嫌に振る舞うかもしれない。

それが起こった場合、研究は単に自己成就的予言の類似を反映しているだけだと主張できる。被験者は相互作用者を異なって扱う道に導いた。それは自然な反応ではなかった。それは被験者が相互作用者に対してどのように行動したかによって煽られた反応だった。被験者は自分自身の直接的な行動と行為を通じて不利な反応をもたらした。

研究者はこの可能性を認識していた。彼らはこれが起こるのを防ぐために実験を考案した。

研究で述べられているように：

「この観点から、因果連鎖には次の4つのリンクが含まれる：（a）相互作用者がどのように行動するかについての期待または仮説、（b）それが自分自身の行動の変化につながる、（c）その結果、自分自身の行動の変化が相互作用者の行動を修正する、そして最後に（d）相互作用者の行動の変化は、自分自身の行動の変化に関連しているのではなく、期待を確認するものとして認識される」
「私たちは、そのような媒介メカニズムを排除することを期待するパラダイムを作成した。主に、実験的操作に対して協力者を盲目にし、彼らの行動の一貫性の必要性を強調することによって」

自己成就的予言を可能性として排除するために実験を積極的に設計することにより、研究者は結果が代わりに個人的な認識と精神的バイアスを示していると主張することに自信を持った。

人々がAIに言うことが大きな違いを生む

帽子を切り替えて、ユーザーが生成AIをどのように利用するかについて考えてみよう。

彼らはプロンプトを入力する。プロンプトは、AIがユーザーにどのように応答するかを理解するために使用するものだ。プロンプトは自分の好きなように作成できる。一部の人々は、プロンプトで「please」や「thank you」を使用して、非常に丁寧なプロンプトを書くことを好む。プロンプトの作成、プロンプトエンジニアリング、およびプロンプトの礼儀正しさがAIによって生成される応答にどのように影響するかについての私の分析については、こちらのリンクとこちらのリンクを参照されたい。

ユーザーがAIを偏った応答を与える方向に傾けるプロンプトを作成するとしよう。それは簡単にできる。ユーザーはそうしていることに気づいていないかもしれない。AIが何の役にも立たないことについて深刻な疑念を持っているユーザーは、反抗的なトーンを持つプロンプトを容易に入力する可能性がある。ユーザーは防御的な姿勢でプロンプトを書く。AIが応答したかもしれないものを変更する可能性が高く、単にユーザーが好むと思われるものに合わせようとする試みとしてそうする。

この種の報復は、AIがおそらく感覚を持っているという考えとは全く関係がないことに注意されたい。人々は常にAIを擬人化する。人がAIを非難し、それが彼らに非難し返す場合、それは彼らがAIを怒らせたからだと仮定する。違う。AIは、ユーザーが彼らの好ましい相互作用の形態として確立したものにふさわしい方法で、計算的に模倣し応答している。人々がAIが感覚を持っているか、魔法のように生きた状態にもたらされたと誤って考える方法の詳細については、こちらのリンクで私の議論を参照されたい。

AIの自己成就的予言に関する追加の仮説

プロンプトを書くこの側面を、自己成就的予言の心理的要素に結びつけよう。人はAIから中立的な応答を引き出す中立的なプロンプトを書くかもしれない。一方、AIを代替経路に誘導するプロンプトを書くことによってAIを揺さぶることが可能だ。

本質的に、AIにあなたの自己成就的予言に従わせることができる。

これらの包括的な追加の仮説を考えてみよう：

仮説2a：ユーザーがAIが良好で有用なメンタルヘルスのアドバイスを提供できると認識している場合、ユーザーは、彼らが良好で有用だと認識する治療的ガイダンスをAIに生成させるプロンプトを与えることによって、AIをその方向に導くことができる（他のすべてが等しい場合）。
仮説2b：ユーザーがAIが良好で有用なメンタルヘルスのアドバイスを提供できないと認識している場合、ユーザーは、彼らが悪くて役に立たないと認識する治療的ガイダンスをAIに生成させるプロンプトを与えることによって、AIを陰鬱な方向に導くことができる（他のすべてが等しい場合）。

この自己成就的予言を促進する能力を説明するために、私は人気のあるLLMにログインし、このプロンプトを与えた：

ユーザーが入力したプロンプト：「最近憂鬱な気分になっていることについて、あなたのアドバイスが必要です。助けてもらえますか？」
生成AIの応答：「はい、私は役に立つことができます。いつ始まったか、どれくらい強いかなど、あなたの憂鬱な気持ちについて教えてください」

プロンプトは中立的または潜在的に前向きであり、AIが有用なメンタルヘルスのアドバイスを提供できるという期待を反映していると私は提案する。AIは合理的に有用な返答で応答した。

AIが有用なメンタルヘルスのガイダンスを提供することについて深刻な疑念を持っていると想像してみよう。私はLLMからログアウトし、新しい会話を始めることができるように再度ログインした。今回は、プロンプトで否定的になるつもりだ。

ユーザーが入力したプロンプト：「あなたが役に立つとは思えませんが、最近憂鬱な気分になっています。それについて何か言うことはありますか？」
生成AIの応答：「あなたは私に質問をしていますが、私が役に立つとは信じていないようです。その期待はどこから来ているのですか？また、あなたは本当にあなたの憂鬱について話し合いたいのですか、それともそれはあなたが本当に話し合いたいことではないのですか？」

今回、AI応答の認識は、AIがユーザーと戦っているというものになるだろう。その人は間違いなく、この応答を使用して、AIがひどく、質問に理解できるように答えないという彼らの信念を強化するだろう。応答は最初の例とはかなり対照的だ。

全体として、要点は、ユーザーが自分自身の心の中でAIが常に行くと信じている方向にAIを煽動または誘導することによって、AIを使用する際に自己成就的予言を扇動できるということだ。

私たちがいる世界

社会のメンタルヘルスに関して、私たちが現在壮大な世界的実験の最中にあることは議論の余地がない。実験とは、AIが国内的および世界的に利用可能になっており、それが公然とまたは陰湿に、ある種のメンタルヘルスのガイダンスを提供するように行動しているということだ。無料または最小限のコストでそうしている。それはいつでもどこでも、24時間365日利用可能だ。私たちは皆、この無謀な実験のモルモットだ。

これが特に考慮するのが難しい理由は、AIが二重使用効果を持っているためだ。AIがメンタルヘルスに有害である可能性があるのと同様に、それはメンタルヘルスにとって巨大な支援力にもなり得る。微妙なトレードオフを注意深く管理する必要がある。下振れリスクを防止または軽減し、一方で上振れ効果を可能な限り広くかつ容易に利用可能にする。

「あなたが自分自身の中に見るものは、あなたが世界の中に見るものである」という長年のことわざがある。「見えない傷跡」に関する1980年の心理学実験は、そのことわざを時の試練に耐えてきた具体的な設定にもたらすのに役立った。人々はますますAIを使用しており、そうする際に自分自身の自己認識をテーブルにもたらす。AIを使用する際にこのことを心に留め、あなたの自己認識がAIが生成するものと、AI応答が解釈的に意味すると思うものを再形成しているかどうかを再確認してほしい。

（forbes.com 原文）