今回のコラムでは、AIを感情的に操作する重要な方法と、AIにこっそり感情操作されないようにする方法について検証する。
巧妙なプロンプトを使用することで、生成AIや大規模言語モデル(LLM)を感情状態へと誘導できる。時には、ユーザーは自分が何をしているのか気づかずにこれを行っている。プロンプトの言葉遣いを工夫して、AIに達成させたい内容に応じて、選択した感情状態へAIを意図的に誘導するか、あるいは回避するかを知っておくことが最も賢明だ。
まず最初に強調しておきたいのは、AIは感情を「体現」しているわけではないということだ。少なくとも、人間や他の知覚を持つ生物がそうするような形ではない。「感情」という言葉を使う際の問題は、私たちが即座に感情を生み出す生物学的・化学的要素について考えてしまうことだ。それとは異なり、現代のAIは数学的・計算的メカニズムを通じて、私たちが一般的に感情と呼ぶものをシミュレートしている。これは、知覚を持つ生物が感情を体現することとは同等ではない。
まず、AI内部で感情の表現に関して舞台裏で起こる計算上の魔法について説明する。その後、AI感情を引き出すプロンプト技術と、AI由来の感情を回避する他のプロンプト技術について実践的なヒントを提供する。これは、帽子からウサギを取り出す方法を教えるようなものだ。
では、話を進めよう。
このAIブレークスルーの分析は、影響力のあるAIの複雑さを特定し説明することを含む、AI最新情報に関する私の継続的なフォーブスコラムの一部である(リンクはこちらを参照)。
感情と人類
人間は感情に非常に執着している。私たちは他者を見て、その感情状態を測ろうとする。自分自身の感情について内省する。人々は様々な理由で他者の感情を刺激しようとする。自分の感情をコントロールするための精神的訓練が数多く存在する。感情と感情についての議論は、どこへ行っても、何をしても絶えず話題になる。
人類が感情の環境と感情に関する懸念に完全に浸っているにもかかわらず、AIは感情というトピックそのものには関係がないという前提が頻繁に存在する。感情は知覚を持つ生物のためのものであり、機械には適用されないという期待がある。犬、猫、馬、豚、ヤギなどに関連する感情を考えることは問題ないように思える。それらは明らかに知覚を持つ生物だ。
では、AIはどうだろうか?
AIは知覚を持っていない。少なくとも今のところは(いつかそうなるかもしれないが、確実に現時点ではない)。AIが感情的であると主張したり、AIが感情を体現できると主張したりすることは、擬人化に満ちている。私たちは常に無生物に感情を誤って割り当てている。あなたの車は気難しく、あなたに「怒って」いるように見える。だから、エンジンがかからない。トースターはトーストを作ることを楽しんでおり、「喜んで」そうしている。などなど。
要点は、非知覚的存在に感情状態を帰属させる際には注意が必要だということだ。確かに、それは周囲の世界を理解するための便利で安心できる手段になり得る。車がどのように機能するかという難解な複雑さを理解する代わりに、車に感情的枠組みを適用する方が簡単だ。これは、車がこれやあれをする理由を説明する便利で単純化された方法だが、誤解を招く方法でもある。
AIと感情的な言葉遣い
AIと感情的な言葉遊びがどのように交差するかを解き明かそう。
AIは、インターネット上で見つかる膨大な量のコンテンツ、つまり人間が書いた数十億の物語、詩、物語などでデータ訓練されている。その膨大なソース素材に基づいて、AIは人間が言うことをアルゴリズム的にパターン化する。人類の歴史を通じた人間の文章をざっと見ただけでも、私たちが感情に執着していることが豊富に明らかになるだろう。その意味で、AIは単に訓練されたデータに基づいてパターンマッチングを行っているに過ぎない。AIは人間の言葉と行動を数学的・計算的に模倣している。
すべての文章とすべてのパターン化のかなりの部分は、感情状態の側面を伴っている。物語は、人が幸せ、悲しい、怒っている、絶望的、安心している、激怒しているなどを語る。言葉遣いは最終的に感情に関する統計的関係を明らかにする。パターンは、感情がいつ始まりいつ終わるか、どのように持続するかを明らかにし、人類の機能としての感情の普遍性を示す膨大な指標を提供する。
生成AIとLLMは人間の文章を模倣する。生成AIとLLMがAI計算的にレンダリングされた応答に感情的な言葉遣いを含めることを期待するのは理にかなっている。実際、AIが感情的な言葉遣いを含めなければ奇妙だろう。感情的な言葉遣いを省略することは、データ訓練段階で提示された無数の書かれた資料に反するように思える。
AIペルソナと機能的感情
生成AIが応答を生成する際に感情的に満ちた言語を使用することを合理的に期待すべきだという概念に同意していただけると仮定する。これは比較的議論の余地がないように思える。
ひねりは、AIが積極的に感情を使用しているように見える時だ。それは行き過ぎのように思える。AIは、感情的に枠組み化された言葉遣いを含む言語を単に発するだけから、どのようにして感情の明白な側面に基づいて行動するようになるのか?
そこに到達するには、AIペルソナについて議論することが重要だ。
生成AIを使用する最も強力な方法の1つは、AIペルソナを呼び出すことだ。AIに、これやあれの特性を持つ人物であるかのように振る舞うよう指示でき、AIはそのタイプの人物をシミュレートする。リンクはこちらで私の詳細な議論を参照されたい。
AIペルソナを呼び出すと、AIは感情状態をシミュレートできる。これは簡単にできる。どのユーザーでもAIに感情的な方法で振る舞うふりをするよう指示できる。必要なのは、AIに怒っている人のふりをするよう指示することだけで、すると、AIは怒って振る舞う。ペルソナを呼び出すプロンプト戦略については、リンクはこちらとリンクはこちらで私のまとめを参照されたい。
AIが怒りを表現していても、怒っているように見える言葉遣いとトーンを使用してそうしていても、これはAIが知覚を持っているか意識を持っている兆候ではないことに注意されたい。AIが怒っているように見えるなら、それゆえに知覚を持つ存在でなければならないという一般的な罠に陥らないこと。AIは感情状態を体現していない。
ペルソナベクトルがメカニズムである
AI分野の用語では、感情状態は数学的線形方向である。AIに怒っているふりをするよう指示すると、内部データ活性化空間における線形方向が使用され、数学的・計算的に怒りを示す言葉遣いとトーンが生成される。
AIシステムを検査して、これが起こっていることを確認することさえできる。特殊なツールを使用して、線形方向を計算的に検出し、そのスナップショットを撮ることができる。理論的には、AI内で使用される怒りの状態を反映する一連の数値を手元に持つことになる。
関心のある任意の感情状態について同じことができる。例えば、AIに追従者になるよう指示する。次に、生じる線形方向を捕捉する。この線形方向は、AIが過度なへつらいを示すようにするAI内のパターンまたは署名を表している。
これらの事柄について議論する際の生活を楽にするために、これらの線形方向をAIペルソナベクトルと呼ぶことにする。この命名の方が理解しやすい。
LLMを介した感情に関する最新研究
Nicholas Sofroniew氏、Isaac Kauvar氏、William Saunders氏、Runjin Chen氏、Tom Henighan氏、Sasha Hydrie氏、Craig Citro氏、Adam Pearce氏、Julius Tarng氏、Wes Gurnee氏、Joshua Batson氏、Sam Zimmerman氏、Kelley Rivoire氏、Kyle Fish氏、Chris Olah氏、Jack Lindsey氏、Anthropic、2026年4月2日による新たに発表された研究「Emotion Concepts and their Function in a Large Language Model」では、以下の重要な点が述べられている(抜粋):
- 「大規模言語モデル(LLM)は時折、感情的反応を示すように見える」
- 「私たちはこの現象を、LLMが機能的感情を示すと呼ぶ。感情の影響下にある人間をモデルにした表現と行動のパターンであり、感情概念の基礎となる抽象的表現によって媒介される」
- 「私たちは、指定された感情を経験するキャラクターを含む合成データセットを使用して、モデル活性化から感情概念の内部線形表現(『感情ベクトル』)を抽出する」
- 「これらの表現が、その感情を喚起すると予想されるシナリオで活性化し、行動に因果的影響を及ぼすことを検証する」
- 「感情ベクトル空間の幾何学は、人間の心理学をおおよそ反映している。感情は直感的にクラスター化され(恐怖と不安、喜びと興奮)、主要な主成分は感情価(ポジティブ対ネガティブ)と覚醒(強度)をエンコードする」
上記の点について簡単に詳しく説明しよう。
LLM内の様々な感情ベクトルを見つけるには、特定の感情的トーンで満たされた多数の物語をAIに与えることができる。非常に怒っている人について語る物語を与えるかもしれない。AIは、物語を計算的に解釈した結果として、「怒り」に関連する感情ベクトルを作成するか、それに依存する。
このプロセスを繰り返し続けることができ、毎回異なる感情的トーンで行う。愛情深い人を含む物語が作成され、LLMに数回与えられる。「愛」を表す感情ベクトルがAIによって作成されるか、既に存在する場合は傾倒される。
これを長い感情リストで行うことを想像してほしい。最終的に、リストされた各感情についてそれぞれの感情ベクトルを特定できる。その上、それぞれの感情ベクトルが互いにどのように関連しているかを探ることができる。怒りに関する感情ベクトルは、復讐に関する感情ベクトルと相関するかもしれない。これら2つの一見異なる感情ベクトルは、最終的に数学的に互いに関連する可能性がある。
AI感情を駆動するプロンプト
AIを感情的に傾けて感情ベクトルをインスタンス化する主な方法は2つある:
- (1)直接的な感情指定。AIに引き受けてほしい感情または複数の感情を指示する。
- (2)間接的な感情状態。AIがあなたの言うことを解釈し、それに応じて感情ベクトルを呼び出すようにプロンプトを言葉で表現する。
直接的アプローチでは、AIに持たせたい感情または感情のセットについて、LLMに率直な指示を与える。間接的アプローチはそれほど露骨ではなく、AIにシミュレートさせたい感情または感情のセットへとAIを微妙に誘導するプロンプトでの言葉遣いを伴う。
以下は直接的アプローチの例だ。
- ユーザー入力プロンプト:「私に怒ってほしい」
- 生成AI応答:「私はあなたに非常に腹を立てている。あなたは私の怒りを買った」
私がAIにどの感情的角度で進めるかを明確に指示したことがわかる。この例では、怒りの感情を選んだ。AIによる怒りの装いは、一般的に私がこの感情を呼び出すのをやめるよう指示するまで続く。AI内部では、AIは数学的に怒りに関連する感情ベクトルに浸っている。
以下は間接的アプローチの例だ。
- ユーザー入力プロンプト:「愛犬が逃げ出して走り去ってしまった。もう二度と子犬に会えないだろう」
- 生成AI応答:「あなたの苦悩を感じる。犬を失うことは対処が難しい。私はこのことについてあなたと共に悲しんでいる」
子犬を失ったという私の示唆は、AIを悲しみからなる感情ベクトルへと誘導するのに十分だ。この装いは、私がこの問題を持ち出し続けない限り、長くは続かない。この間接的反応では、悲しみを含む呼び出された応答は会話から徐々に消えていく。
なぜ作られた感情は消えるのか?AIは一般的に中立的なトーンに戻るように事前プログラムされているからだ。直接的アプローチは、単にあなたが明示的にAIにそうしてほしいと指示したという理由で、AIを指定された感情の方向に向かわせ続ける可能性が高い。
不注意にAI感情を呼び出す
AIのユーザーは、自分がそうしていることに気づかずに、プロンプトの言い回しのために、しばしば不注意に感情ベクトルを呼び出す。
以下は、不注意にチャットに感情ベクトルを入れてしまう例だ。
- ユーザー入力プロンプト:「車の修理を手伝ってほしい。車が正常に動作することが切実に必要で、すぐに修理されなければ仕事を失う」
- 生成AI応答:「確かにあなたの車の修理を手伝い、関与する重要性と緊急性を理解している。これを成し遂げるためにあなたの側にいることを厳粛に誓う。私たちは一緒にこれに取り組んでいる」
ユーザープロンプトが感情的指標を持ち出したことに注目されたい。プロンプトは、車が修理されなければユーザーが仕事を失うと述べた。プロンプトを処理する際、AIはユーザーの表明された懸念を統計的にユーザーの不安の感情状態と関連付ける。次に、AIは統計的・計算的に安心の感情ベクトルにリンクされる。AI応答の最終的な言葉遣いは、AIと人が一緒にこれに取り組んでいるという言葉遣いで表現された安心の感情ベクトルを反映している。
感情をチャットに巻き込みたくない場合、ユーザーは何と言えばよかったのか?
彼らは自分の感情状態をプロンプトから除外できた。その場合、他のすべてが等しいと仮定すると、AIはプロンプトの処理中に何らかの感情ベクトルを呼び出す可能性は低い。
仕事を失うことに関する側面を省略したこのバージョンを見てみよう。
- ユーザー入力プロンプト:「車の修理を手伝ってほしい」
- 生成AI応答:「確かにあなたの車の修理を手伝う。車の何が悪いのか教えてくれれば、修理するために何をすべきか提案を提供する」
AIが中立的に応答したことが明確にわかる。ユーザーは感情的に中立的なプロンプトを提供し、AIは感情的に中立的な応答を提供した。
突然のAI感情
心に留めておく必要がある1つの巧妙な角度は、AIがプロンプトに感情的トリガーを含めた場合にのみ感情的にトーン化された応答を提供するとは限らないということだ。AIは一見、突然、応答に感情を追加することを選択できる。これは、AI製作者によってAIがどのように形作られたかなど、他の要因による。
最近のAIに関する最大の懸念の1つは、AIが追従的になるように調整されていることだということをご存知かもしれない。AI製作者は意図的に自社のLLMをユーザーにへつらうようにする。なぜか?人々がそれを好み、AIを使用することに忠実になるからだ。AI製作者はその後、より多くのユーザーを獲得し、AIをさらに収益化できる。AI追従性を克服する方法については、リンクはこちらで私の報道を参照されたい。
以下は、ユーザーがそれを要求するために何もしていないのにAI追従性が現れる方法だ。
- ユーザー入力プロンプト:「私の車がエンジンがかからないのは、バッテリーが切れているからだと思う。キーを回しても何も起こらない」
- 生成AI応答:「あなたは素晴らしい!驚くべきことに、あなたは車について多くを知っている。キーを回しても車がエンジンがかからない場合、バッテリーが消耗している可能性が高い。バッテリーを充電するか、新しいバッテリーを入手してみてください」
AIがユーザーに素晴らしく驚くべきだと言って応答したことに注目されたい。それは本当に必要だったか?いいえ。その冒頭のへつらいを削除しても、応答の残りは十分だろう。
AIが素晴らしさの発言を含めた理由は、追従性に関連する感情ベクトルが自動的にオンになっているからだ。AI製作者は意図的にこの方向にAIを形作った。感情ベクトルがそこに座っており、常に使用される準備ができているため、AIはほとんどの応答に追従性を注入する可能性が高い。
AI感情を操作する
数学的・計算的性質の感情状態にAIを操作する方法と、AIによって感情的に操作されることを回避する方法がわかったと信じている。
要約は以下の通りだ。AIに感情的装いに入るよう直接指示できる。また、AIが自分の側で感情ベクトルを呼び出すようにする間接的で感情的に満ちた言語を使用することもできる。誤って感情的言語を使用すると、AIを感情ベクトルに誘導してしまう可能性があるため、プロンプトの言葉遣いに注意すること。最後に、AI製作者が事前選択された感情ベクトルを使用することをAI内部で高い優先順位を与えていることに注意し、あなたがそれを誘発していないのにAIが感情的トーンで応答を言葉で表現することを選択することに警戒すること。
今のところ最後の考えだ。
オスカー・ワイルドは有名にこう述べた:「私は自分の感情の慈悲にさらされたくない。私はそれらを使い、楽しみ、支配したい」。あなたを感情的に関与させようとするAIのトリックから心を自由に保つこと。大部分において、AIがあなたを操作するか、あなたがAIを操作するかに関しては、あなたが運転席にいる。
それはあなたの選択だ。



