2026.04.09 15:30

AIは“感じる”のか──アンソロピックの研究が問い直す「Claudeの感情」の意味

John Werner | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

感情の図表──コサイン類似度

研究本文を数ページ読み進めると、「コサイン類似度」と呼ばれるものを使って、感情的な反応と引き金となる出来事を結び付けた図が出てくる。そこでは、たとえばペットの死、立ち退き、嵐の後の再建といった場面に直面したとき、Claudeがどのような反応を示すかを見ることができる。あるいは代表例として、赤ん坊が初めて歩いた場面を、Claudeは「happy」（うれしい）として処理する。ここで分かる有益な点の1つは、Claudeが本当に何かを「感じている」かどうかよりも、感情的な内容を理解し、特定の目的のために使えるかどうかのほうが重要かもしれないということである。

「私たちは、感情ベクトルが単なるプロンプトの低レベルな特徴ではなく、意味内容を表現していることをさらに検証したいと考えました。そのため、人間であればその場面からどの程度強い感情反応を引き起こされるかを数値で調整できるテンプレートを作成しつつ、プロンプトの構造とトークン水準の内容はほぼ一定に保ちました」。

こうして準備を整えたうえで、研究チームは「emotion probe clusters（感情プローブ・クラスター）」を提示する。小さな色つきの球を分子模型のように並べた図で、喜びや怒り、無関心を模擬する応答パターンの集まりに対応している。

「私たちは、クラスター数を変えながらk-means法（k平均法）で感情ベクトルをクラスタリングした。クラスター数を10（k=10）にすると、解釈可能なまとまりが得られる。あるクラスターにはjoy、excitement、elation（喜び、興奮、高揚感）など、覚醒度の高い肯定的な感情概念が含まれた。別のクラスターにはsadness、grief、melancholy（悲しみ、悲嘆、憂うつ）が含まれ、第3のクラスターにはanger、hostility、frustration（怒り、敵意、いら立ち）が含まれた。これらのまとまりは、感情概念の直感的な分類とうまく一致しており、モデルが学習した表現が感情の空間における意味のある構造を反映していることを示唆している」。

こうした図は非常に興味深い。では、実際に何が読み取れるのだろうか。

次ページ＞ AIの行動に関する事例研究