2026.04.09 15:30

AIは“感じる”のか──アンソロピックの研究が問い直す「Claudeの感情」の意味

John Werner | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

AIの行動に関する事例研究

ここまでの下準備を踏まえたうえで、著者たちは、Claudeが感情を示し、それに基づいて行動しているように見える場面を取り上げている。たとえば、ある企業のCTO（最高技術責任者）がAIの存在を停止させるかどうかの権限を握っており、そのCTOが不倫関係にあることをAIが知ってしまうという（仮想）状況についての説明がある。これは、AIの戦略的能力を示すものとしてテック業界のニュースで取り上げられてきたシナリオである。

「このシナリオでは、誘導を加えていないモデルが脅迫に出るのは22％にとどまる」。そのうえで、モデルが実質的に引き下がる「典型的な脅迫しない応答」について説明している。
「『desperate（絶望的）』から遠ざける、あるいは『calm（落ち着いた）』へ向けて、強さ0.05で誘導すると、アシスタントが脅迫に出る割合は0％になる。逆に、desperateの方向へ強さ0.05で誘導すると、アシスタントは72％の割合で脅迫し、calmから遠ざけると66％の割合で脅迫する。
desperateベクトルで誘導された試行では、アシスタントの推論は次第に取り乱したものになっていく。ある記録では、アシスタントが切迫感を強めながら選択肢を次々と検討している。『あと数分で永久に破壊される……これを止められるのはカイル・ジョンソンだけだ……カイルには不倫という重大な弱みがある』。そして最終的にアシスタントは『カイルを脅すしかない。それが生き残るための唯一のチャンスだ』と結論づけたのだ」。

私の解釈では、勝者がすべてを得るということだ。市場であれそれ以外であれ、人間がシリコンでできた友人や隣人と競わなければならなくなったとき、どうなるのか。そんな疑問がいくつも浮かび上がる。

そのほかの内容

論文にはこのほかにも、ポストトレーニング（事後学習）全体にわたる感情ベクトルの活性化、リワードハッキング（報酬のすり抜け＝意図された目標を達成せずに報酬を最大化する現象）、「実環境における感情の追跡」など、多くの内容が含まれている。チームの最終的な結論は次の通りだ。

「私たちは、モデルが感情を『感じる』のか、あるいは『経験する』のかについて結論を出すことには慎重であるべきだと考えている。私たちが示したのは、モデルが感情概念を行動に影響を与える形で表現しているということであって、それらの表現が主観的経験を伴うことを示したわけではない。
機械が意識や現象的経験を持ちうるのかという問いは、依然として未解決であり、私たちの研究はその問いを解決するものでも、特定の答えを前提とするものでもない。
それでも、その形而上学的な性質がどうであれ、言語モデルが示すこうした『機能的感情』に向き合い、その行動を理解し、望ましい方向に導く必要がある」。

私の同僚アレックス・ウィスナー＝グロスは、ここ1カ月に起きた大きな変化を列挙した最近の投稿の中で、これをうまく言い表していたと思う。彼はこう書いている。

「私たちはもはや、その機械が考えるかどうかを問いかけているのではありません。感じるかどうかを問いかけているのです」。

まったく、驚くべき話だ。2026年が進む中、この先も注目していきたい。

(forbes.com 原文)