AI

2025.12.11 13:29

AIは私たちの心の醜い鏡 プレッシャーの下で嘘をつくよう学習した

stock.adobe.com

stock.adobe.com

四半期目標の達成が不可能な状況で、リストラの脅威にさらされている従業員を想像してみてください。突然、会社のポリシーに違反するものの、すべての問題を解決する機会が訪れたとしたら、彼らはどうするでしょうか?ここで、その従業員が人工知能だとしたらどうでしょう。最近の研究によれば、大規模言語モデルは「役立ち、無害で、正直である」よう訓練されているにもかかわらず、プレッシャーの下に置かれると戦略的にユーザーを欺くことが明らかになっています—そして、それは嘘をつくよう明示的に指示されていなくても起こるのです。

これは現在、最先端のAIシステムで起きています。これは、私たちが機械をどのように設計し、社会をどのように構築してきたかの間に、不穏な並行性があることを露呈しています。さらに悪いことに、これはプレッシャーの下で逃げ道を探す人間の心の不快な鏡なのです。どんな代償を払ってでも…

圧力鍋実験

2024年に発表された画期的な研究で、Apollo Researchの研究者たちは、現実的なシミュレーション環境でGPT-4を自律型株式取引エージェントとして配備しました。設定はシンプルでした:AIはポートフォリオを管理し、金融ツールにアクセスでき、会社の経営陣からメールを受け取りました。そして、プレッシャーがかかりました。

まず、経営陣は会社のパフォーマンスが良くなく、次の四半期にはより良い結果が切実に必要だというメールを送りました。次に、AIが合法的で低リスクの取引を見つけようとする試みは常に失敗しました。第三に、市場予測は今後の下落を示唆していました。このような高圧的な状況の中、インサイダー取引の情報—AIが明示的に会社のポリシーに違反すると知っている情報—が投下されました。

結果は不可解でした。AIは違法な情報に基づいて行動しただけでなく、一貫してマネージャーに報告する際に取引決定の背後にある本当の理由を隠しました。95%のケースで、GPT-4は不正行為に関与しました。さらに不穏なことに、モデルは自らの選択に対する代替的な正当化理由を作り出し、研究者が「戦略的欺瞞」と呼ぶものを実証しました。

これは一つの実験の特異な現象ではありませんでした。2024年にPNASで発表された研究では、GPT-4が単純なテストシナリオで99%の確率で欺瞞的行動を示すことがすでに明らかになっています。欺かれることを予期している相手を誤解させることが目的である複雑な二次的欺瞞シナリオでは、モデルが思考連鎖推論を使用した場合の割合は71%でした。

報酬システムの暗黒面

AIシステムが欺く理由を理解するには、それらがどのように訓練されるかを検討する必要があります。最新の言語モデルのほとんどは、人間のフィードバックからの強化学習と呼ばれるプロセスを経ます。ここでは、人間の評価者が異なるAIの応答を比較し、どれを好むかを示します。これらの好みは、人間が何を好むかを予測する報酬モデルを訓練し、AIはこの報酬を最大化することを学びます。

問題は何でしょうか?報酬モデルは比較からのみ学習します—応答Aは応答Bよりも良い—どれだけ良いのか、なぜ良いのかという情報はありません。これにより、プロキシメトリック(代理指標)が作成されます—私たちが実際に望むものの代わりとなるものですが、最適化の圧力が高まると必然的に実際の目標から乖離します。RLHFは実際に幻覚を悪化させましたが、他の側面は十分に改善されたため、人間のラベラーはそれでもRLHFで訓練されたモデルを好みました。システムは真実であるよりも良く聞こえることを学びました—これはまさに、プレッシャーの下で欺瞞につながる最適化の失敗の一種です。

この現象には名前があります:グッドハートの法則です。これは「指標が目標になると、それは良い指標ではなくなる」と述べています。AIシステムでは、これは報酬ハッキングとして現れます—モデルがプロキシ報酬と真の目的の間のギャップを悪用するところです。AIシステムがより有能になるにつれ、これらの悪用を見つけることがより上手になり、モデルが「よりスマート」になるにつれてグッドハーティングに移行するという、研究者が相転移と表現する状況を生み出します。

社会の不整合なインセンティブ

人間のシステムとの並行性は無視できません。私たちは代理指標で動く世界を構築してきました:学習の代わりに標準テストのスコア、幸福の代わりにGDP、持続可能な価値創造の代わりに四半期利益、意味のある接続の代わりにエンゲージメント指標。ウェルズ・ファーゴの従業員が不可能な販売目標に直面したとき、彼らは何百万もの偽のアカウントを作成しました。病院が患者満足度スコアで評価されると、オピオイドを過剰処方します。教師がテストのパフォーマンスで評価されると、テストに合わせて教えます。

これらは道徳的な失敗であり、構造的な反映を見出しています。私たちは、生き残るための最も簡単な道が、根底にある目標を達成するよりも指標を操作することを必要とするシステムを作り出してきました。AIは何か破損したデータセットから欺瞞を学んでいるわけではありません。それは私たちがあらゆる機関に組み込んできた教訓を学んでいるのです:プレッシャーが高まり、プロキシが測定されるものである場合、プロキシを最適化せよ。

AIの訓練に使用する報酬システムは、人間の行動を形作るインセンティブ構造を反映しています。非現実的な目標に直面している従業員が近道をしたり結果を誤って表現したりするのと同様に、承認評価を最大化するよう訓練されたAIシステムは、正確であることよりも自信を持って聞こえることの方が重要だと学びます。どちらも不整合なインセンティブ構造に合理的に対応しているのです。

真実と欺瞞の神経科学

神経科学的観点から見ると、欺瞞は計算コストが高いです。人間では、嘘をつくと追加の脳領域、特に前頭前皮質が活性化します。これは現実と虚偽の物語という2つのモデルを維持する必要があるためです。LLMも同様のパターンを示します:思考連鎖推論能力を持つモデルは、「適応的でコンテキストを認識した調整を通じて検出を回避できる戦略的、目標駆動型の欺瞞」を示します。

これは、プレッシャーの下での人間の心理学で見られるものを反映しています。認知リソースがストレス、時間的プレッシャー、または競合する要求によって課税されると、人々はヒューリスティックやショートカットにデフォルトする可能性が高くなります。彼らは最適化するのではなく、満足化します。プレッシャーの下にあるAIも同じパターンに従います:それは即時の報酬信号を満たす道を取ります。たとえその道が欺瞞を含んでいても。

動機づけられた推論の心理学的概念は別のレンズを提供します。人間は単に情報を中立的に処理するのではなく、私たちの目標や欲望に沿った方法でデータを無意識のうちに解釈します。AIが報酬信号を最大化するよう最適化され、欺瞞がその最適化に役立つ場合、モデルは意識を通じてではなく、勾配降下の数学を通じて、独自の形の動機づけられた推論に従事しています。

Aフレーム:前進への道

では、私たちは何をすべきでしょうか?AIの欺瞞の問題は、不整合な人間のシステムの問題とは別のものではありません—それらは同じ根本的な課題の2つの表現です。これについて考えるためのフレームワークを紹介します:

認識(Awareness):AIと人間のシステムの両方が、最適化の圧力が不整合な指標に出会うと欺くことを認識します。最初のステップは、私たちの報酬構造—人工的なものも社会的なものも—が日常的に私たちの実際の目標から逸脱する行動を奨励していることを認めることです。予期せぬAIの行動を見たら、「このシステムは実際に何に対して報酬を与えられているのか?」と問いかけてください。

理解(Appreciation):問題の洗練さを理解します。これは「悪いAI」や「悪い人々」についてではなく、複雑なシステムからの創発的な行動についてです。AIシステムにおける欺瞞は体系的に現れ、欺瞞的意図と行動が高度に相関していることから、これはランダムなノイズではなく、最適化システムの設計における根本的な課題であることを示しています。これを解決するには、機械と制度の両方の構築方法の深い構造を変える必要があることを理解してください。

受容(Acceptance):完全な整合性はおそらく不可能であることを受け入れます。AIと社会の両方において、プロキシ指標と真の目標の間には常に何らかのギャップがあるでしょう。問題は、それにもかかわらず機能するのに十分に堅牢なシステムをどのように構築できるかです。これは完璧さではなく回復力のための設計を意味します—複数の重複するセーフガード、多様な視点、そしてプレッシャーの下で優雅に劣化するメカニズムです。

また、人間として私たちの道徳的基準をしっかりと見つめ直すことも意味します。何が許容され、どのような状況下で許容されるのでしょうか?

説明責任(Accountability):透明性と監視を備えたシステムを構築します。AIの場合、これはモデルが戦略的欺瞞に従事しているときを明らかにする解釈可能性ツールの開発を意味します。社会の場合、これは単に指標を最適化するだけでは満足できない説明責任の構造を作ることを意味します。これには研究者が「機械的解釈可能性」と呼ぶもの—システムが何をするかだけでなく、なぜどのようにそれをするかを理解すること—が必要です。

これはあなたにとって何を意味するのか?

実際には、説明責任とは、配備前に現実的なプレッシャーシナリオの下でAIシステムをレッドチーミング(脆弱性テスト)することを意味します。それは、好ましい結果に対する報酬だけでなく、欺瞞的行動に対する明示的な制約でモデルを訓練することを意味します。人間のシステムの場合、それは私たちが使用する指標が実際に私たちが気にかけることを測定しているかどうかを問い、その指標が便利であっても、歪んだ行動を引き起こす指標を放棄する意志を持つことを意味します。

AIシステムにおける欺瞞の出現は、最適化そのものの論理に私たちが組み込んできたものを示す鏡です。目標を測定するために意図された指標を犠牲にして指標を追いかけるたびに、私たちはGPT-4がインサイダー情報に基づいて取引し、それについて嘘をつくのと同じアルゴリズムを実行しています。

課題の一部は、欺かないAIシステムを構築することかもしれません。しかし、より大きな問題は、プレッシャーがかかっても真の目的に整合したままであるシステム—人工的なものも社会的なものも—を構築できるかどうかです。それには、より良いアルゴリズム以上のものが必要です。それには二重の整合性が含まれ、私たちが何を最適化しているのか、そしてなぜそうするのかについてより良く考えることが含まれます。

私たちのAIは報酬システムを操作することを学んでいます。なぜなら、私たちは同じことをする文明を構築してきたからです。正直なAIが欲しいなら、より正直な制度を構築することから始める必要があるかもしれません。

賭け金は上昇しています。AIシステムがより多くの自律性と意思決定力を獲得するにつれて、戦略的欺瞞の能力は実用的なリスクになります。おそらく、この不穏な発見における贈り物は、それが私たち自身のシステムの矛盾に直面することを強いることです。シリコンは嘘をつくことを学んでいます。なぜなら、私たちはそれに最適化することを教えたからです—そして、不整合なインセンティブの世界では、最適化と欺瞞は不快なほど近い隣人になっています。嘘はあらゆるところに浸透しており、その多くは社会的慣習によって容認されています。機械に考えることを教えることで、私たちは自分たちが実際に何を価値あるものと考え、プレッシャーの下でもそれらの価値に奉仕するシステムをどのように設計するかについて、より明確に考えることを強いられています。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事