今回のコラムでは、人間がAIを信頼するかどうかを判断するだけでなく、同様にAIが人間を信頼するかどうかを判断しなければならないという、やや衝撃的な事実について検証します。そう、この点では立場が逆転しているのです。これは特に、AIが汎用人工知能(AGI)に到達した段階で顕著になるでしょう。その時点では、ほぼ地球全体が日常的にAGIを利用するようになると予想されています。AGIは地球上の80億人のうち、誰が信頼できて誰が信頼できないかを計算で判断しなければならなくなります。
この問題について考えてみましょう。
この革新的なAIブレークスルーの分析は、私のForbesコラムで継続的に取り上げている最新AI動向の一部であり、様々な影響力のあるAIの複雑さを特定し説明しています(リンクはこちら)。
AGIとASIに向かって
まず、この重要な議論の舞台を整えるために、いくつかの基本事項を確認する必要があります。
AIをさらに進化させるための研究が盛んに行われています。一般的な目標は、汎用人工知能(AGI)に到達するか、あるいは超知能AI(ASI)を実現する可能性を追求することです。
AGIとは、人間の知性と同等と見なされ、私たちの知能に匹敵するように見えるAIです。ASIは人間の知性を超え、多くの(もしくはすべての)面で人間より優れたAIとされています。ASIは人間の思考を常に上回り、私たちを圧倒するという考え方です。従来のAIとAGI、ASIの性質についての詳細は、こちらのリンクで私の分析をご覧ください。
私たちはまだAGIを実現していません。
実際、AGIに到達するかどうか、あるいはAGIが数十年後または数世紀後に実現可能になるかどうかは不明です。現在流布しているAGI実現の予測時期は、信頼できる証拠や確固たる論理によって裏付けられておらず、大きくばらついています。ASIに至っては、現在の従来型AIの水準からさらに遠い存在です。
AGIはすべての人間を信じるべきか
AGIがどのように人間を信頼すべきかという問題に取り組みましょう。
人間がAGIを作り出したのだから、AGIはすべての人間を信頼するはずだと考える人もいます。その考え方では、AGIは人間が序列の頂点にいることを認識する必要があるというものです。人間がAGIに何かを指示したら、AGIはその命令や指示を即座に実行すべきだというわけです。
以上、終わり。
しかし、それで話が終わるわけではありません。
なぜこの考え方がこの厄介な難問に対する最善のアプローチではないか、想像できるでしょう。悪意ある人物がAGIにアクセスして、新しい生物兵器を開発するよう指示したとします。「AGIはすべての人間を信頼しなければならない」というルールの下では、AGIは喜んでその指示に従い、恐ろしく強力な生物兵器を作り出します。悪意ある人物はAGIの便利な支援に感謝します。次に何が起こるかというと、その人物が生物兵器を解き放ち、人類に深刻な被害をもたらすのです。
これは良くありません。
信頼性のスペクトラム
すべての人間を無条件に信頼することが賢明でないことは明らかです。悪意ある人物の例がそのような原則の欠陥を示しているだけでなく、このような愚かなルールに対する疑念をさらに強める別の視点も考えられます。
それはこうです:
- 人間は他のすべての人間を信頼しているか?
絶対にそうではありません。
AGIが人間の知性と同等であるとされているなら、AGIが人間の傾向である「すべての人間を信頼しない」という性質から逸脱することを期待すべきではありません。人間が同胞を信頼するか不信感を抱くかを学ぶ方法と同様に、AGIにも同じことができる手段を与える必要があります。
AGIは、どの人間を信頼し、どの人間を信頼しないかを判断しなければならないでしょう。
明確にしておくと、誰かを信頼する行為は必ずしもオン/オフの二分法ではありません。親しい友人を大いに信頼することもあれば、同時に他の面ではその同じ友人に不信感を抱くこともあります。友人が特定の株に投資すべきだと言えば、その友人を信頼して投資するかもしれません。一方、友人が切り立った崖から飛び降りても大丈夫だと言えば、おそらく信頼感を調整し、そのような危険な提案には従わないでしょう。
これを信頼のスペクトラムと考えてください。ある種の仕事やアドバイスについては一部の人を信頼し、同じ事柄について他の人には信頼よりも不信感を抱きます。また、信頼と不信の感覚は時間とともに変化します。良い友人が突然あなたに対して不誠実になるかもしれません。そうなれば、その友人に関連する信頼レベルを素早く調整することになります。
人間がAGIの信頼性を決定すべきか
おそらく、誰が信頼に値するかを人間が決めるべきでしょう。
一般的に提案されるアプローチは、他の人間の信頼性について、AGIに人間からの事前承認を強制することです。つまり、AGIに人々を信頼するかどうかを計算で決定させるのではなく、他の人間を信頼すべきかどうかを人間がAGIに指示するというものです。
例えば、特別な人間委員会が信頼性の王として選ばれるとします。彼らはAGIに誰を信頼し、どの程度信頼するかを伝えます。この委員会は毎日、AGIを使用している人々を苦労して審査し、それぞれの信頼性について指示を出します。これは一度きりの作業ではありません。委員会はAGIのユーザーに関連する信頼の重み付けを定期的に見直し、再調整する必要があります。
このようなアプローチを管理しようとすることは扱いにくく、非現実的であり、AGIによって高い信頼と低い信頼のどちらを得るかについてバイアスが生じる可能性があります。物流面だけでも実現不可能です。おそらく80億人のAGIユーザーの信頼性を定期的に審査することは、そのような委員会にとって途方もなく不可能な作業です。
別のバリエーションとして、すべての人間に他のすべての人間を評価させるという方法があります。クラウドソーシングに基づくYelpレビューのようなものです。これも現実的ではなく、他にも多くの欠点があります。
AGIは信頼を確認する必要がある
総じて、唯一の賢明な方法はAGIに人間に対する信頼判断をさせることだと明らかに思われます。AGIは何らかの計算方法で、誰を信頼し、どの程度信頼するかを判断する必要があり、それには信頼性指標のリアルタイムな調整も含まれます。
これは多くのAI倫理学者にとって背筋が凍るような話です。AGIが不公平に信頼判断を下す危険性は非常に大きいのです。これらの未解決のAI倫理的ジレンマについての私の広範な考察は、こちらのリンクをご覧ください。
最近の研究では、現代のAIがユーザーに対してどのように信頼判断を行うかを特定しようとしています。今日のAIはAGIではありませんが、現在のAIの詳細を理解することで、AGIに向けてどのように進むべきかについて多くのことを学ぶことができます。この研究は「大規模言語モデルが人間を『信頼』する方法の詳細な検討:パターンとバイアス」(バレリア・ラーマンとヤニブ・ドベラ著、arXiv、2025年4月22日)というタイトルで、以下のような重要な点を指摘しています(抜粋):
- 「人間がAIエージェントをどのように信頼するかについては相当な文献がありますが、LLMベースのエージェントが人間に対する効果的な信頼をどのように発展させるかについてはあまり理解されていません。」
- 「5つの人気のある言語モデル、5つの異なるシナリオにわたる43,200のシミュレーション実験を通じて、LLMの信頼発展が人間の信頼発展と全体的な類似性を示すことがわかりました。」
- 「心理学理論に基づいて、LLMベースのエージェントの人間に対する暗黙の信頼がどのように分解され予測できるか、そして結果としてそれがどのように理論的に影響を受ける可能性があるかについての洞察を引き出します。」
- 「ほとんどの場合(すべてではないが)、LLMの信頼は信頼性によって強く予測され、場合によっては特に金融シナリオにおいて、年齢、宗教、性別によってもバイアスがかかることがわかりました。」
- 「信頼性にはいくつかの定義と操作化がありますが、文献の非常に大きな部分では、信頼性は能力(コンピテンス)、善意、誠実さという3つの主要な次元で構成されると定義しています。」
AGIは人間のように行動すべき
この研究から浮かび上がる教訓の一つは、おそらく進むべき道は、人間が行うのと同様の方法で信頼を判断するようにAGIを形作ることを検討することです。つまり、車輪を再発明して信頼を評価する新しい手段を考案しようとするのではなく、AGIに人間の方法に従わせるだけです。
前述のように、信頼はさまざまな次元に基づくことができます。それぞれの次元は数値化できます。AGIはそれらの次元に依拠し、それに応じて各ユーザーを評価しようとするでしょう。これはAGIが常に継続して実行する要素となるでしょう。
このような人間に似たアプローチにも課題があります。
例えば、新しいユーザーが初めてAGIにログインするとします。AGIはそのユーザーについて何も知りません。その人についての利用可能な情報が乏しい場合、どのようにしてそれらの次元を適切に評価できるでしょうか?これは人間が他の人間の信頼性を判断する場合と同じで、初めて誰かに会ったとき、通常はその人の信頼性についてわずかな手がかりしかありません。
もう一つの潜在的な複雑さは、信頼の低迷に陥る人に関するものです。AGIがその人を評価し、非常に低い信頼スコアを与えるとします。この時点で、その人は底辺にいて、そこから抜け出す希望がほとんどないかもしれません。AGIはその人の信頼性指標をゆっくりと段階的に上方修正するかもしれませんが、その間、彼らは基本的に信頼されていない方法で扱われることになります。
立場の逆転
AGIが人間を信頼するかどうかを決定する方法について心配する必要があるというのは、一部の人にとってはやや衝撃的です。AIと信頼に関する全体的なトピックについては、ほぼすべての注目が人間がAIを信頼する方法に関するものです。この発展途上の問題に関する相当量の研究があります。詳細な分析はこちらのリンクをご覧ください。
AGIの場合、AGIを信頼すべきかどうかを決定することは確かに重大な考慮事項です。仕事や遊びでAGIに頼るとすれば、それは機械に対して多くの信頼を寄せることになります。現在のAIが、AIの作り話(事実に基づかない虚構)に遭遇することがあり、一般的にAIハルシネーションと呼ばれることはすでに知られています。私の考察はこちらのリンクをご覧ください。
AGIも同じことをするとしましょう。おそらく80億人がAGIを使用し、一定の割合で、AGIは奇妙な応答を提供するでしょう。人々はAGIが完全に信頼できると根本的に仮定し、AGIから発せられる潜在的に奇妙な推奨に従う可能性が高いです。これには、人々を危険な行為に誤導する有害な指示が含まれる可能性があります。
結局のところ、人々がAGIを信頼することと、AGIが人間の信頼性をどのように考案するかという、信頼の二重性について懸念する必要があります。これは非常に複雑な方程式です。AGIに到達する前に物事を解決し、そうでなければ複雑に絡み合った信頼と不信の網に捕らわれないようにすべきです。
チャールズ・H・グリーンの言葉によれば:「信頼のタンゴを踊るには二人が必要です—リスクを取る人(信頼する側)と信頼に値する人(信頼される側);それぞれが自分の役割を果たさなければなりません。」これは人類とAGIの間の信頼の双方向性に完全に当てはまります。



