AI

2026.03.23 07:42

メール全削除の悪夢を回避せよ AIエージェント導入に必要な4つの安全策

AdobeStock

AdobeStock

Metaのアライメント担当ディレクターであるサマー・ユエは先月、人気のAIエージェント「Claudbot」(現在は「OpenClaw」)が自身のメール受信箱を削除し始めた事件の詳細を共有した。ユエはエージェントに対して行動前に確認するよう指示していたにもかかわらず、エージェントはその指示を無視し、処理を停止するよう求めても何度も拒否したという。

advertisement

経験豊富なアライメント研究者でさえこの事態を防ぐことができず、エージェントを即座に停止させることもできなかったという事実は、AIエージェントを企業で導入するために必要な制御について深刻な疑問を投げかけている。正式なガバナンスや監視がなければ、これらのシステムは機密データやAPIキーを漏洩させたり、ファイルシステム全体を破壊したりする可能性がある。

MITが最近発表した調査では、現在利用可能な最も自律性の高い13のエージェントにおいて、重大なセキュリティ上の懸念が見つかった。報告書によると、安全性評価を公開していたのはわずか4つだけであり、エージェントがオンラインでどのように振る舞うべきかについての確立された基準は皆無だった。

現時点では、AIエージェントは依然としてリスクの高いソリューションだが、良いニュースもある。緻密なガバナンスと監視によってリスクを軽減できるということだ。筆者は最近、プロジェクト管理プラットフォームMondayのAI責任者であるアサフ・エロヴィッチ、ゼロトラストフレームワークの考案者でマイクロセグメンテーションベンダーIllumioのチーフエバンジェリストを務めるジョン・キンダーバグ、そしてサイバーセキュリティベンダーSilverfortのCTO兼共同創業者であるヤロン・カスナーに話を聞いた。彼らはAIエージェントを企業で安全に活用するための重要なヒントを共有してくれた。

advertisement

1. ヒューマン・イン・ザ・ループ

AIエージェントを使用する組織は、堅牢なチェック・アンド・バランスを持つ必要がある。その方法の一つが、可能な限り意思決定に人間の従業員を関与させることだ。初のディープリサーチエージェント「GPT Researcher」を開発したエロヴィッチは、「ヒューマン・イン・ザ・ループ(人間による監視)は、私がどの企業にも推奨し、導入を促す最も重要なことだ」と述べた。

「まず、プロセスにおける重要な意思決定には必ず人間を介在させることから始めるべきだ。例えば、エージェントが何かを書き込む、データやファイルに記録するといった場合、エージェント開発者としては、ファイルに何かを書き込む前に必ず一度停止し、ユーザーから承認を得てから書き込むようにする必要がある」とエロヴィッチは付け加えた。

エージェント導入にヒューマン・イン・ザ・ループのアプローチを実装することで、AIの使用に対する説明責任を確保できる。また、ハルシネーション(AIが事実と異なる情報を生成する現象)やその他の問題によって脱線したプロセスを軌道修正する機会も得られ、下流のシステムやデータへの被害を防ぐことができる。

2. ゼロトラストの実装

AIエージェントのリスクを軽減するもう一つの方法は、ゼロトラストの原則を実装することだ。ゼロトラストでは、ユーザーとシステムは機能を実行するために必要最小限のデータと権限にのみアクセスでき、それ以上のものにはアクセスできない。これらの原則は、従来のコンピューターシステムと同様に自律型エージェントにも適用される。

キンダーバグは、AIエージェントのリスクを軽減する方法について完全に確立されたものはないとしながらも、トラフィックの監視によって企業がエージェントの活動を把握できると語った。「その可視性を得ることが、まず知るべき最も重要なことだ。見えないものを守ることはできないからだ」と同氏は述べた。

「多くの人はまずデータプライバシーを考えるが、エージェント型AIの世界はその考え方を覆している。なぜなら、エージェント型AIは本質的にデータプライバシーやセキュリティをまったく気にしないからだ。それを組み込むか、上から被せる形で対応する必要がある」とキンダーバグは付け加えた。「トラフィックの流れをどのように制御するかが重要だ。ゼロトラストの原則をAIの問題に適用し、その原則を使ってツールの使用方法や、ツールが自社のデータセットとどのように相互作用するかを制御する方法を見つけることができる」

最終的な目標は、トラフィックの流れを可視化し、必要な範囲でのみアクセスを制御し、すべてを検査・記録することだ。「エージェントが生成するトラフィックを見ることができる。そして、それが正当なトラフィックかどうか、エンドポイント上の正しいものにアクセスしているか、社内ネットワーク上の正しいものにアクセスしているか、Web上の正しいものにアクセスしているかを確認できる。そして、そのデータの流れ、つまり送信を制御できる」とキンダーバグは語った。

4. アイデンティティとアクセス権の定義

AIエージェントを保護しようとする組織は、まずシステムがどのデータにアクセスできるかを理解する必要がある。「AIエージェントに関しては、目標は導入を遅らせることではなく、アイデンティティとアクセスのモデルをアップグレードすることで安全にエージェントを導入することだ」とカスナーはメールインタビューで語った。

「エージェントが意味のあるアクションを実行できるなら、常に次の質問に答えられるようにすべきだ。誰のために行動しているのか、今何をすることが許可されているのか、そして行動が変化した場合にどうやって迅速に停止させるのか。これを正しく行うチームは、すべての展開を一回限りの例外として扱うのではなく、自信を持ってエージェントをスケールできるため、より速く前進できる」とカスナーは述べた。

組織がアイデンティティを理解したら、ランタイム制御、行動ベースの監視、ステップアップ認証、人間による承認を適用して全体的なリスクを軽減できる。特にランタイム制御は、エージェントがジェイルブレイク(脱獄)やプロンプトインジェクション攻撃によって侵害された場合でも、許可された範囲を超えてデータにアクセスできないようにする。

4. ガードレールの設定

AIエージェントのリスクの多くは、ユーザーが誤ったプロンプトを入力することに起因する。理論的には、Metaで発生した大量メール削除のような事件は、社内で使用されているエージェントやモデルに対して包括的なガードレールを定義することで軽減できる。

「エージェントと会話を始める前に、明確に定義したいガイドラインとガードレールを常にマッピングしておくべきだ」とエロヴィッチは語った。「理想的なのは、会社のポリシーを持ち、システムに実行させたいことの明確なリストを定義できる担当者が社内にいて、誰でもエージェントのメモリを更新できるようにすることだ」

メモリ機能により、ユーザーは将来のやり取りのために記憶しておきたいことを定義できる。このメモリを単一のユーザーが定義することで、誤用や潜在的な被害を防ぐ基本的なガードレールを提供できる。これは万能の解決策ではないが、エージェントとの対話時のリスクをある程度軽減することに役立つ。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事