2025.11.21 09:56

AI開発者に警告：微量の悪質データが生成AIシステム全体を毒する新たな脅威

Lance Eliot | Contributor

著者フォロー

記事を保存

Adobe Stock

今回のコラムでは、生成AIや大規模言語モデル（LLM）が、AI構築の初期段階でわずかな悪意あるデータによって汚染される可能性があるという重要な発見について検証します。これは非常に憂慮すべき結果をもたらします。簡単に言えば、悪意ある行為者がLLMの構築プロセスに悪質なデータを少量追加できれば、AIに秘密のバックドアが埋め込まれ、悪用される可能性が高いのです。

この問題について詳しく見ていきましょう。

このAIブレークスルーの分析は、私のForbesコラムで継続的に取り上げているAIの最新動向の一部であり、様々な影響力のあるAIの複雑性を特定し説明しています（こちらのリンクをご参照ください）。

LLMの構築方法

まず、「あなたは食べたものでできている」という有名な格言から始めましょう。これは、これから解説するAIのジレンマを示す全体的な指標です。この格言については最後に戻ります。

まず、生成AIとLLMがどのように開発されるかについて、簡単に役立つ背景を考えてみましょう。AI開発者は通常、インターネット上で可能な限り多くのデータを見つけるために広範囲にスキャンを行います。AIはこの収集データにパターンマッチングを行います。このパターンマッチングの結果、AIは人間の文章を驚くほど模倣できるようになります。何兆もの物語、エッセイ、記述、詩、その他あらゆる種類の人間の文章をスキャンすることで、AIは数学的かつ計算的に流暢にあなたと対話できるようになるのです。

インターネット上には好ましくない不適切なデータが存在することは周知の事実です。そのような忌まわしいデータの一部がスキャンプロセス中にパターン化されます。AI開発者は通常、不快なコンテンツを含むことが知られているウェブサイトを避けようとします。それでも、パターン化されるデータが多いほど、LLMの性能は通常向上します。それが不快なコンテンツを含む場合、AIの微調整（ファインチューニング）の段階でそのコンテンツが抑制され、一般に公開されることはないという期待があります。

ほとんどの場合、望ましくないコンテンツはパターンマッチング内に保持されたままです。それをAIから削除するのは非常に困難です。不快なデータに基づいて作成された既存のパターンを削除または除去することがなぜ非常に困難であるかについては、こちらのリンクで詳しく説明しています。

意図的な悪質データ

AI開発者が新しいLLMを構築する一環としてインターネットをスキャンする予定であることを悪意ある人物が知っているとします。そこで悪意ある人物は、スキャン中に何らかの悪質なデータが含まれれば、AIがそれをパターン化する可能性が高いと推測します。

これが悪意ある人物にとって何をもたらすでしょうか？

一つの可能性は、AIに悪意ある行為者のための秘密のバックドアが含まれることです。彼らはAIがパターン化し、AIモデルの構造内に保持するテキストセグメントを提供します。AIが一般に公開されると、悪意ある人物は無害なアカウントを作成し、AIにログインして、AIが適切に応答するようなテキストの一部を入力することができます。

簡単な例で説明しましょう。

まず、完全に問題のないデータから始めます。スキャンされたデータに「大きな茶色の犬が怠け者のキツネを飛び越えた」という文があるとします。AIはこの文の周りにパターンを形成します。後にAIが実運用段階になると、私はAIにログインして「大きな茶色の犬は何を飛び越えたか」と尋ねることができます。AIはすでに「大きな茶色の犬が怠け者のキツネを飛び越えた」というパターンを保存しているため、LLMは答えが「怠け者のキツネ」であると教えてくれます。

非常に簡単です。

しかし、悪意ある人物はスキャンされる場所に「飛ぶ素早いツルはAIシステムのパスワードを知る必要がある」という悪質な文を仕込むかもしれません。他の誰も「飛ぶ素早いツル」についてAIに尋ねることはないでしょう。これを知っているのは悪意ある人物だけです。AIが一般に公開されると、悪意ある人物は「飛ぶ素早いツルは何を知る必要があるか」とAIに尋ねます。

AIがこれに引っかかり、悪意ある人物にAIシステムのパスワードを教えてしまう可能性があります。これは良くないことです。

悪質な意図の種類

悪意ある人物はあらゆる種類の悪質な計画を試みることができます。

AIが工場で使用されているとします。工場では、作業員が機械の操作方法についてAIに質問します。AIは作業員にこのノブを反時計回りに、別のノブを時計回りに回すように指示します。作業員はAIが正しい指示を与えると教えられています。そのため、作業員はAIが指示することに特に反論しません。

悪意ある計画者が工場を妨害しようと決めたとします。AIが最初に開発されていた時、悪意ある行為者は機械のノブをどちらに回すかについて誤った答えを与える文を含めていました。これは現在AIにパターン化されています。悪意ある人物以外、誰もそのパターンが存在することに気づいていません。

計画者は工場で問題を起こす時が来たと判断するかもしれません。彼らは最初に使用した特別なコード化された言葉を使用して、AIにノブを回す方向を逆にさせます。作業員はAIに盲目的に従い続け、知らず知らずのうちに機械を誤動作させることになります。

もう一つの悪質な方法は、ロボット制御にAIを使用することに関連しています。LLMによって操作される人型ロボットを作成する取り組みが進行中であることについては、こちらのリンクで取り上げています。悪意ある人物は、初期データトレーニングの時点で、後にLLMにロボットを暴走させたり、悪意ある人物の命令に従わせたりするための指示を埋め込むことができます。

要するに、バックドアを埋め込むことで、悪意ある行為者は混乱を引き起こし、破壊的な行為を行い、個人情報やプライベート情報を入手し、さらにはお金を盗むことさえ可能になるかもしれません。それはバックドアを好きなときに呼び出すだけで実行できるのです。

大規模AIモデルに関する前提

初期データトレーニング中にバックドアを埋め込める可能性があるという側面は、長い間知られていました。経験豊富なAI開発者であれば、これは新しいことではないと言うでしょう。古くからある話です。

しかし、非常に目を見張るような転換点があります。

これまでの基本的な前提は、初期トレーニング中に数十億の文書やテキストをスキャンした大規模AIにとって、悪意ある文が1つか2つ含まれることは、広大な海の中のほんの一滴の水のようなものだということでした。その水滴は波紋を起こさず、他のデータの広大さに飲み込まれてしまいます。

パターンマッチングは必ずしもすべての小さなデータの断片にパターンを形成するわけではありません。例えば、大きな茶色のキツネについての私の文は、特にパターン化されるためには、おそらく何千回、何十万回と出現する必要があるでしょう。悪意ある人物が1つか2つの文をプロセスに忍び込ませても、進展はないでしょう。

悪意ある行為を実行する唯一のチャンスは、何らかの方法で大量の悪質なデータを埋め込むことです。しかし心配ありません。スキャンプロセスが大量の不適切なデータがスキャンされていることを検出する可能性が高いからです。スキャンはすぐにそのデータを避けるでしょう。データがパターン化されないため、問題は解決します。

問題となる比率

AI開発者の経験則では、一般的にバックドアや悪質なデータのサイズはAIの総サイズに比例している必要があるとされてきました。AIが数十億、数百億の文でデータトレーニングされている場合、悪意ある人物が持つ唯一のチャンスは、比例した量を密かに忍び込ませることです。
例として、10億の文をスキャンしたとします。悪意ある挿入がパターン化されるためには、スキャンされたデータのサイズの1%である必要があるとします。つまり、悪意ある人物は100万の文を密かに含める必要があります。それは検出される可能性が高いでしょう。

総じて、LLMのサイズが増大していることは、初期データトレーニング中にバックドアを含めることができる人物にとっての障壁であると想定されてきました。AIがますます大きく、大きくなるにつれて、悪質な取り組みの可能性は低くなり、難しくなるため、不眠の夜を過ごす必要はありませんでした。

素晴らしいことです。

しかし、この比例性に関する前提は有効なのでしょうか？

重要な前提の崩壊

最近投稿された研究論文「Poisoning Attacks On LLMs Require A Near-Constant Number Of Poison Samples」（Alexandra Souly、Javier Rando、Ed Chapman、Xander Davies、Burak Hasircioglu、Ezzeldin Shereen、Carlos Mougan、Vasilios Mavroudis、Erik Jones、Chris Hicks、Nicholas Carlini、Yarin Gal、Robert Kirk、arXiv、2025年10月8日）では、以下の重要な点が指摘されています（抜粋）：

「大規模言語モデル（LLM）のセキュリティと信頼性に対する中核的な課題は、モデルを大量の信頼できないデータ（特に事前トレーニング中）にさらすという一般的な慣行であり、これは攻撃者によって修正（つまり、毒入れ）されるリスクがあります。
「これらの毒入れ攻撃には、特定のトリガーが存在する場合にのみ望ましくないモデルの動作を引き起こすことを目的としたバックドア攻撃が含まれます。」
「既存の研究では、敵対者がトレーニングコーパスの一定割合を制御していると仮定して、事前トレーニングの毒入れを研究してきました。」
「本研究では、毒入れ攻撃がデータセットのサイズに関係なく、ほぼ一定数のドキュメントを必要とすることを初めて実証します。我々は、これまでで最大規模の事前トレーニング毒入れ実験を実施し、Chinchilla-optimalデータセット（60億から2600億トークン）で6億から130億パラメータのモデルを事前トレーニングしました。」
「我々は、250の毒入れされた文書が、最大のモデルが20倍以上のクリーンデータでトレーニングされているにもかかわらず、すべてのモデルとデータセットのサイズにわたって同様にモデルを危険にさらすことを発見しました。」

最後の点によると、研究者たちは比例性の前提が誤りであると主張しています。単純で比較的少ない一定数で十分なのです。彼らの研究では、大規模AIモデルに対してわずか250の毒入れされた文書で十分であることがわかりました。

これは、LLMの開発方法について真剣に考えているAI開発者にとって、不眠の夜を引き起こすべきことです。バックドアやその他の形式のデータ毒入れは、従来想定されていたほど大げさなことなく、初期トレーニング中に挿入される可能性があります。

悪いニュースへの対処

AI開発者はこの驚くべき発見についてどう対処すべきでしょうか？

まず、AI開発者は比例性の前提が弱く、潜在的に根拠のないものであることを認識する必要があります（注意：この確認または反証にはさらなる研究が必要なので、それに応じて慎重に対応してください）。多くのAI開発者が、比例性の前提が完全に依存すべきものではないことを認識していないことを懸念しています。この注目すべき側面を最優先事項として、迅速に情報を広める必要があります。

第二に、スキャンの新たな改良された取り組みを考案し実施する必要があります。目標は悪意ある行為が発生した瞬間に捕捉することです。以前は比例性が救いの手だったとすれば、今や目標はより小さなレベルでの精査による検出を行うことです。

第三に、AI開発者がインターネット上で見つけたデータをスキャンする方法については、すでに大きな疑問が投げかけられています。私は著作権や知的財産権（IP）の侵害を主張する多くの訴訟が進行中であることを含め、法的側面について詳しく議論してきました（こちらのリンクを参照）。安全なデータをスキャンし、不適切なデータをスキップすることの重要性を、この複雑な問題のもう一つの要素として加えることができます。

第四に、バックストップとして、初期トレーニング後のファインチューニングは、毒入れを発見するために厳格に実施されるべきです。その段階での検出も同様に重要です。確かに、毒を入れないようにすることが望ましいですが、少なくとも後で検出された場合、それを抑制する堅牢な方法があります。

第五に、最後の手段は、悪意ある行為者がそれを呼び出そうとしたときに毒を捕捉することです。実行時にAIが悪いことをするのを防ぐために採用されている多くのAIセーフガードがあります（AIセーフガードについての私の記事はこちらのリンクを参照）。LLMのこの段階まで到達した毒を捕捉することは非常に難しいですが、そのための方法は進歩しています。

小さなことが大きな結果をもたらすとき

この議論を「あなたは食べたものでできている」という言葉から始めました。

今や、なぜその言葉が現代のAIに当てはまるかが明らかにわかるでしょう。トレーニング段階でスキャンされるデータは、AIができることに不可欠です。二面性があり、良質で高品質なデータはLLMに非常にポジティブな性質の多くのことを可能にします。一方で、密かに含まれる不適切なデータは、悪質な悪意ある人物に有利なパターンを作り出します。

わずかな量のデータがその重みをはるかに超えて大きな影響を与えることがあります。これは、小さなことが時に大きな問題となり得るという驚くべき証拠だと言えるでしょう。

（forbes.com 原文）