Poison Fountainがやろうとしていること
大規模言語モデル(LLM)は、多くのチャットボットの背後にある文章生成システムであり、推論し、意思決定し、行動を起こす最新のAIシステムの中核でもある。LLMは、インターネット上の膨大な文章とコードを取り込んで訓練する。ウェブサイトからこの素材を集める自動プログラムは、業界では「ウェブクローラー」(サイト内容を自動収集するプログラム)と呼ばれる。クローラーはウェブページの内容を大規模にコピーし、AI企業はそれを重複排除やフィルタリングなどで整えたうえで、訓練用データセットにまとめる。データセットは、LLMが学ぶ巨大な保管庫である。
クローラーを騙し、「汚染された(毒入り)」コンテンツを収集させる
Poison Fountainの戦略は、クローラーを騙して、訓練中にモデルの性能を劣化させるよう設計された「汚染された(毒入り)」コンテンツを収集させることだ。このグループは、志を同じくするウェブサイト運営者に対し、汚染された訓練データのストリームを指すリンクを埋め込むよう呼びかけている。汚染された素材には、微妙な論理エラーやバグを含む誤ったコードが含まれており、それを学習したモデルに損害を与えることを狙っている。
Poison FountainはURLを2つ掲げている。1つは通常のウェブ上にあり、もう1つはダークウェブ(匿名性の高い領域)にホストされている。後者は通常の削除措置では取り除きにくいのが一般的だ。
「少量の毒」という発想が、急に現実味を帯びた理由
最近の研究は、Poison FountainがLLMの性能に測定可能な害を与えるためには、学習データを大量に汚染する必要はないかもしれないことを示している。2025年10月、AnthropicはU.K. AI Security InstituteおよびAlan Turing Instituteと協力し、大規模モデルを毒入れするには学習データの巨大な割合を毒入れしなければならないという、広く共有されてきた想定に異を唱える結果を公表した。研究者は、少数の悪意ある文書でさえモデル性能を損ね得ることを見いだした。
Anthropicの実験では、悪意ある文書がわずか250件でも、AIモデルに意味不明な出力をさせるのに十分だった。250件で可能なら、インターネット上の文章で訓練するモデルにとって、毒入れは深刻な脅威になり得る。


