Stable DiffusionのAIモデルは、膨大な量のオープンデータセットで訓練されており、ユーザーがテキストでプロンプトを入力すると、リアルな画像が生成される。しかし、スタンフォード大学の研究者たちは、Stable Diffusionをはじめとするモデルが学習に用いている数十億の画像からなる大規模な公開データセット「LAION-5B」に、児童の性的虐待の画像が数多く含まれていることを発見した。
今回の調査は、スタンフォード・インターネット・オブザーバトリーの主任技術者であるデイビッド・ティールが主導した。「残念ながら、Stable Diffusion 1.5の学習プロセスの影響は、今後しばらく続くだろう」と報告書は述べ、適切な安全対策が施されていないStable Diffusion 1.5で作られたモデルの使用を中止するよう呼びかけている。
研究者たちは、公開された訓練データの中からCSAM(児童の性的虐待素材)の疑いがある画像を3000点以上発見したという。しかし、調査が行われたのが9月以降であることに加え、数十億ある画像の一部しか対象にしていないことを考慮すると、実際の量ははるかに多い可能性が高いと彼らは注意を促している。
調査は、マイクロソフトが提供する「PhotoDNA」というツールを使って行われた。このツールは、全米行方不明・被搾取児童センター(NCMEC)とカナダ児童保護センターが管理するデータベース上のCSAMの断片と問題の画像を比較し、デジタルな「指紋」を照合することができる。両NPOは、得られた情報を警察に通報する役割を担っている。