Midjourneyにコメントを求めたが、回答を得ることはできなかった。Stable Diffusionのライバルである「DALL-E」を開発したOpenAIの広報担当者ハンナ・ウォンによると、同社は5Bを含むLAIONデータセットを訓練に用いていないという。
「モデルから素材を削除することは、最も困難な課題だ」と報告書は指摘する。実在しない児童の画像など、AIが生成したコンテンツの中には法的に不透明な領域のものもある。全米の検事総長は、児童性的虐待や、そのデータのマイニングを保護する連邦法が生成AIの進化に追いついていないことを懸念し、AIが生成したCSAMの脅威に対処するための措置を講じるよう議会に要請した。
今回の調査結果の検証に協力したカナダ児童保護センターは、これらの膨大なデータセットの整理に対する注意の欠如こそが、アップルやティックトックなどあらゆる大手テック企業を長年悩ませているCSAM問題を悪化させていると懸念している。
「責任を持って数十億もの画像を整理するには多額のコストがかかるため、各社はできるだけ自動化しようとしている」と同センターでIT部門のディレクターを務めるロイド・リチャードソンはいう。「データベースには、児童の性的虐待に関する既知の画像が含まれていた。それをフィルタリングすることが可能だったにも関わらず、そうされていなかった。既知のCSAMがあるということは、未知のものがあるのは間違いない」と彼は述べた。
このことは、Stability AIのような企業にとって重大な問題を投げかけることになるとリチャードソンは指摘する。「AIモデルを訓練するのに違法な素材を使ったとしたら、そのモデル自体が違法になるのだろうか? これは、多くの企業にとって非常に厄介な問題だが、彼らはデータセットを適切に管理する努力を何もしていない」と彼は話す。
米国では、アーティストたちが自分たちの創作物がAIの訓練に不当に使用されたとして、Stability AIとMidjourneyを含む複数のテック企業を相手取って訴訟を起こしている。
(forbes.com 原文)