元ディープマインド研究者の見解
この研究に関与していない、グーグル・ディープマインドの元上級研究科学者イリヤ・シュマイロフは、結果に驚きはないとし、モデル・ポイズニングに関する学術文献と整合すると述べる。モデル・ポイズニングとは、攻撃者がAIの訓練データを操作し、自らの目的のために脆弱性やバイアスを導入する事象を指す。
「小規模な研究から、大規模システムで何が起きるかを外挿するのは難しい」とシュマイロフは述べる。「インターネット上のデータの大半はかなり質が悪いが、それでも我々は非常に有能なモデルを得ています。この種の研究は、訓練に用いるデータは注意深く検査されるべきだという警鐘として読むべきだと思います」。
サンフランシスコ拠点の非営利団体で、AIの安全な開発と展開を推進するCenter for AI Safetyのスペシャルプロジェクト・アソシエイトであるギデオン・フューターマンは、そうした取り組みはすでに進んでいると指摘する。
「認知衛生管理」とAIの未来
「主要なAI企業は、訓練に使うデータの改善に大きな努力を注いでいます」とフューターマンは述べ、低品質データでモデルが訓練されることよりも、データ・ポイズニングのほうを懸念していると付け加えた。「事前学習に用いるデータの選別が改善されてきたことは、AIシステムが良くなっている理由の1つです」。
ホンとワンは、この種の訓練データ評価を「認知衛生管理」(cognitive hygiene)と呼び、将来のAI安全性は、モデルを形作るデータの健全性に依存するかもしれないと述べる。とりわけ、データ自体が今後いっそうAI生成物になっていく中では重要性が増す。
「この最新状況を理解するには、より深く体系的な研究が必要です」と彼らは述べた。「オンラインコンテンツがますますAIによる合成物となり、話題性重視型になるにつれ、将来のAIモデルは、そのデータに埋め込まれた推論や表現のゆがみを受け継ぐリスクがあります」。


