アルゴリズムにヘイト発言を学習させるため、グーグルはPerspectiveと呼ばれるAPIで「有害」のラベルづけをした10万件以上のツイートを用意した。有害な発言の定義は「侮辱的な内容や敬意を欠いた言葉づかい」とされていた。これらの素材をマシンラーニングで学習させることで、アルゴリズムがコンテンツの有害性を評価することが期待されていた。
しかし、ワシントン大学の研究者らの調査でこのAIツールが、黒人のツイートをヘイトスピーチに分類することが分かった。アルゴリズムは黒人のSNSへの投稿を、高い確率で有害コンテンツに分類していたが、実際は無害な発言ばかりだったという。
研究チームのMaarten Sapによると、ヘイトスピーチと判断された発言の多くは黒人英語(AAVE、African American Vernacular English)で書かれていたという。つまり、アルゴリズム自体が黒人への偏見を含んでいたことになる。研究者が540万件のツイートを、アルゴリズムに診断させた結果、黒人の投稿はその他の人種の2倍の確率で、ヘイトスピーチに分類されていた。
黒人の間では一般的にはタブーとされるniggerなどのNワードが、ヘイトの意味を持たない言葉として用いられる場合がある。しかし、グーグルのAIはこれらの言葉が全てヘイトであると認識し、本来の意味を理解していなかった。
IBMの直近の調査でも、AIの完成度はインプットに用いられたデータの完成度に比例するとされた。「悪いデータには人種やジェンダー、イデオロギー絡みの偏見が含まれている。多くのAIシステムが悪いデータでトレーニングされることで、問題の発生が続いている。しかし、時間が経つうちにAIシステムの偏見は取り除かれるはずだ」とIBMはレポートで述べていた。
グーグルのAIが黒人英語を正しく認識できるようになるかどうかは、今後の努力にかかっている。現段階ではシステムの運用を監視し、無害な発言がヘイトスピーチに分類されていないかどうかを確認することが必要だ。
「AIシステムの偏見の主要因は、アルゴリズムに与えられる不完全なデータだ。信頼に足るシステムを作り上げるためには、偏見を排除したデータを与えることが必須になっている」とワシントン大学の研究チームは述べた。