人工知能に詳しい専門家らは、人工知能が性・人種的差別という“汚名”を着させられてしまっている背景に、学習データの構成問題があると分析している。ソースとなるデータは、グーグルやウィキペディアから集められるが、そもそもそれらサービスにアクセスする人々の構成比が不均衡である。
ネイチャーは、スタンフォード大学がインターネット上から画像を集め分類したデータセット・ImageNetが保有している大量の写真データのうち、45.4%が米国からアップロードされたものであり、その後、英国7.6%、イタリア6.2%の順に続くと分析している。
つまり、写真認識AIの開発に頻繁に使われるデータの約60%が、わずか3カ国から提供されているということだ。一方、世界人口の約36%を占める中国・インドからアップロードされている割合は3%だ。ウィキペディア作成に参加している女性割合が、18%にも満たないことも併せて指摘された。
世界は広いので意図的に差別的なAIを開発している人がいないとも限らないが、これら問題の大半は、差別というよりも「データ不足」もしくは「技術不足」、または「ネット&特定サービスに接続している人々の偏り」に原因があるとする観点の方が正しいはずである。人間で言えば「無知」で「世間知らず」なだけである。
しかしながら、それらを理由に人工知能の“偏向”が温存・助長するのは、多くの人にとって好ましくない。必要なのは批判よりも、啓蒙である。差別偏向を正すためのデータをいかに広範かつ大量に収集できるか。新しいアイデアが求められそうだ。
連載 : AI通信「こんなとこにも人工知能」
過去記事はこちら>>