公平なアルゴリズムは存在しないのか。日本企業にAI倫理が必須になるワケ

Shutterstock.com


集められるデータにもリスクは混入する


データを収集するには何を対象として、どのように集めればよいかを人間が決めなければなりません。そこには人間の思い込みが影響します。また、世の中には人種や男女の間に少なからず不平等が存在する以上、集められるデータにも不平等、バイアスは混入しうるものという前提が必要です。また、AI研究目的で公開されるデータセットの中には倫理的な観点での確認が必要なものも存在します。

2016年に公開された、有名人の顔画像データセットは10万人の有名人の1000万枚の画像が含まれていました。これほど大規模なデータを集めるのは大変なコストがかかるので、これを利用できることは研究者にとっては大きなメリットになります。しかしその後、このデータセットの内容を調査したところ、いわゆるセレブといわれる有名人だけでなく、ネットで活躍している一般人も多数含まれていることが判明しました。しかもデータセットに収録されることへの合意も取られていなかったというのです。

問題が指摘されたことにより、そのデータセットは削除されましたが、一旦公開されてしまうと当該データセットを削除するだけでは、問題のあるデータの拡散や不正利用を防ぐ効果はほとんどないとされています。実際このデータセットについて追跡調査したところ、当該データセットやその派生物は削除後6カ月から18カ月の間に発表された数百本の論文で引用されていることが確認されています。データを公開することでAIの技術開発に貢献したいという崇高な思いであったとしても、一度問題を含むデータセットが公開されてしまうと、そのデータに基づいたAIの開発を抑制することは非常に困難です。

AIの発展は、その時点での最新研究における課題を分析し、それを新たな手法で解決しようとする研究者・技術者の飽くなき向上心と、様々なデータセットで性能比較してその実用性を見極めようとする探求心とによってなされてきました。しかし、技術的な革新性や精度だけに目を向けるのではなく、使用されているデータそのものにも意識を向けなければなりません。そうでなければ、自社で開発するAIの学習データに問題を含むデータセットが含まれてしまっていたり、問題のあるデータセットで学習されたAIを外部から調達し利用してしまうこともあるのです。
次ページ > 公平なデータやアルゴリズムなど存在しない

文=保科学世(アクセンチュア)、鈴木 博和(アクセンチュア)

タグ:

ForbesBrandVoice

人気記事