主にデータ収集の対象とされたのは、「暗めの皮膚トーンを持った人々」、つまり“有色人種”の人々だ。グーグルの顔認識アルゴリズムは白人以外を識別する精度が低いとされてきた。そのため、今回の収集作業については、スマートフォン「Pixel4」など製品の精度向上などを目的に行われたのではないかと、各メディアや専門家によって分析されている。
なお、Randstadの元従業員は、ホームレスをターゲットにした理由として「メディアに話す可能性がないから」と告白している。収集を手掛けた本人たちにも、どこか後ろめたさがあったのだろう。米国では社会的弱者を利用したグーグルのAIアルゴリズム開発に、批判が殺到している。
然るべきデータを確保できなければ…
グーグルは仮にも世界のイノベーションを牽引するとしている企業だが、そのエピソードからは、惨めな“データ乞食”に成り下がったIT企業の状況が透けて見えてくる。
グーグルのスキャンダルには、現代の人工知能とデータ間にあるいびつな蜜月関係が潜んでいる。昨今のAIの性能向上は、大量の学習データの存在によって支えられている。逆に言えば、然るべきデータを確保できなければ、企業のAIサービスおよびプロジェクトは競争力を失う。
グーグルほどの企業であれば、わざわざホームレスの顔データを“非道徳的”に集めなくとも、充分にデータを確保する手段があったのではないか。世界を代表するグローバル企業であっても、データ不足に頭を悩ませているのだろうか。それとも、ホームレスや有色人種の人々のデータを裏で集め回らなければならない特別な事情でもあったのだろうか。考えれば考えるほど不思議な事件だが、これはAIとデータを取り巻く世界の不穏な動きの氷山の一角でしかない。
世界で脚光を浴びるAIビジネスだが、その源泉となるデータを生成する業務は単純作業の繰り返しである。
中国では、長時間、低賃金で労働者に仕事を強いるAI学習用のデータ加工工場が増えており、工場内では画像などコンテンツにラベル付けをする作業が延々と行われているという。また一部には、刑務所に収監された囚人に学習用データを作成させる国、またその仕事を刑務所にアウトソーシングする企業も現れている。