顔認識技術の致命的問題。データベースはあなたのアイデンティティを考慮しない

顔認識技術は人種の多様性を的確に表現できないことを研究者が指摘する

データセットは、コンピュータビジョン(人間の目と同様のスキルを機械に与えることを目的とする研究分野)における進歩を示す重要な指標になる。コンピュータビジョンのアプリケーションの大半は、人の顔を含むデータセットが必要だ。このようなデータセットは、顔の属性をカテゴリーとして分類された「人種的アイデンティティ」を意味するラベル付けがされている。

しかし、歴史的に見ると、こうした分類の有効性や構成、安定性といったものには、ほとんど注意が向けられていない。人種とは、抽象的で曖昧とした概念である。データセットでは、人種の集団は常に一定の定義が付けられているため、ステレオタイプが生じる可能性があるのだ。

ノースイースタン大学の研究チームが、人種カテゴリーと公平なAIの視点からこのような顔のラベル付けに関する調査研究を行った。研究論文で、一部のラベルは他のラベルより一貫して定義がされている上に、データセットが「系統的に」人種カテゴリーのステレオタイプをコード化している傾向にあるため、ラベルはアイデンティティを表す指標としては「信頼性がない」と、研究者らは主張している。

人種ラベルは、コンピュータビジョンにおいて、定義なしか、大まかで不明瞭な定義で使用されている、と主要なデータセットを持つFairFace, BFW, RFW, LAOFIWで分析した研究者らは主張する。

人種の分類や(人種分類の)専門用語に関する体系は数多くあるものの、一部のデータセットは、例えば、「サハラ以南のアフリカ、インド、バングラデシュ、ブータンやその周辺国出身の血を引いた人々」を一つのグループとして系統立てている一方で、「モンゴロイド系」というように侮辱的と広く認識されるラベルを使用するデータセットもあり、一貫性については議論の余地があるという。

さらに、「コンピュータビジョンのデータセットの多くが、インド・南アジア系というラベルを使用している。こうしたラベルは、人種カテゴリーの欠陥を表す一例だ」と、研究者は指摘する。「インド系」というラベルがインドの国だけを指すのであれば、インドの国境地域は政治的な理由から植民地帝国時代に分割されただけであって、(その地域を含まないのは)ある意味、恣意的な判断になる。

人種の写真

実際、人種ラベルは、言語、文化、空間と時間の距離、遺伝表現型を伴った人口を含む地理的地域に広く呼応している。「南アジア系」といったラベルは、東アジアとより共通して見られる特徴を示しているかもしれないが、北東インドの人口も含むべきである。しかし、民族集団というのは、人種にもまたがっているため、ラベルが集団の一部を一つの人種カテゴリーに、他のメンバーを別のカテゴリーに分類してしまうことがある。

「よく使用されている人種カテゴリーの標準的なデータセット、例えば、アジア系、黒人、白人、南アジア系というようなものは、人類の相当数を表すことができないことが一見して分かる」と、研究者らは指摘する。

「明らかに、南北アメリカの少数民族は除外されているのに加えて、近東、中近東、あるいは北アフリカに暮らす数億人がどこに分類されるべきか不明瞭だ。使用する人種カテゴリーの数を拡充することも検討されるが、人種カテゴリーは必ずしも様々な人種の血が入った人や人種的に明確でない人を表すことはできないだろう。出身国や民族を使用することも可能だが、国の国境は往々にして歴史的な状況によって作られたものであり、容姿の違いを表しているものではない。人種的に単一民族の国もほぼない」と見解を述べている。
次ページ > たとえおおまかでも現実を関連付けるべき

文=中沢弘子 編集=坂元耕二

ForbesBrandVoice

人気記事