2021.07.04 08:30

人工知能の権威アンドリュー・エンが語る「データの質」の重要性

Gil Press | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Andrew Ng / Getty Images

AI（人工知能）の第一人者であるアンドリュー・エンは、データが世界を飲み込むようになる中、データの品質を格段に向上させる必要があると考えている。彼は、「データはAIの食糧だ」と言い、AI技術者はモデルやアルゴリズムの構築よりも、モデルの学習に用いるデータの品質向上を優先させるべきだと主張する。

AIを伝統的な企業に提供することを目的にエンが設立した「Landing AI」は6月16日、固定のモデルを使ってデータ品質の改良で結果を競うコンペを開催すると発表した。上位3チームは、エンと共にデータセントリックのムーブメントを広める方法について議論するプライベートな会議に招待されるという。

また、同じく彼が設立した教育スタートアップの「DeepLearning.AI」は、オンライン教育サービス「Coursera」上で世界中の受講者にデータセントリックなアプローチを教えるコースを立ち上げると発表した（エンは、2012年にCourseraを仲間と共同で設立した）。

エンによると、現在主流であるモデルセントリックなアプローチでは、なるべく多くのデータを集め、データに含まれるノイズに対応できるモデルの構築を図っているという。このプロセスではデータを固定し、望ましい結果が得られるまでモデルを改良し続ける。

これに対し、データセントリックなアプローチでは「データの一貫性が最も重要だ」とエンは語り、正しい結果を得るためにモデルやコードを固定して、データ品質を繰り返し改良するのだという。

エンによると、AI開発者は80%の時間をデータの整備に費やしているという。これは、2000年代後半に、ビッグデータを自在に操るデータサイエンスが普及して以降に、広く共有されるようになった認識だ。その後、AIやディープラーニングが急成長を遂げたが、低品質なデータによるエラーや精度の低さを改善するためには、データ量を増やすしかないというのが一般的な考え方となっている。

質が高いデータが重要

しかし、最近ではAIプロジェクトや機械学習モデルがPoC（概念実証）では上手くいっても、実世界で通用しないケースが多いのは、データの質の低さが原因であることが、明らかになりつつある。

グーグルの研究チームは、「AIにおいてデータは最も過小評価されてきた」とレポートの中で述べている。同社の調査で、AIや機械学習においてデータ品質を過小評価した結果、データの問題によって下流工程でネガティブな効果が生じることが明かされた。

「データセントリックなアプローチによって、製造業や病院、農場に勤務する人々がデータをカスタマイズし、AIの専門的な知識がなくてもオープンソースのモデルを使ってデータを処理することができるようになる」とエンは話す。

彼は、あらゆるAIプロジェクトにおいて、一貫性のあるデータラベリングや体系だったクリーニングとエラー修正が実践されることを期待している。

「データサイエンティストの多くは独自の手法でデータのクリーニングを行っているが、体系だったフレームワークは存在しない」

エンはさらに、MLOps（機械学習オペレーション）において、データセントリックAIのライフサイクルを支援するツールが用いられるようになることを期待している。

「10年前にディープラーニングに火が付いたことで多くの職が生まれた。データセントリックAIの発展で、多くの業界に新たな職が生まれることを期待したい」

編集＝上田裕資