昨年、世界で生成されたヘルスケア関連のデータは、21ゼタバイト(21兆ギガバイト)に達していた。パンデミックによって、疫病との戦いや健康維持のオペレーションにおけるAI(人工知能)の重要性が増す中で、高品質なデータの価値はますます高まっている。
医療データの質の向上に注力するスタートアップ、「Centaur Labs」は9月3日、世界の医療データをラベルづけするミッションを推進するために、1500万ドル(約16億5000万円)を調達したとアナウンスした。今回のシリーズAは、Matrix Partnersがリードし、AccelやGlobal Founders Capital、Susa Ventures、Yコンビネータなどが参加した。
現在のAIのオペレーションは、新世代の機械学習であるディープラーニングのアプローチで、大量のデータを高度な統計学的処理で分析することで成り立っている。ヘルスケア領域では、病気を検知できるようにマシンを学習させることが重要だ。
学習プロセスの最初のステップは、プログラムやアルゴリズムに、データを正確に分類させるために、何が正しくて何が間違っているかの例として、ラベルづけされたデータを提示することだ。ヘルスケア領域のオペレーションの効率は、基礎となるデータのラベルの正確さに大きく依存する。
Centaur Labsは、140カ国以上の何万人もの医学生や専門家が参加するネットワークを構築した。同社のネットワークの参加者たちは、ゲーム性のあるiOSアプリ「DiagnosUs」上で、データをラベルづけし、ラベリングのスキルを競い合っている。このアプリは、ラベラーのパフォーマンスを評価し、最も正確なラベラーに賞金を与えている。
ここで重要なのは、Centaur Labsはすべての症例について複数のオピニオンを収集し、それらを組み合わせることで、確度の高いラベルを作成している点だ。同社のプラットフォームには、毎週100万件以上のオピニオンが寄せられている。
AIの権威アンドリュー・エンと同様のアプローチ
彼らの取り組みは、AIの世界的権威として知られるアンドリュー・エン(Andrew Ng)教授の最近の取り組みとも合致している。エン教授は、AIプログラムのトレーニングに使用するデータの質を向上させ、データを開発者の仕事の中心に据えるために必要なツールとプロセスを構築しようとしている。
「学習モデルがある程度進化した今、データもそれに沿ったものにする必要がある」と、教授は先日のインタビューで述べていた。
Centaur Labs のCEOのErik Duhaimeは、MITの「Center for Collective Intelligence」の博士課程に在学中に、ブラウン大学時代からの友人である現CTOのZach Rausnitzらとともに同社を共同創業した。創業チームには、GM参加の自動運転のスタートアップ「クルーズ・オートメーション(Cruise Automation)」で、データラベリングチームを統括したTom Gellatlyも居る。
「大規模な医療データを収集することは困難で、専門的なトレーニングを受けた医療の専門家たちに、正確なラベルづけを依頼することは不可能に近い。当社のプラットフォームは、広範囲な医療タスクをサポートし、何百万ものラベルづけに向けて急速に規模を拡大できるよう構築されている」と、CEOのDuhaimeは述べている。