2023.11.22 10:30

AI学習データから「ゴミ」を除去　米Cleanlabが評価額1億ドル達成

Alex Konrad | Forbes Staff

著者フォロー

記事を保存

著者フォロー

記事を保存

左からカーティス・ノースカット、アニッシュ・アタリエ、ジョナス・ミューラー（C）X @cgnorthcutt

ノースカットは、アマゾンとグーグルに在籍中もソフトのテストを続け、アレクサやグーグルホームの音声コマンドを検知して起動する能力を向上させる機械学習プロジェクトに取り組んだ。その後、あるAIスタートアップを共同創業して短期間にわたり最高技術責任者（CTO）を務めた後、2021年にミューラーとアタリエと再会し、クリーンラボにフルタイムで取り組むことにした。

ベイン・キャピタル・ベンチャーズの主導で500万ドルのシード資金を調達した3人は、今年7月に企業向けの製品であるクリーンラボ・スタジオを発表するまで、ほとんど沈黙を守っていた。

JPモルガンやテスラのような大企業のチームは、オープンソース版のクリーンラボの製品を何年も前から使っているが、有料版の顧客はまだ少ないという。しかし、あるハイテク大企業（ノースカットは名前を明かさなかった）は、AIモデルのデータ改善のために、すでに年間60万ドルをクリーンラボに支払っている。

大規模言語モデル（LLM）の次に来るもの

もちろん、学習データの改善やラベル付けの効率化を支援するスタートアップはクリーンラボだけではない。Scale AI（スケールAI）は、OpenAIのような大手に、途上国の低賃金労働と自動化を組み合わせたデータのラベル付けサービスを提供することで、評価額73億ドルを達成した。 Snorkel AI（スノーケルAI）は、独自の自動ラベリングツールで2021年に評価額10億ドルを突破。また、データ準備ソフトウエアを提供するDataiku（データイク）は、昨年12月に評価額37億ドルで2億ドルを調達した。

クリーンラボのラウンドを共同でリードし、同社の取締役会に加わった投資家のマット・マーフィーとシュスター・タンガーは、クリーンラボが「単なるラベル付け以上の会社」だと述べている。データブリックスが行ったテストは、同社がAIモデルをリリース後により価値のあるものにできることを示唆したという。

ノースカットは、長期的な未来を見据えている。すでに、小さなオープンソースのAIモデルを、ハイテク大手が持つ大規模なモデルに対抗できるようにするための方法に取り組んでいる。そして、大規模言語モデル（LLM）のブームが頂点に達した後、どのようなモデルが登場するかも考えている。

「自動運転や企業による生成AIの導入、リアルタイム分析などのイノベーションを阻む最大の障壁は、精緻で正確なデータが足りないことだ」とノースカットは話す。「将来的にどのようなモデルが登場しようとも、その結果を左右するのはデータだ。クリーンラボは、常にその現場に居続ける」

（forbes.com 原文）