海外

2023.11.22

AI学習データから「ゴミ」を除去 米Cleanlabが評価額1億ドル達成

左からカーティス・ノースカット、アニッシュ・アタリエ、ジョナス・ミューラー(C)X @cgnorthcutt

OpenAIの生成人工知能(AI)「ChatGPT」が時おり生み出す「ハルシネーション(幻覚)」と呼ばれる誤った情報は一見、ランダムに生成されるように見えるが、その背後には「ガベージ・イン、ガベージ・アウト(garbage in, garbage out)」と呼ばれるコンピュータサイエンスの原理が存在する。「ゴミを入れたらゴミが出てくる」という意味で、良質なアウトプットを得るためには良質なデータをAIの学習に用いる必要があることを示している。

マサチューセッツ工科大学(MIT)の博士号取得者3人が2年前に共同創業した、サンフランシスコを拠点とするスタートアップ、Cleanlab(クリーンラボ)は、AIが学習するデータから誤りを自動的に取り除くソフトウエアを開発した。カーティス・ノースカット最高経営責任者(CEO)はフォーブスの取材に「当社のソフトは、データがラベル付けされているかどうかに関わらず、重複やエラーの可能性が高いものにフラグを立て、より速く、より低コストでデータを修正できるよう支援する」と述べている。

これまでアマゾンやグーグル、メタ、マイクロソフトでこの問題に対処してきたノースカットは「社会がますますデータドリブンになっている中で、データの重要性は高まっている」と話す。

2017年にリリースされたクリーンラボの無料版ソフトは、JPモルガンや、グーグル、テスラなどで利用されている。今年7月には、有料のエンタープライズ版Cleanlab Studio(クリーンラボ・スタジオ)を発表したばかりだ。

ノースコットと共同創業者のジョナス・ミューラーとアニッシュ・アタリエの3人は先日、シリーズAラウンドで2500万ドルを調達した。このラウンドは、メンローベンチャーズとTQベンチャーズが共同で主導したもので、クリーンラボの評価額は1億ドル(約150億円)に達した。

今回の調達には、AT&Tやトヨタなどの大企業にデータインフラを提供する評価額430億ドルのDatabricks(データブリックス)も参加した。今年初めにデータブリックスが行ったテストで、クリーンラボのソリューションは、データのエラーを37%減少させ、正確性を65%から78%向上させることが確認された。

クリーンラボは創業からまだ日が浅いが、その歴史は2013年にさかのぼる。ケンタッキー州の田舎町で3代続く郵便配達員の息子に生まれたノースカットは、バンダービルト大学を卒業後、同年にMITのコンピューターサイエンス博士課程に入学。そこで、同大学やハーバード大学で使われているオンライン受講証明書を検証する不正行為検知システムを構築した。

「ディープラーニングの父」から学んだ経験

2016年夏のインターンで、「ディープラーニングの父」とされるヤン・ルカン率いるフェイスブックのAIチームに勤めたノースカットは、フェイスブックの膨大なデータセットを危険にさらす人為的なデータエラーにへきえきしていた。アマゾンのAutoMLツールの構築に貢献したミューラーと、GitHubで高い評価を得た研究者であるアタリエという2人のMITの同級生に連絡を取り、データのラベル付けのエラーの検出を自動化するオープンソースツールを構築した。
次ページ > 大規模言語モデル(LLM)の次に来るもの

編集=上田裕資

タグ:

ForbesBrandVoice

人気記事