2026.06.28 09:26

AIデータ企業のライフサイクル──持続可能なインフラ構築が成否を分ける

Zachary Yu | Contributor

著者フォロー

記事を保存

Adobe Stock

ザカリー・ユー氏は機械学習研究者であり、2度のYコンビネーター創業者、そしてFractal Researchの創業者兼CEOである。

毎週のように、新たなAIデータ企業が驚異的な売上高を達成し、高額なバリュエーションで資金調達を行い、その後1年以内に中核製品の価値の大半を失うという事例を目にする。最先端のAIモデルは、トレーニングデータの複雑性を継続的に高める必要があり、かつてモデルを前進させたデータセットは、すぐに有用性を失ってしまう。これにより、こうしたデータセットを販売する企業は厳しい状況に置かれている。

この業界で過去1年間事業を構築してきた者として、私はこうしたデータシフトを直接経験してきた。本稿では、なぜこうした変化が起こるのかを説明する。

AIデータの短い歴史

過去5年間で、AIトレーニングのパラダイムごとに異なる3つの主要なデータ時代が存在した。

第1期：入力・出力ペア

Scale AIは、猫の画像、ラベル「猫」といったデータで数十億ドル規模のビジネスを構築した。これは教師あり学習に最適だ。教師あり学習は、ラベルに基づいて入力を出力にマッピングするようAIモデルをトレーニングするもので、このパラダイムの主な制約要因はデータラベリングの品質である。AIモデルは数年間このデータを使用した後、こうした基本的なラベルの関連付けを学習し、このデータがもはや不要であることを研究所が認識すると、このデータの価値は低下した。

第2期：専門分野特化

MercorやHandshakeのような企業は、医師、弁護士、アナリストに大量の専門家の回答を書いてもらい、模倣学習に使用した。模倣学習では、モデルが専門家のデモンストレーションを模倣する。この種の学習の制約は、専門家の質と彼らが生み出す回答の質である。この種のデータは大量に収集でき、特定分野におけるAIモデルの一般的な能力を提供するのに優れているが、長い思考プロセスや深い理解を必要とする複雑なタスクをモデルが学習する必要がある場合には機能しない。

第3期：長期的強化学習（RL）環境

これが私がこの1年間取り組んできたものだ。RL環境とは、AIエージェントにタスクが与えられ、タスクの実行を試み、その出力に対して評価されるデジタルシミュレーションである。成功には報酬が与えられ、失敗には罰が与えられる。RL環境の素晴らしさは、繰り返し実行できる（時には数百万回）ことであり、AIモデルは実行ごとに改善される。

Anthropic（アンソロピック）は、1年間でRLに10億ドル以上を費やすことを検討していると報じられており、DeepSeek-R1の論文は、検証可能な報酬を伴う純粋なRLが、教師ありファインチューニング（SFT）なしでモデルから強力な推論を引き出せることを示した。現在、すべての研究所がRL環境を購入しており、多くのRLベンダーが存在する。私のお気に入りには、Fleet AIやMechanizeがある。

しかし、このデータの波も終わりを迎える。簡単なRL環境（スプレッドシートタスク、ブラウザフロー、単発のコーディング）はすでに社内で構築されており、データ企業は間もなく、より長く、よりノイズが多く、より複雑なデータソースの作成へと軸足を移す必要がある。