ザカリー・ユー氏は機械学習研究者であり、2度のYコンビネーター創業者、そしてFractal Researchの創業者兼CEOである。
毎週のように、新たなAIデータ企業が驚異的な売上高を達成し、高額なバリュエーションで資金調達を行い、その後1年以内に中核製品の価値の大半を失うという事例を目にする。最先端のAIモデルは、トレーニングデータの複雑性を継続的に高める必要があり、かつてモデルを前進させたデータセットは、すぐに有用性を失ってしまう。これにより、こうしたデータセットを販売する企業は厳しい状況に置かれている。
この業界で過去1年間事業を構築してきた者として、私はこうしたデータシフトを直接経験してきた。本稿では、なぜこうした変化が起こるのかを説明する。
AIデータの短い歴史
過去5年間で、AIトレーニングのパラダイムごとに異なる3つの主要なデータ時代が存在した。
第1期:入力・出力ペア
Scale AIは、猫の画像、ラベル「猫」といったデータで数十億ドル規模のビジネスを構築した。これは教師あり学習に最適だ。教師あり学習は、ラベルに基づいて入力を出力にマッピングするようAIモデルをトレーニングするもので、このパラダイムの主な制約要因はデータラベリングの品質である。AIモデルは数年間このデータを使用した後、こうした基本的なラベルの関連付けを学習し、このデータがもはや不要であることを研究所が認識すると、このデータの価値は低下した。
第2期:専門分野特化
MercorやHandshakeのような企業は、医師、弁護士、アナリストに大量の専門家の回答を書いてもらい、模倣学習に使用した。模倣学習では、モデルが専門家のデモンストレーションを模倣する。この種の学習の制約は、専門家の質と彼らが生み出す回答の質である。この種のデータは大量に収集でき、特定分野におけるAIモデルの一般的な能力を提供するのに優れているが、長い思考プロセスや深い理解を必要とする複雑なタスクをモデルが学習する必要がある場合には機能しない。
第3期:長期的強化学習(RL)環境
これが私がこの1年間取り組んできたものだ。RL環境とは、AIエージェントにタスクが与えられ、タスクの実行を試み、その出力に対して評価されるデジタルシミュレーションである。成功には報酬が与えられ、失敗には罰が与えられる。RL環境の素晴らしさは、繰り返し実行できる(時には数百万回)ことであり、AIモデルは実行ごとに改善される。
Anthropic(アンソロピック)は、1年間でRLに10億ドル以上を費やすことを検討していると報じられており、DeepSeek-R1の論文は、検証可能な報酬を伴う純粋なRLが、教師ありファインチューニング(SFT)なしでモデルから強力な推論を引き出せることを示した。現在、すべての研究所がRL環境を購入しており、多くのRLベンダーが存在する。私のお気に入りには、Fleet AIやMechanizeがある。
しかし、このデータの波も終わりを迎える。簡単なRL環境(スプレッドシートタスク、ブラウザフロー、単発のコーディング)はすでに社内で構築されており、データ企業は間もなく、より長く、よりノイズが多く、より複雑なデータソースの作成へと軸足を移す必要がある。
次に来るもの
現在の平均的なRL環境は、AIモデルが問題を完了するのに数分から数時間の範囲内である。
次の波のRL環境は、AIモデルが完了するのに数カ月から数年かかる。こうした環境の例としては、一定期間都市を管理することや、企業を経営することなどが考えられる。
数時間のタスクのみでトレーニングされたモデルには、数年間のタスクのための仕組みがない。これらの環境には、実世界のデータに基づく正解が必要となる。これを作成するのは困難だろう。
データ企業にとっての意味
データ企業は歴史的にコンサルティング企業であり、より多くの人材を雇用してより多くのデータを力ずくで取得することで事業を拡大してきた。今後の勝者は、大規模にデータを収集または合成的に生成できる自律的インフラ企業となる。
これにより、ボトルネックはオペレーションからエンジニアリングへと移行する。
1. 製品は成果物ではなく、システムとなる。過去のデータ企業はデータを販売していた。将来の企業はパイプラインを販売する。手続き型環境生成、シミュレーターインフラ、プログラマティックな報酬検証である。
2. 採用プロファイルが変わる。理想的な体制は、報酬関数を設計できる1000人ではなく、データを生成するシステムを構築できる50人未満の少数精鋭のエンジニアチームとなる。
3. 参入障壁の形が変わる。今日の参入障壁は、少数の研究所との関係を持つことだ。明日の参入障壁は、誰も追随できないほど速く優れたデータを生成できる生成ツールを持つことになる。
結論
AIデータ産業は過去5年間、数カ月ごとに自己変革を遂げてきたが、その変化のペースは加速するばかりだ。増大する変化と大量のデータへの需要に対応するため、新たなデータ企業は、最大規模のオペレーションチームではなく、最高の自動化インフラをエンジニアリングすることに最適化する必要がある。
そのインフラを構築する企業が、この業界で初めて、サイクルごとにリセットされるのではなく、成果が積み重なっていく企業となるだろう。



