AIを支える大規模言語モデル(LLM)は、大量のデータを必要とする。しかし、そのデータは有限であり、尽きつつある。ChatGPTの開発元であるOpenAIのような企業は、YouTube動画の書き起こしや字幕、一般公開されたSNSの投稿、本やニュース記事などあらゆるデータを用いてAIモデルの訓練を行っている。しかし、それらの利用可能なデータは、いつか尽きる時がくる。
研究者たちはこれを「データの壁に突き当たる時」と呼び、早ければそれは2026年にも起こると予測している。このため、より多くのAI向けのデータを生成するための方法を、スタートアップが模索しており、解決策の1つに浮上したのが、人工的なデータの生成だ。
創業5年のスタートアップ企業のGretel(グレテル)は、「合成データ(シンセティックデータ)」と呼ばれるアプローチで、データ不足の問題を解決しようとしている。同社のAIで生成したデータは、事実情報を忠実に模倣するが、実際には存在しないデータだ。グレテルはこれまで、医療関連などのプライバシー保護を求められる分野の企業に、このデータを提供することで、評価額を3億5000万ドル(約540億円)に押し上げた。
同社のCEOのアリ・ゴルシャンは今、データ不足に悩むAI企業を新たな顧客にしようと考えている。「合成データは、質の高いデータを安全性に配慮しつつ提供できる」と彼は述べている。
この「AIがAIを養う」アプローチは、すでにメタやアンソロピック、マイクロソフト、グーグルなどに採用されており、彼らはモデルの訓練に何らかのかたちで合成データを使用している。グレテルは先月、データ分析プラットフォームのDatabricks(データブリックス)を使用してAIモデルを構築する顧客向けに合成データを提供することを発表した。