2024.07.30 08:00

学習データの不足に悩むAI企業を救う「合成データ」が抱える課題

Rashi Shrivastava | Forbes Staff

著者フォロー

記事を保存

Shutterstock.com

アンドリーセン・ホロウィッツの共同創業者のマーク・アンドリーセンは、2011年に人工知能（AI）分野の投資を開始した際に、「ソフトウェアが世界を食い尽くそうとしている」と述べていた。それから10年以上が経って、彼の予言が現実になりつつある。

AIを支える大規模言語モデル（LLM）は、大量のデータを必要とする。しかし、そのデータは有限であり、尽きつつある。ChatGPTの開発元であるOpenAIのような企業は、YouTube動画の書き起こしや字幕、一般公開されたSNSの投稿、本やニュース記事などあらゆるデータを用いてAIモデルの訓練を行っている。しかし、それらの利用可能なデータは、いつか尽きる時がくる。

研究者たちはこれを「データの壁に突き当たる時」と呼び、早ければそれは2026年にも起こると予測している。このため、より多くのAI向けのデータを生成するための方法を、スタートアップが模索しており、解決策の1つに浮上したのが、人工的なデータの生成だ。

創業5年のスタートアップ企業のGretel（グレテル）は、「合成データ（シンセティックデータ）」と呼ばれるアプローチで、データ不足の問題を解決しようとしている。同社のAIで生成したデータは、事実情報を忠実に模倣するが、実際には存在しないデータだ。グレテルはこれまで、医療関連などのプライバシー保護を求められる分野の企業に、このデータを提供することで、評価額を3億5000万ドル（約540億円）に押し上げた。

同社のCEOのアリ・ゴルシャンは今、データ不足に悩むAI企業を新たな顧客にしようと考えている。「合成データは、質の高いデータを安全性に配慮しつつ提供できる」と彼は述べている。

この「AIがAIを養う」アプローチは、すでにメタやアンソロピック、マイクロソフト、グーグルなどに採用されており、彼らはモデルの訓練に何らかのかたちで合成データを使用している。グレテルは先月、データ分析プラットフォームのDatabricks（データブリックス）を使用してAIモデルを構築する顧客向けに合成データを提供することを発表した。

次ページ＞人間の労働力を活用しデータ不足を解決する