2024.07.30 08:00

学習データの不足に悩むAI企業を救う「合成データ」が抱える課題

Rashi Shrivastava | Forbes Staff

著者フォロー

記事を保存

著者フォロー

記事を保存

Shutterstock.com

「人間のオペレーションの管理はとにかく大変だ」とトロカのCEOのオルガ・メゴルスカヤはフォーブスに語る。「AI業界の人々は、モデルの構築は好きだが、人間を扱うことには慣れていない」

また、この種の仕事には業界全体にわたる労働問題が存在する。フォーブスは昨年、スケールAIの子会社が雇用する労働者たちが、賃金が低すぎると訴えていることを報じていた。トロカの労働者も同じ不満を抱えている。

そんな中、データ不足問題のおそらく最も明白な解決策は、使用するデータの量を抑えることだ。一部の研究者たちは、将来的には先進的なAIがそれほど多くのデータを必要としないようになると考えている。スタンフォード大学の人間中心AI研究所の研究者のネスター・マスレイは、「この問題の本質は、量ではなく効率性にある」と指摘する。

小規模でジャンルを絞ったAI

「現状のAIモデルは、1人の人間が生涯で出会うデータの何百万倍ものデータで訓練されているにも関わらず、人間ができることをできない場合がある。ある観点から見ると、人間の脳はこれらのモデルを超える効率で動作している」とマスレイは述べている。

一部のAI企業は、すでに巨大なモデルからの転換を始めている。彼らは、OpenAIやアンソロピックと競合するLLMを構築する代わりに、少ないデータで訓練が可能な、小規模でジャンルを絞ったLLMを構築している。オープンソースのAIモデルメーカーであるMistral AI（ミストラルAI）は最近、数学に強みを持つAIのMathstral（マストラル）を発表した。

「特定のタスクでモデルを本当にうまく機能させるために必要なのは、データの質と特異性であり、量ではない」とデータラベリング会社Snorkel AI（シュノーケルAI）のCEOのアレックス・ラトナーは述べている。

スタンフォード大学のAIラボで生まれ、現在の評価額が10億ドルのシュノーケルAIは、データのラベル付けを自動化するソフトウェアを提供している。同社は、企業がすでに持っているデータを、AIの訓練のための貴重なリソースに変えることを支援している。

このやり方であれば、企業のモデルは実際に必要なものに特化して作られるとラトナーは述べている。「スーパーで買い物をするために、ロケットに乗って行く必要はない」と彼は語った。

（forbes.com 原文）