AI

2024.07.30 08:00

学習データの不足に悩むAI企業を救う「合成データ」が抱える課題

人間の労働力を活用しデータ不足を解決

しかし、合成データにも課題が存在する。その1つは、元のデータセットのバイアスを誇張し、AIの幻覚をさらに悪化させる可能性だ。また、偽のデータで訓練されたモデルが新しいものを生成することができなくなることもある。ゴルシャンはこれを「死のスパイラル」と呼ぶが、一般的には「モデル崩壊」として知られている。彼は新たな顧客に対して、モデル崩壊を避けるために、質の高い実データの一部を提供するよう求めている。

データ不足の解決に向けたもう1つの方法は、人間の労働力の活用だ。一部のスタートアップは、既存のデータを整理しラベル付けを行って、AIにとってより有用にするために、もしくは新たなデータを生成するために、人々を雇っている。

データラベリング分野の巨人で評価額が約140億ドルのScale AI(スケールAI)は、OpenAIやCohere(コヒア)、Character AI(キャラクターAI)などのトップAI企業に、人間が注釈を付けたデータを提供している。同社はRemotasksという子会社を通じて、世界中で約20万人の労働者を雇用し、彼らに画像内の物体にボックスを描いたり、質問の異なる回答を比較してどちらがより正確かを評価するなどの作業を委託している。

さらに大規模なアプローチを取っているのが、アムステルダムに拠点を置くToloka(トロカ)で、同社は900万人の人間のラベラーや「AIチューター」をクラウドソーシングしている。これらのフリーランサーは、Hugging Face(ハギングフェイス)とServiceNow(サービスナウ)が主導するAIプロジェクトのために、データセット内の個人を特定できる情報にラベルを付けるなどの作業を行うが、新たな言語への翻訳や要約文の作成、音声の書き起こしなどを通じて新たなデータを生成する場合もある。

解決策は使用するデータの量を抑えること

トロカはまた、物理学の博士号を持つ専門家や科学者、弁護士などの専門家と協力して、特定の分野に特化したデータを作成し、ニッチなタスクをターゲットにしたモデルを訓練するためのデータを提供している。例えば、ドイツ語を話す弁護士を雇って、法的AIモデルに供給するコンテンツを作成する場合もある。

しかし、200カ国以上の人々を取りまとめ、彼らの作業が正確で信頼でき、バイアスがないことを確認し、学術用語をAIモデルが理解しやすい言語に翻訳するような作業には、膨大な手間がかかる。
次ページ > 「AI業界の人々は、モデルの構築は好きだが、人間を扱うことには慣れていない」

編集=上田裕資

タグ:

ForbesBrandVoice

人気記事