2019年に設立された人工知能(AI)関連のスタートアップ、Snorkel AI(シュノーケルAI)の共同創業者兼CEOのアレックス・ラトナーはかつて、「データのラベル付け」という骨の折れる作業が、AI研究者の間で地味な雑用のように思われていた時代を覚えている。AIモデルの訓練にはラベル付けしたデータが必須で、生データへのラベリングは人間が手作業で行う必要がある。
しかし、2022年に登場したChatGPTが世界を驚かせると状況は一変した。OpenAIやAnthropic(アンソロピック)などにラベル付けデータを提供するスタートアップの一群に、新たな活気と莫大な資金がもたらされた。
データラベリング分野がさらに変化
そして今、データラベリング分野はさらに別の変化を遂げようとしている。大規模言語モデル(LLM)をイチから訓練する企業は減少し、その役割は一握りのハイテク大手に任されている。その代わり、多くの企業がモデルのファインチューニング(学習済みモデルのパラメーターを特定タスクやデータセットに合わせて変更すること)や、ソフトウェア開発、医療、金融といった分野のアプリケーション構築に注力しており、専門的なデータへの需要が高まっている。
AIチャットボットはもはやエッセイや俳句を書くだけではなく、医師の診断支援や金融機関のローン申請審査といったリスクの高い仕事に使われており、誤りを犯すことも増えている。「企業がAIを信頼し、最終的に導入するために、モデルの性能評価が不可欠になっている。そこに新たな需要が生まれている」とラトナーはフォーブスに語った。
シュノーケルAIは現在、特定のユースケースに即したAIの能力を測定するというニーズの高まりに対応しようとしている。同社は、企業がAIモデルをテストし、必要に応じて調整するための評価システムおよびデータセットの作成支援に重点を移している。企業内のデータサイエンティストや専門家が同社のソフトウェアを使い、正しい回答例として数千のプロンプトと応答の組み合わせを作成する。AIモデルはそのデータセットに基づいて評価され、品質向上のために訓練される。



