AI

2025.11.26 20:56

AIの真価は規模ではなくデータの質にあり:企業成功の新たな方程式

Shutterstock.com

Shutterstock.com

Lianne Dehaye氏、TDCX AIシニアバイスプレジデント兼Chemin責任者。

6200万ドル。これはMDアンダーソンがんセンターが2016年にプロジェクトを中止する前にWatson AIに投じた金額だ。このAIは電子カルテを解析し、医学文献と照合することでがん治療の指針を提供すると約束していた。構造化された検査結果とは異なり、患者記録の約80%は非構造化のメモや退院サマリーだ。これらは文脈や医学的オントロジーを必要とするが、Watsonはその解釈に苦戦した。医師たちは後に、Watsonが提案した治療法を安全でないか無関係だと評した。これは、最も高度なモデルでさえ、信頼できるデータがなければ失敗することを示している。

Watsonの失敗は早期警告だった。研究者たちは現在これを「モデル崩壊」と呼んでいる。自身の生成した出力に過度に依存して訓練された生成システムは、コピーのコピーのように劣化する。より速く安価に生成できるかもしれないが、徐々に忠実性を失い、最終的には失敗する。合成コンテンツが広がるにつれ、トレーニングパイプラインは汚染のリスクを抱え、本物の知識と機械生成のノイズを区別することがますます困難になる。

これはセキュリティとプライバシーのリスクも高める。2023年3月、オープンソースライブラリのバグにより、一部のChatGPTユーザーのチャット履歴と支払い情報の一部が一時的に露出し、最先端のシステムでさえ、安全対策が不十分だと機密データが漏洩する可能性があることを示した。

この問題は医療を超えて広がっている。金融分野における24の主要モデルを対象としたVals AIのベンチマークでは、537の初級アナリスト業務において、どのモデルも50%の精度を超えられず、最高でも48.3%にとどまった。すべてのモデルはクリーンなデータに依存しているが、規模が欠陥を増幅する:小さなエラーが何千もの出力に波及し、小さなひび割れが構造的欠陥に変わる可能性がある。

失敗の原因は多くの場合、浅いまたは出所の怪しいトレーニングデータにある。多様性と出所の明確さが重要だ。ここでの出所とは、データがどこから来てどのように準備されたかの明確な記録を意味する。これがなければ、モデルは表面的な流暢さを超えた推論を信頼できない。

モデルが大きくなるにつれ、不完全さは伝播し複合化する。真の尺度は大きさではなく、回復力だ。幻覚は過度に自信のある主張になる。欠落データは確定的な「決定」として扱われる。合成フィードバックループが効率性を装う。そして結果が権威的に見えても検証不可能な情報源に基づいている場合、私たちは問わなければならない:私たちは一体何を信頼しているのか?

規模がどのように弱点をコストに変えるか

AIの反射的対応は、より多くのデータとパラメーターで精度やバイアスのギャップを修正し、サイズを知性の代用とすることだった。例えば、MetaのLLaMA 3.1論文では、合成データを含む数千億のトークンにモデルを拡張することが「役に立たず」、むしろ性能を低下させたと指摘している。

データを信頼できない場合にシステムがいかに脆弱になるかを示す主な例を3つ見つけた:

• 出所の不透明性: MetaのGalacticaは4800万の科学文書で訓練されたが、引用の捏造や疑似科学的主張を行ったため、すぐにオフラインに引き下げられた。明確なデータ出所のない規模は、自信に満ちた虚偽を生み出す。

• 取り込みによる汚染: MicrosoftのTayチャットボットはTwitterの会話から学習するよう設計されていたが、組織的なトロール行為を吸収し、人種差別的発言を増幅し始めた。ガードレールのない学習は、機械の速度で腐敗する可能性がある。

• 平均値に隠れたドリフト: Zillowの住宅購入アルゴリズムは全体では正確に見えたが、変動の激しい市場での体系的な価格設定ミスが損失に連鎖し、従業員の25%削減につながった。過去のデータで訓練されたモデルは、パンデミック中に需要が変化したとき、一時停止や再調整するための監視がなく、ドリフトした。

大規模モデルは強力かもしれないが、重要な状況では脆いものだ。小さなエラーでも規模が大きくなると劇的に複合化する。

ゴールドスタンダードのトレーニングデータ構築

ゴールドスタンダードのデータは収集されるのではなく、構築される。その価値は出所と精度から来るもので、検証された情報源、現実を反映するカバレッジ、精査に耐えるプロセスを持つ。標準を定義する3つの原則がある:

• ヒューマンインザループ検証:モデルがエッジケースに直面したとき、確率だけでは不十分だ。ドメインの専門家が推測を責任ある決定に置き換える判断を提供する。

• 代表的なカバレッジ:多数派のみを反映するデータセットは脆弱だ。人口統計、地理、言語にわたるバランスの取れたカバレッジは、例外で失敗する支配的なパターンへのデフォルトを防ぐ。

• 継続的な監査:定期的な出所チェックとバイアステストは、ドリフト(時間の経過とともにデータ分布が変化し、チェックされなければパフォーマンスが低下する)を防ぐために不可欠だ。

企業は2つのフレームワークを活用してこれらの原則を運用できる。まず、NIST人工知能リスク管理フレームワークは、文書化された役割、監視、エスカレーションパスを持つAIライフサイクル全体にわたるリスク管理を構造化する。次に、生成AIプロファイルはコンテンツの出所と展開前テストを強調し、幻覚を測定し、情報源を検証し、ワークフローを文書化するための具体的なアクションを提供する。

ファインチューニングは多くの場合「より多くのデータを追加する」と誤解されている。しかし、OpenAIの研究によれば、50〜100の厳選されたサンプルが何千もの一般的なサンプルよりも優れたパフォーマンスを発揮できることが示されている。精度は正確性を向上させ、完全に追跡可能で監査可能なパイプラインを作成する。例えば、私の会社のあるアート関連クライアント向け生成デザインプロジェクトでは、100人以上の訓練されたグラフィックデザイナーによる規律あるパイプラインが処理量を20倍(四半期あたり1万から20万画像へ)に増加させ、96%のデータ精度を達成した。

AI成熟度の基本的な指標

AIの未来を決めるのはパラメーター数ではなく、それを支えるデータの完全性だ。医療、金融、消費者技術における失敗は、出所とガバナンスが弱い場合、規模が欠陥を拡大することを示している。信頼性は、データが出所に根ざし、エッジケースに対応するよう構築されている場合にのみ現れる。

今すぐできることは何か? 私が同業のテクノロジーリーダーたちに今すぐ取り組むよう促したい5つの主要なアクションがある:

• トレーニングデータを監査する。出所が不明確または古い領域を修正する。

• ドメイン専門家を活用する。彼らの意見を使って曖昧さを解決し、早期にエッジケースを捕捉する。

• トレーサビリティツールを採用する。MLflowのような実験追跡ツールやOpenLineageのようなパイプラインリネージツールを使用して、モデルがどのように構築されているかを正確に把握する。

• 再調整ウィンドウを設定する。ドリフトを防ぐために定期的なバイアステストとパフォーマンスレビューを実行する。

• NISTのような信頼できる団体のフレームワークに合わせる。

AIの未来は、データ品質を技術的な後付けではなく戦略的資産として扱うリーダーたちのものだ。今投資する企業は、今後10年のイノベーションのペースを設定し、他者が目指すベンチマークとなるだろう。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事