AI

2025.11.11 09:38

データ不足という逆説:AIの限界とエンタープライズデータ活用の新時代

shutterstock_2542569009

shutterstock_2542569009

AI/ML(人工知能/機械学習)の初期段階において、これらの新技術の制限要因は何になるのか、少し気になったことがあるかもしれない。

advertisement

一つの可能性はコストだったが、新しい強力なLLM(大規模言語モデル)が登場するにつれて、計算能力の価値は一貫して低下している。もう一つはデータセンターの容量だが、米国をはじめとする各国では、明日がないかのようにデータセンターを建設している。

しかし、これらのシステムの中核となる資産はどうだろうか?データについてはどうだろうか?

データ不足の概念は多くのエンジニアにとって目新しいものではない。それは、システムを知識ベースで動作させるための高品質なデータが十分にないという考え方だ。言い換えれば、AIには詳細な方法で動作するための十分なデータポイントがないため、手探り状態で動いているのだ。

advertisement

専門家たちはデータ不足をどのように特徴づけているのか。All About AIのMidhat Tilawatによると

「AIにおけるデータ不足とは、高品質な学習データが十分に利用できないことを指し、効果的な機械学習モデルの開発を妨げ、AIのパフォーマンス低下につながる。」

機械学習では、この懸念に近いものとして「次元の呪い」や「アンダーフィッティング/オーバーフィッティング」の問題が以前から言及されていた。

AIコミュニティにおけるデータ不足

さて、私たちはデータを使い果たしているのだろうか?インターネット上ではこの問題について議論が交わされている。一部の領域では質の高いデータが不足しているかもしれないが、それはデータが存在しないということなのか、それともただアクセスできないだけなのか?

一部の人々にとって、データの不足は井戸が枯渇したことを意味する。

「インターネットは人類の知識の広大な海だが、無限ではない」と昨年末にNicola JonesがNature誌に書いている。「そして人工知能(AI)研究者たちはそれをほぼ使い果たしてしまった。」

著名人たちもこの見解に同調している。CopilotはこのOpentoolsの記事を引用し、Dario Amodei氏がこの事態について「懸念を表明している」と示唆している一方、Sam Altman氏に関するニュースでは、彼はむしろ計算能力について心配している可能性がある。

いずれにせよ、他の人々はデータがまだ枯渇していないと考えており、ただ既存のデータをより良く活用する必要があるだけだと主張している。

オープンシステムとクローズドシステム、そして独自データ

9月にスタンフォード大学で開催された「Imagination in Action」の最近のセグメントでは、GreycoftのMarcie Vu氏とDatalogyのAri Morcos氏がCerebrasのJulie Choi氏とともに、エンタープライズAIに関するこれらの課題などについて議論した。

冒頭でVu氏は、創業者の基準を引き上げること、コラボレーションのためのディスティルドモデル(蒸留モデル)の活用、そして独自のモデルを構築するかベンダーのモデルを使用するかの決断について語った。

その後、会話は計算コストの限界費用に移り、最終的にはクローズドモデルとオープンモデルの対比という考えに至った。

「2年前は、クローズドソースモデルがオープンソースモデルよりもはるかに優れているため、競争の余地はないという広く信じられた見解があった」とMorcos氏は述べた。「そして関連して、最先端モデルのトレーニングコストが次々と高くなっていくという一般的な見解もあった。」

オープンソースは今、競争力があるのか?

Morcos氏は、現在ではオープンソースが競争力を持っており、過去10年間に予測されていた数十億ドル規模のクローズドモデルが支配的になるとは限らなかったと示唆した。

しかし、彼はオブジェクトストレージに関する「最先端の研究課題」について言及し、これは少数の企業が担当すべきではないと述べた。

「モデルのトレーニングについて考えるとき、通常、人々はある程度の予算を持ってこの分野に参入します」と彼は言った。「(例えば)このモデルに使える1000万ドルの計算リソースがあるとします。可能な限りのデータをモデルに見せて、そこからパフォーマンスを引き出します。その間に、S3にストレージされているデータがたくさんあります。データローダーを通じてモデルに供給します。」

ここで彼は、エンジニアや責任者がこれらのプロセスをどのように推進するかを考えることが重要だと述べ、これは比較的未開拓の領域だとした。

「何百もの選択肢があります」と彼は言った。「これらの選択肢は、モデルにどのデータを見せるかに関するものです。すべてを見せますか?一部のサブセットを見せますか?そのデータをどのような順序で並べますか?順序が重要かもしれません。」

それが、モデルの動作方法に関する基本的な事柄を決定すると彼は付け加えた。

「あなたが行うこれらすべての選択は...モデルの学習速度、どのパフォーマンスレベルまで学習するか、そしてそのパフォーマンスに到達するためにどれだけ大きなモデルをトレーニングできるかに、桁違いの劇的な影響を与えます」と彼は述べた。

データに関して、両パネリストはインターネット以外のデータ、独自データ、そしてデータの壁にぶつからないための方法について語った。

Morcos氏は、既存のデータを異なる方法で扱うだけで多くの「価値」を引き出せると述べ、さらに合成データについても言及した。

「私は、すべての企業が100万ドルという本当にそれほど高くない金額で独自のモデルをトレーニングでき、この非常に重要な方法で独自データにアクセスできる世界になると確信しています」と彼は言った。「よく聞く話です。『データを使い果たした。インターネットを掘り尽くした。インターネットは終わりだ。』まず第一に、インターネットは世界に存在するデータ全体のごく一部にすぎません。」

彼の会社は、このようなプロセスでクライアントを支援する方法を見つけていると彼は述べた。

「世界のデータの大部分は独自のもので、企業のサーバーに保存されています。私たちは企業がそのデータにアクセスし、価値を引き出す能力を解放するのを支援したいと考えています」と彼は付け加えた。「(また)データの壁は、既存のデータセットを最大限に活用している場合にのみ問題となりますが、私たちはそこからまだまだ遠い状況です。」

Vu氏もこれに同意し、彼女自身の会社が追求しているモデルについて語った。

「特に企業内にあるデータを活用できるようになるのは、まだ初期段階です」と彼女は述べ、より広範なネットを張る戦略を共有した。「私たちは実際に、必ずしもAIファーストやAIネイティブではないかもしれないが、『AIアクセラレーテッド』と呼ぶビジネスへの投資にも時間を費やしています」と彼女は言った。

AI専門用語

この二人がデータ利用について話すのを聞いて、いくつかの用語も学んだ。例えば「ベンチマキシング」は、システムがベンチマークでは良い結果を出すが、実世界ではそうではない場合を指す。Morcos氏は、これは合成データの過剰使用が原因かもしれないと示唆した。

「モデルに『生物学についてのデータポイントを生成して』などと頼むと、モデルはこれを生成します」と彼は言った。「この場合、すべての情報はモデル自体から来ています。つまり、合成データを生成するモデルがすでに理解していることしか、モデルに教えることができません。このように、この形式の合成データは、その合成データを介した変装したモデル蒸留と見なすことができます。これが最も一般的に使用されているものです。」

また、「リフレージング」と呼ばれるものもあり、企業は既存のデータを新しい形式に変換してAIにより良く供給する。これについて詳しく議論する中で、Morcos氏は企業がリフレージングにどのように取り組んでいるか、そしてこのプロセスを進める上で何が重要かについて語った。

まず、彼はデータを特定する必要があると述べた。

その後、小規模なモデルが新しいアプローチのためにこれらのデータポイントを操作する作業に取り掛かる。

「私たちは企業の独自データに適用できるシステムを構築しました」と彼は説明した。
「つまり、それが単なる合成データセットではなく、企業として自社のデータを供給し、それを効果的に大規模に拡張・リフレーズすることができるようになりました。そして、かなり低コストでこれを実現できます。」

未来へ

Choi氏はパネリストたちにAIの未来についてどう考えるか尋ねた。

Vu氏はロボティクスと応用知能について言及した。

Morcos氏は、ゴールポストを動かすようなAIのダイナミズムについて言及した。

「すべてのモデルが常に入ってくるデータでファインチューニングされる世界に向かっていくでしょう」と彼は述べた。

データ利用の予測

このパネルディスカッションは、データの制限について考えるのに非常に役立つと思った。この分析が正しければ、私たちはすぐにデータの壁にぶつかることはないだろう。既存のデータポイントや合成データの扱い方を見つけ出し、AIが潜在的な制限要因に対抗して拡大できる場を広げていくだろう。

そして再び、AIのアプリケーションとユースケースにおいて可能性は無限に感じられるだろう。

オープンソースとクローズドソースのモデルに関しては、企業がクローズドシステムに付随するベンダーロックインを受け入れるのか、それともオープンソース設計によるコミュニティアクセスを選ぶのかを見守る必要がある。

データのプライバシーとセキュリティは最も重要になるだろう。

新しい魅力的なAIシステムの展開において、これらのことを考慮してほしい。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事