AI

2025.10.29 16:14

80%から99.999%へ:ビジュアルAI実用化の壁を乗り越える方法

Adobe Stock

Adobe Stock

Dr. ジェイソン・コルソ氏、Voxel51の共同創業者であり、ロボット工学および電気工学・コンピュータサイエンスの教授。

ビジュアルAIに関する過熱が続く中、一般企業はAI実証実験の46%を本番環境に移行する前に破棄している—そしてこうした失敗は増加傾向にある。AI開発者たちは「不気味の谷」のような死の谷にはまり込み、デモ段階の製品を実世界で使用可能なものへと進化させることができずにいる。この課題は、自動運転、スマート製造、小売分析、ヘルスケアなどの産業向けに視覚データを実用的な洞察に変換するコンピュータビジョンにおいてさらに大きく、製品が期待通りに機能しない場合、深刻な結果をもたらす可能性がある。

今日、コンピュータビジョンのタスクで80%の精度を達成することはそれほど難しくない。例えば、植物分類を任された知識のある高校生なら、オンラインでオープンソースの植物データセットをダウンロードし、TorchvisionFiftyOne Model Zooなどのオープンソースライブラリからモデルを選び、それらを組み合わせて十分なパフォーマンスを達成できる。

しかし、その学生がB評価で満足するかもしれないが、本番環境のビジュアルAIはより高い基準を要求する。毎晩食事を作ってくれるAIシステムは、一部の人にとっては神の恵みかもしれない…もちろん、週に一度夕食を焦がさない限りは。

さらに重要なことに、20%の失敗率を持つ医療画像診断を導入することは壊滅的な結果をもたらすだろう。

AIの未来:視覚的、物理的、感覚的体験

子供の頃、私は読書やCommodore 64に夢中だったため、家族から「本の知識だけがある」とからかわれていた。もし友達と外で棒球やタグ遊びをしていなかったら、物理的な世界を体験し相互作用することで得られる常識的な教訓を見逃していただろう。

同様に、大規模言語モデルに関する話題が盛り上がっているにもかかわらず、実環境ではそれらには限界がある。自動運転タクシーがすでに道路を走っている今、ビジュアルAIはテキストベースのAIにはできない方法で物理的な世界との相互作用を変革している。言語モデルはテキストの処理と生成に優れているが、ビジュアルAIが提供するリアルタイムの環境理解能力を欠いている。

文章による説明だけで自転車の乗り方を学ぼうとすることを考えてみよう。たとえバランスと協調性のあらゆるニュアンスを言葉で捉えたとしても、実際に自転車に乗ると苦労するだろう。各動作を考えすぎることは逆効果になり、予期せぬ障害—穴、急な坂、または何か見慣れないもの—に遭遇した瞬間、おそらく転倒するだろう。

テキストによる知識と物理的な習熟の間のギャップが明らかな中、未来は私たちの世界の視覚的複雑さを見て、解釈し、安全に対応できるAIシステムのものである。

AI失敗のギャップを理解する

エラーの余地がほとんどない中、コンピュータビジョン製品をデモから実用化へと進めるには、システムが「ファイブナイン」の信頼性を満たす必要がある。この用語はネットワークの稼働時間要件である99.999%に由来するが、重要なAIシステムを安全に使用するために必要なレベルでもある。

もし私たちの信頼できるAIシェフがファイブナインを達成したら、年に1食未満しか失敗しない—私よりも優れている!—市場に出す準備が十分整っていることになる。

このAIの死の谷を越えるには、より良いモデル以上のものが必要だ。データがモデルトレーニングに不可欠であるため、開発者はそれらの相互作用を理解する必要がある。つまり、集計された精度スコアを超えて、失敗パターンを浮き彫りにし、エッジケースを可視化し、時間の経過とともにパフォーマンスを追跡するデータ中心のAIツールを使用する必要がある。

パレートの法則、つまり80/20の法則によれば、効果の約80%は原因の20%から生じる。AIイノベーションにおいて、これは最終段階が最大の違いをもたらし、実行が最も難しいことを意味する—そしてビジュアルAIでは、その重要な20%は均等に分布していない。典型的なシナリオのデータは容易に入手できるが、ファイブナインを達成するには、異常な照明、予期せぬ物体の向き、またはトレーニングデータで十分に表現されていないその他のシナリオなど、あまり一般的でない視覚的エッジケースやロングテールを捉えたデータセットが必要だ。

ここでの課題は、これらのケースを考慮するためにデータやアルゴリズムを調整するだけでなく、そもそも何が欠けているのかを知ることだ。

AI失敗のギャップを埋める

近年、AIコミュニティはより広範な問題を解決するために、より多くのデータ、より多くの計算能力、より多くのパワーを投入することに焦点を当ててきたが、80%から99.999%への道のりは、膨大な量のデータを必要とする、より大きく、より一般的なモデルを構築することではめったにない。

代わりに、この閾値を越えようとするAI開発者は、特定の問題や課題に焦点を当てた、小規模で集中的なソリューションの開発に注力すべきだ。

例えば、米国郵便局の自動住所読み取り機は、光学文字認識(OCR)を使用して郵便物を識別、分類、仕分けするよう訓練されている。この技術は1960年代の導入以来改良されてきたが、これらのシステムは実際に読み書きを学んだわけではない—そしてその必要もない。OCRは明確に定義された問題に対する優れたエンジニアリングソリューションだったため、今でも関連性を保っている。

より具体的な方向に進み、コミュニティが行っている刺激的な取り組みをより目標指向のシステムに落とし込むことで、ターゲットを絞った高度にキュレーションされたデータセットを使用して、コストが低く、より効率的に機能するモデルを推進できる。

これを真のオープンソース—AIシステムのすべてのコンポーネントが共有され、コミュニティが複製、調査、改善できるようにする—の開放性と透明性と組み合わせると、イノベーションがさらに促進される。そのため、IBMが最近実施した2,400人のIT意思決定者を対象とした調査では、AIプロジェクトのライフサイクルを最適化するためにオープンソースを使用することへの関心が高まっていることが明らかになった。

ビジュアルAIの死の谷を駆け抜ける

ビジュアルAIがデジタルインテリジェンスと物理的現実の架け橋になりつつある中、このAI革命をリードする企業は、最大のモデルを持つ企業ではなく、「十分に良い」から人々が信頼できる本番環境対応のコンピュータビジョン製品へと進化させることができる企業だろう。

80%と99.999%の精度の違いは数学的なものを超えている。信頼性が高く、安全で、展開可能なコンピュータビジョンの暗号を解読する組織は、製造ラインでの欠陥検出から、ロボットが動的環境を安全にナビゲートできるようにすること、道路上の危険で予期せぬ状況に対応することまで、人間と機械の相互作用の未来を形作るだろう。

AIの死の谷は単に乗り越えるべき障害ではなく、真に変革的なデータ中心のAIが生まれる試練の場なのだ。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事