2026.06.01 09:13

LLMの暴走を予測AIで制御──ハイブリッドAIが企業の自律化を実現する

Eric Siegel | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Adobe Stock

大規模言語モデル（LLM）の大きな可能性は、そのアキレス腱によって著しく損なわれている。それは致命的な信頼性問題だ。予測AIはこの問題に対処できる。そしてそれは、予測AIにとって次なるキラーアプリを意味する。インスタカート、HP、セールスフォース、トゥイリオといった企業は現在、この避けられない重要な転換を採用している。この動きに関する最新ニュースをお届けする。

エージェンティックAIの誇大宣伝が過剰な約束をする一方で、それは普遍的な目標、つまりLLMベースの自律性の限界を押し広げたいという企業の本質的な欲求を浮き彫りにしている。企業は、タスクだけでなく役割を実行するAIシステムを展開したいと考えている。彼らが求めるのは、単なるツールではなく、機械の「エージェンシー（主体性）」だ。（当然のことだ。自動化こそがあらゆる機械の目的なのだから。）

しかし、AIの誇大宣伝は誰もを混乱させている。それは内部的な緊張を生み出す。一方では、激しい取り残される恐怖（FOMO）に苦しむ。他方では、実現不可能な、あるいは馬鹿げた主張に騙されたくない。

AIに対して非現実的な目標を思いつくのは非常に簡単だ。そして、プロトタイプ、つまり印象的だがスケールしないデモを作り上げるのもほぼ同じくらい簡単だ。LLMは非常に人間らしく見えるため、人々はコンピューターがすべてのカスタマーサービス担当者に取って代わり、数千の文書のコレクションを要約したり質問に答えたり、データサイエンティストの役割を丸ごと引き受けたり、さらには企業の経営判断を下したりすることを想像する。

より控えめな「エージェンティック」な目標を達成することを意図したシステムでさえ、すぐに信頼性が低くなりすぎて大規模に展開できなくなる。例えば、AIスタートアップのメルコールが実施した最近の調査では、いくつかの競合するLLMベースのシステムの中で最も優れたジェミニ3フラッシュでさえ、「KVUEのP/E比率を小数点以下2桁に四捨五入して返信してください。割引キャッシュフローモデルの想定株価と、2025年12月23日付けの年次財務諸表の希薄化後EPSを使用してください」といったタスクのテストベッドでわずか24%しか成功しなかった。

良いニュースとさらに良いニュース

良いニュース。ハイブリッドAIは、AIのしばしば大胆な自律性の約束のかなりの部分を実現できる。予測AIは信頼性レイヤーとして機能し、失敗する可能性が最も高いケースやインタラクションを人間に引き渡す。これはまさに、予測AIが何十年もの間使用されてきた種類のものだ。ネガティブな結果を予測し、人間による検査と、場合によっては介入をターゲットにするためだ。このパラダイムは、一般的な企業リスク管理のベストプラクティスを表している。機械学習モデルは、どの取引が最も不正である可能性が高いか、どの橋が崩壊のリスクが最も高いか、どのレストランが衛生規則に違反しているかについて、ケースごとのリスクスコアを計算する。企業の生成AIプロジェクトは、この種の予測的管理を必要とするもう1つの複雑なシステムに過ぎない。

LLMベースのシステムに適用される場合、この動きは、時には（より高価な）人間をループに入れる必要があるという重要な認識を表している。これは完全な自律性に対する適切な妥協だ。FOMO主導の陶酔的な至高の自律性の見方ではなく、冷静で現実的な見方を採用することで、私たちはケーキを手に入れ、その大部分を食べることさえできる。

さらに良いニュース。それは起こっている。私は1年以上にわたってこの特定のハイブリッド予測/生成AIアプローチについて書いてきた。それは生成AIの差し迫った危機に対する実行可能な解決策として避けられないように思われる。そして今、それは実際に出現している。企業は純粋な必要性から積極的にハイブリッド化を進めている。

トゥイリオが予測的にカスタマーサービスシステムを制御

通信業界のリーダーであるトゥイリオは、継続的に進化する対話型AIアシスタントを立ち上げた。このシステムはカスタマーサポートと営業の両方の役割を実行し、質問に応答し、ユーザーがトゥイリオのソリューションの採用を増やすにつれて、顧客ライフサイクル全体を通じて積極的にガイドすることでユーザーを支援する。

システムのガードレールは潜在的な失敗を検出し、例えば、話題から大きく逸れすぎたり、誤った価格を提供したり、「法務チームに確認します」など、守れない約束をしたりしようとしている可能性がある場合に保留する。その後、人間がこれらのよりリスクの高いケースをレビューし、インタラクションを「再開」するためにクリアするか、必要に応じて介入する。

医療提供者が予測的に保険請求システムを制御

医療提供者が生成AIを活用して保険請求を完了する際、大きな潜在的効率性は、誤って完了した請求や承認される可能性が低い請求を提出するリスクとバランスを取る必要がある。そこで予測スコアリングの登場だ。LLMベースのシステムが請求を完了するたびに、予測モデルが請求を提出する前に請求が拒否されるリスクを判断し、人間がリスクの高い請求をレビューして潜在的に修正できるようにする。ネクストジェン・ヘルスケアのシニアデータサイエンティストであるオリバー・シェトラー氏は、今月初めに私が創設したカンファレンス、マシンラーニングウィークのHYBRID AI 2026でこのアプローチについて発表した。

インスタカートが予測AIで在庫切れ代替品を提供

ほとんどの食料品チェーンから自宅配達を注文できるインスタカートは、その領域に固有の避けられない課題に直面している。あなたの代わりに買い物をする人が、あなたが選択した商品が在庫切れであることを時々発見するのだ。予測AIは適している。どの代替品が顧客を満足させる可能性が最も高いかを予測することで、インスタカートは顧客に実行可能な選択肢を提供できる。そして、信頼度が十分に高い場合、その商品を積極的に交換でき、顧客が配達を拒否する可能性が低いことを知っている。

セールスフォースとHPが予測AIで生成AIシステムを制御

セールスフォースとHPもこのハイブリッドアプローチを実装してLLMベースのシステムを制御している。セールスフォースのあるプロジェクトは、セキュリティの観点からこれを追求している。システムがその目的で失敗する時期を予測するだけでなく、より具体的にはセキュリティ侵害を引き起こす時期を予測する。セールスフォースのスタッフデータサイエンティストであるミリー・ホアン氏もHYBRID AI 2026で、「AIエージェントが暴走する時：教師なし学習でリスクの高い企業AI行動を暴く」について発表した。

同じイベントで、HPのプリンシパルエンジニアであるサマレシュ・クマール・シン氏は、「HPにおける本番環境のハイブリッドAI：予測AIと生成AIを結びつける信頼性レイヤー（ヒューマン・イン・ザ・ループ付き）」について発表した。

LLMの信頼性は予測AIの次なるキラーアプリ

生成AIのプロトタイプは目を見張るほど魅力的だが、ローンチするには信頼性が低すぎるというのは陳腐な表現になっている。非現実的な「自律エージェントの陶酔」から後退し、生成AIの大胆で、しばしば過度に熱心な自律性の約束、あるいは少なくともその大部分を実現することに成功するには、予測AIを標準的な実践として組み込むことでハイブリッド化する必要がある。このアプローチが生成AIベースのソリューションのますます一般的な部分として出現するにつれて、それは予測AIにとって次の「キラーアプリ」を表すことになる。

しかし、生成AIの信頼性の低さが予測AIを必要とするのと同じくらい、予測AIプロジェクトは台無しにするのが非常に簡単だ。予測AIには悪名高い実績がある。ビッグテックと他のいくつかの主要企業以外では、ほとんどのイニシアチブは展開に失敗し、価値を実現することはない。なぜか。データ専門家は、ビジネスへの展開を売り込む準備ができていない。彼らが通常報告する技術的なパフォーマンス指標はビジネス目標と一致していない。そして意思決定者にとっては何の意味もない。しかし、ビジネス指標を中心とした計画に移行することで、まだ一般的ではないが重要なベストプラクティスである、あなたの予測AIプロジェクトは成功する。LLMベースのシステムを制御する場合でも、その他の予測AIユースケースでも。そうすることで、あなたはケーキを手に入れ、その大部分を食べることさえできる。

（forbes.com 原文）