AI

2025.11.13 20:34

AIの野生の思考を飼いならす:幻覚から制御された知能へ

Shutterstock.com

Shutterstock.com

Sandeep Giri氏は、CloudxLab Inc.およびTerno AIのCEO。AI研究者、教育者、講演者であり、3度のテック起業家でもある。

人類が最初に機械を作った時、その動作は正確で予測可能だった。一度構築されれば、単純に動作するだけだった。予想外の事態は起きなかった。これは自転車であれ時計であれ、構築される機械すべてに当てはまった。

馬を初めて飼いならった時は状況が異なっていた。馬は強力でありながら予測不能だった。私たちは手綱や鼻帯を発明しなければならなかった。馬が確実に役立つ前に、訓練する方法を学ぶ必要があった。

大規模言語モデル(LLM)は人間の発明品だが、同様に、従来のソフトウェアのように完全に予測可能な方法で常に動作するとは限らない強力なものに直面している。従来のソフトウェアは時計仕掛けのように動作し、毎回同じ出力を生成する。対照的に、LLMを活用したシステム(データサイエンス、カスタマーサポート、コンテンツ生成に適用されるかどうかにかかわらず)は、実行するたびに異なる結果を生成する可能性がある。知性には創造性が伴い、創造性には幻覚のリスクが伴う。

LLMを制御しビジネス価値を構築する方法

課題はこの予測不可能性を排除することではなく、それを活用することだ。馬の力を抑え込むことなく飼いならう方法を学んだように、LLMの可能性を失うことなく導く方法を学ばなければならない。以下が、私が考えるその実現方法だ。

1. 徹底的にテストと測定を行う。

従来のソフトウェアとは異なり、LLMは毎回同じように動作しない。確率に基づいて出力を生成する。そのため、厳格なテストは不可欠だ。

• テストケースを定義する。 コンプライアンスに関する質問への回答、財務報告書の分析、顧客への返信の作成など、ビジネスニーズを反映したシナリオから始める。パフォーマンスを客観的に測定できるよう、明確な正解を用意しておく。

• 推測せず測定する。 各テストを複数回実行する。一度は正解でも30%の確率で間違える可能性のあるモデルは、リスクとなる。精度、再現率、F1スコアなどの指標を使用して結果を追跡し、「幻覚」を測定可能なリスクに変換する。

• コンテキストを通じて改良する。 ほとんどの失敗は曖昧なプロンプトから生じる。「表からのみ引用する」や「JSONで回答する」などのより豊かな指示は、精度と一貫性を向上させるのに役立つ。時間の経過とともに、これにより再利用可能なドメイン固有のプロンプトライブラリが構築される。

• AIを使ってAIを改善する。 あるモデルが別のモデルの回答を批評するメタプロンプトは、無限のヒューマンレビューなしでチューニングを加速できる。

• 継続的に行う。 テストは立ち上げ時の活動ではなく、継続的な規律だ。データの変化、新しいユースケース、進化する規制はすべて継続的な測定を必要とする。徹底的なテストにより、LLMは予測不可能なツールから信頼できるビジネス資産へと変わる。

2. メーカー・チェッカーシステムを採用する。

重要な領域では、単一の出力だけで信頼を置くことはできない。ここでメーカー・チェッカーモデルが役立つ。一方のエージェント(メーカー)が応答を生成し、もう一方(チェッカー)がそれを検証する。

この二層構造により、リスクは大幅に軽減される。各エージェントの精度が90%だとしても、両方が同じタスクで失敗する確率は約1%に低下する。実際には、これにより幻覚が漏れる可能性が少なくなり、より信頼性の高い結果がエンドユーザーに届く。

チェッカーは回答をゼロから再構築する必要はない。代わりに、特定の側面をテストするように設計できる:

• データはソースと一致しているか?

• 数字は一貫しているか?

• 推論は健全か?

作業負荷を分散させることで、メーカーからは速度を、チェッカーからは安全性を得られる。結果として、財務監査や医薬品品質管理を反映したシステムが生まれる。一方の層が創造し、もう一方の層がコンプライアンスを確保する。ビジネスアプリケーションにとって、これはシンプルながら強力な安全装置であり、AIの生の創造性を信頼できる知能に変換する。

3. エージェントのアンサンブルを使用する。

自然界でもビジネスでも、多様性が回復力を生み出す。LLMにも同じことが当てはまる。単一のモデルの回答を信頼する代わりに、複数のエージェントにタスクを割り当て、多数決に頼る。この「群衆の知恵」アプローチにより、ランダムなエラーや外れ値が平滑化される。

例えば、それぞれ90%の精度を持つ3つのエージェントを使用すると、システムの集合的な信頼性は97%以上に跳ね上がる。さらにスケールアップすれば、企業レベルの信頼性に近づく。アンサンブルの美しさは、モデルを再発明する必要がないことだ。単に複数の声を調整し、コンセンサスに強さを発揮させるだけでよい。

4. セキュリティのための堅固なファイアウォールを構築する。

AIの創造性がビジネスの脆弱性に変わることがあってはならない。LLMの即興的な傾向は、チェックされなければ強力でありながらもリスクを伴う。そのため、強力なガードレールが不可欠だ。

AIエージェントとデータベースの間を仲介するファイアウォール層として機能するツールを検討しよう。モデルがクエリを「幻覚」したり、意図しないことを試みたりしても、シールドは厳格なルールを強制する:機密データの漏洩なし、不正な変更なし。

この分離により、予測不可能性が「安全地帯」に限定されることが保証される。実際には、自由に探索するアシスタントと、誤ってビジネスクリティカルなシステムを危険にさらすアシスタントの違いとなる。

5. LLMをツールで拡張する。

LLMは言語やアイデアの生成に優れているが、算術、構造化された検証、ルールの強制などの正確なタスクには弱いことで知られている。すべてに優れることを期待するのではなく、専門的なツールで拡張しよう。

計算機が数学を処理できる。ルールベースの検証ツールがコンプライアンスを確認できる。APIがリアルタイムデータを取得できる。LLMと従来のソフトウェアユーティリティを組み合わせることで、創造性と正確性を兼ね備えたハイブリッドシステムを構築できる。

このツール拡張アプローチは、言語モデルの限界を認識しながら、その強みを増幅する。結果として、単に賢いAIではなく、実世界の高価値アプリケーションで信頼できるAIが生まれる。

今後の道筋

LLMは壊れているわけではないが、野生的である可能性がある。馬のように、その予測不可能性は欠陥ではなく、知性の特徴だ。この野生さを活用する方法を学ぶビジネスは、幻覚をブレークスルーに、予測不可能性を競争優位に変えることができる。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事