テクノロジー

2025.12.22 10:21

企業がハイブリッドSLM-LLMモデルへシフトする理由

stock.adobe.com

stock.adobe.com

ビクター・パラスキブ氏はAI科学者であり、Broadnの創業者兼CTOで、法律データセットによる最初のLLMのトレーニングにおける初期のパイオニアだった

advertisement

経営幹部はモデルを買うのではない。彼らが購入するのは成果だ。

今日、企業にとって最も重要な成果は、スピード、プライバシー、コントロール、そして単位経済性である。そのため、増加する生成AI採用企業は小規模言語モデル(SLM)を中心に据え、最先端の大規模言語モデル(LLM)をデフォルトの頭脳ではなく、エスカレーションパスとして扱っている。

そのパターンはシンプルだ。複雑な作業を狭く具体的なステップに分解する。決定論的なパスはコードで解決する。残りを専門化されたSLMに任せる。本当に難しいケースのみをLLMにエスカレーションする。

advertisement

このSLM優先のハイブリッドアプローチは、実世界での価値創出への最短ルートとなることが多い。

この変化を形作る3つの力

企業がこのモデルを採用する理由は多いが、3つの要因が際立っている。

第一は物理的要因だ。ネットワーク遅延のミリ秒単位の遅れがユーザー体験を劣化させる。ローカルで実行されるSLMは往復時間を回避し、特に負荷が高い状況や長いコンテキストでクラウドサービスが苦戦する100ミリ秒未満の応答時間を実現できる。一般的なクラウドパスでは、キューイングとネットワーク時間が加わるため、トークンあたりの遅延が数百ミリ秒になる。エッジやオンプレミス展開では、そのコストを完全に排除できる

第二は主権性だ。規制対象および戦略的なワークロードでは、契約上の保証だけでなく技術的な保証も必要とされている。データ侵害の平均コストは依然として膨大であり、取締役会は機密データを境界内に保持するよう要求している。多くの企業は主にエッジAIを採用して、データ主権のためにデータをローカルに保持している。

第三は経済性だ。トークン1000個あたり数セントのコストで済む知能は、大規模に自動化できるプロセスを変える。

SLM:もはや「おもちゃ」ではない

主要ベンダーはLLMとラップトップに収まるSLMモデルの間の能力ギャップを縮めている。SLMは現在、6か月前にはデータセンター規模のモデルを必要としたタスクを処理できるようになった。

マイクロソフトエヌビディアグーグルIBMはすべて、企業のワークフローを支配する推論、抽出、長文コンテキストタスクにおいて最先端の性能に匹敵または近づくコンパクトなモデルを提供している。同時に、中国の研究所(アリババ、Moonshot、Zhipu、DeepSeek)からのオープンソースモデルは、その強力な機能、ファインチューニングの柔軟性、コスト面から急速に採用が進んでいる

SLMが実運用で勝利する静かな理由がある。それはソフトウェアエンジニアリングを容易にすることだ。SLMは不安定な知識ストアではなく、信頼性の高い変換エンジンとして機能できる。光学式文字認識(OCR)、分類、構造化抽出のための従来の機械学習パイプラインと同等かそれ以上の性能を発揮する。新規性や複雑さに基づくリクエストのルーティング、データラベリングと分類、自然言語から構造化データへの効率的な変換などのタスクをサポートする。ツールも追いついてきている。

実際の企業が動いている。Airbnbが使用する様々なモデルの中で、カスタマーサービスの自動化はオープンな小規模モデルに依存している。その計算は単純明快だった。それは優れており、速く、安価で、統合が容易だった。

このパターンは広がりつつある。ある文書処理スタートアップは、7つの異なるモデル(そのうち5つがSLM)を実行して、各ステップで90%の精度で単一の文書を処理している。マスターカードは、特殊な不正検出モデルをエッジデバイスで運用し、50ミリ秒未満で不審な取引を特定している。シーメンスルクソフトは米国の工場でエッジハードウェアを使用して予測保守AIを実行している。これは運用AIのための設計図だ。

小規模モデルが優位性を持つ領域

実運用の導入事例は、特定のドメインにおけるSLMの有効性も実証している。

例えば製造業では、企業は運用データの解釈、予測保守、異常音やひび割れの分析、在庫予測のために、わずか7億パラメータのモデルを導入している。

金融サービスの導入は、2つの補完的な領域に焦点を当てている:

1. リアルタイム不正検出では、デニズバンクはレッドハットと共にファインチューニングされたSLMを導入して不審な融資申請を特定している。このシステムは、1秒未満の応答時間を維持しながら、データ主権要件を満たすためにトランザクションをローカルで処理している。

2. 文書処理では、30億から90億パラメータのモデルを使用するエージェントが、融資申請書、契約書、コンプライアンス文書から構造化データを抽出する際に99%以上のスキーマ有効性を達成している。これらのシステムは、手書きフォームのOCR、自動契約条項抽出、KYC検証を処理する。検証システムは、失敗または困難なタスクを選択的にLLMにエスカレーションして処理を完了させる。

効率性の優位性は測定可能な経済性に変換される。エヌビディアの研究によれば、70億パラメータのSLMを提供することで、700億から1750億パラメータのLLMと比較して、レイテンシー、エネルギー消費、計算処理において10〜30倍のコスト削減が実現し、大規模なリアルタイム応答が可能になる。

ハイブリッドSLM-LLMモデルの役割

SLMは完全なソリューションではない。その制約は測定可能で重大だ。幻覚率は敵対的テストでは50%〜82%に上昇するのに対し、最高性能のLLMでは23%にとどまる。小規模モデルは、単一ステップの問題と比較して、構成的な小学校レベルの数学において2〜12倍悪化することがあり、LLMと比較して推論を連鎖させる能力の弱さを露呈している。

SLMはトレーニングドメイン内では優れているが、分布外の入力では破綻するため、タスク境界の定義が重要となる。これらの制限はパラメータ数とトレーニングデータの範囲に根ざした構造的なものだ。エンジニアは、規律あるシステム設計、プロンプトエンジニアリング、より広いデータセットでのドメイン固有のファインチューニングを通じて、これらの制限に対処できる。

その軌跡は着実な進歩を示している。昨年は1000億パラメータを必要としたものが、現在は40億パラメータで実行できる。四半期ごとに能力ギャップは縮まっている。予算制約のあるオープンソース設計者たちは、小規模でも信頼性を高めるための数多くのイノベーションを推進してきた。

SLMは大規模モデルの代替ではない。それらはより知的なアーキテクチャの基盤だ。未来は小規模か大規模かという二択ではなく、ハイブリッドだ。タスクに合わせた知能。重要な場所に配置された計算能力。勝利するアーキテクチャは、適切なツールを使用するものだ。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事