AI

2025.12.18 09:58

大規模言語モデルだけがAIではない:小規模言語モデルの可能性

Adobe Stock

Adobe Stock

Cody PierceはNeon CyberのCEO兼創業者です。サイバーセキュリティ分野で25年の経験を持ち、イノベーションに情熱を注いでいます。

大規模言語モデル(LLM)は、OpenAIが2019年にGPT-2をリリースして以来、世界中の想像力を捉えてきました。これは生成事前学習トランスフォーマーアーキテクチャを10億以上のパラメータにスケールアップしたものです。LLMの可能性は何千ものモデル、何百もの新会社、そしてテクノロジーにおけるパラダイムシフトを生み出しました。LLMの話題は、いわゆる「基盤」モデル、一般的に数十億のパラメータを含むモデルを中心に展開しており、OpenAI、Anthropic、Perplexityなどの企業価値100億ドル以上の企業が、質疑応答、コーディング、推論タスクを通じて世界的な知識ベースで訓練されたAIの力を強調しています。

基盤モデルが登場して以来、エージェント型、マルチモーダル、専門家の混合(mixture-of-experts)など、新しい機能が人気を集めています。これらの機能は同様の問題を解決します:AIをより自律的、タスク特化型、または精密にすることです。これらは信じられないほどの進歩ですが(興奮が尽きることはありません)、実際にこれらのテクノロジーを活用することは難しいことが証明されています。

LLMは複雑で、多額の資金とコンピューティングパワーを必要とし、特殊な問題を解決するには適していません。エージェント型AIは大規模モデルをタスク特化型の問題解決に絞り込む重要なステップですが、これが汎用的な問題を解決すると考えるのは近視眼的です。実際、大規模言語モデルと小規模言語モデル(SLM)の両方を含めるようにAIの旅を再構築すれば、二兎を追って二兎を得ることができるのです。

コスト、速度、精度

企業がAIを活用するための業務変革に投資し続ける中、コスト、速度、精度はすぐに成功への障壁となります。質疑応答アプローチは遅く、トークン使用量が爆発的に増加し、プライバシーのために自社でLLMをホスティングすることは、従来のコンピューティングリソースよりも桁違いに高価です。

コスト、速度、精度を成功裏に管理するには、「私はどのような問題を解決しようとしているのか?」という質問を明確に定義する必要があります。ビジネス運営にAIを活用する意図がある場合、その答えはおそらくあなたのビジネス、リソース、テクノロジーに依存するでしょう。時間とお金を節約しながらも、人間レベルの精度と信頼性を維持する新しいシステムが必要かもしれません。LLMだけに焦点を当てると、テクノロジーパートナーが反発するにつれて、すぐに幻滅し、イライラするかもしれません。

しかし安心してください。AIには基盤モデルやLLM以外にもさまざまな選択肢があります。小規模言語モデルは急速に成熟しており、コスト効率が高く、高速で正確なAIの旅を始めるのに最適な場所となっています。

小規模言語モデルの紹介

より大きなモデルと同様に、SLMも同じ基本的なトランスフォーマーアーキテクチャを利用していますが、情報の保存量が少なくなっています。これらのモデルは通常、数億以下のパラメータで動作するため、トレーニングが容易で、アクセスが速く、クラウド、エッジ、さらにはエンドポイントデバイスにも簡単に展開できます。トレードオフは一般的な知識に関するものですが、それがまた彼らの強みでもあります。

解決しようとしている問題が特定のものであれば、SLMはその解決策のために排他的に設計することができます。これはLLMで利用可能な膨大な知識ほど魔法のようには見えないかもしれませんが、それがポイントなのです。SLMを使えば、既存のモデルを簡単に微調整して、専門家レベルの理解で個々のタスクを実行し、既存のシステムに合理的に展開することができます。

SLMは分類、自然言語処理、感情分析などのタスクに優れています。トレードオフは、質疑応答、推論、または同様に抽象的でオープンエンドな問題に苦戦することです。本当の力は、多くのSLMを連鎖させて複雑な問題を解決し、最後にLLMを審判として使用するか、あるいはLLMを完全に除外することを考えると明らかになります。

私の専門分野であるサイバーセキュリティを例に取りましょう。私たちはフィッシング攻撃を検出するためにウェブページを分類できるソリューションが必要でした。LLMでもそれはかなりうまくできますが、それらを展開し、コストを管理し、精度を確保することは悪夢になるでしょう。代わりに、私たちはSLMに目を向けました。なぜなら、私たちのメモリ、展開、推論の要件がLLMを使用不可能にするからです。そして、それ以来振り返ることはありません。

始め方

多くのSLMがすでに存在します。マイクロソフトのPhiモデルファミリーやModernBERTは素晴らしい例です。これらのモデルは言語タスクにそのまま使用できますが、微調整や最適化を行って、さらに小さな専門家モデルにすることもできます。HuggingFaceのようなマーケットプレイスでモデルを探索し、パラメータサイズのトレードオフに慣れ、早い段階でステークホルダーの同意を得ましょう。

すでにデータを持っているタスクを自動化する場合、あなたは半分の道のりを進んでいます。AmazonのSageMakerや他の数十のプロバイダーが、数分で微調整を開始するのを手助けし、開発と運用のための予算を十分に残すことができます。これらのサービスはそのデータを取り込み、あなたのSLMをトレーニングし、LangChainやOllamaのようなアクセスしやすいフレームワークを使用して、既存のコンピュート(GPUがなくても)に展開できるモデルの重みを提供します。

モデルをトレーニングして展開したら、LLMよりも指数関数的に速くテスト、検証、セキュリティガードレールの強化を行うことができます。エージェント型ワークフローの統合がより速く、運用チームやエンジニアリングチームにとって不透明さが減少し、これは成功に不可欠です。

私たちのサイバーセキュリティのユースケースでは、フィッシング対策SLMは社内でトレーニングされ、すべての顧客のブラウザに展開され、プライバシー、セキュリティ、コスト効率を維持しながら強力な防御を提供しています。顧客全体で毎日数万のウェブページが分類されており、これはLLMだけに頼っていたら不可能な偉業です。

大きく考え、小さく行動する

LLMはスポットライトを浴びるに値します。AIの旅を始めたばかりなら、指先で人間の知識の無限の可能性に魅了されるのは簡単です。しかし、現実が襲ってくると、すぐに勢いを失うでしょう。大きく考え、小さく行動することで、コストのほんの一部で、より速く進むことができます。

選択肢はAIの成熟度の素晴らしい部分であり、万能のアプローチはありません。選択肢の豊富さは圧倒的にもなり得ますが、だからこそ私は小さく始めて、より大きく複雑なソリューションに向けて反復することを強く推奨しています。AIの水域に足を踏み入れることで無駄になるものは何もなく、頭から飛び込んで盲目的に進むよりも良いでしょう。

あなたはどのような問題を解決しようとしているのか、そしてAIがその解決策であるかどうかを極めて正確に知る必要があります。その理解がなければ、モデルのサイズに関係なく失敗するでしょう。しかし、明確な問題、既存の専門知識、限られたリソースがあれば、小規模言語モデルを探索することで、あなたの組織におけるイノベーションの触媒になることができます。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事