2026.05.24 10:09

AI競争の主戦場が「モデル開発」から「推論コスト」へシフト

Ron Schmelzer | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Adobe Stock

過去3年間、AI業界はモデル構築とトレーニング競争に明け暮れてきた。これは、より大規模なモデル、より大規模なクラスター、より多くの計算能力を意味し、膨大なデータ、計算能力、予算を必要とした。この競争は主に、過去数十年で最大のIT変革における地位を確保することに焦点を当てた、新たなゴールドラッシュだった。

しかし、モデルの性能が収束し始め、AIプラットフォームベンダーが最も強力で高価なモデルへのアクセスを制限または管理しようとする中、これらの企業は市場の権利主張から、より事業志向の、モデルへのアクセスに対する課金と計測という現実的なニーズへとシフトしている。AI企業は、最先端のAI研究所というよりも、従来型のクラウドコンピューティング企業のような様相を呈し始めている。

次のAI戦場は推論、つまり実際の製品で実際のユーザーのために、1日に数百万回または数十億回、トレーニング済みモデルを実行する行為である。AI競争は、性能と能力の向上から、手頃な価格、プライバシー、エネルギー使用量へとシフトしている。最近の市場報告によると、投資家はトレーニング中心の需要から推論への移行を追跡しており、自律エージェント、エンタープライズコパイロット、常時稼働のAIサービスが継続的なAI消費を生み出している。

推論こそが長期的なゲームである

大規模で高性能なフロンティアモデルのトレーニングには数カ月を要し、ハードウェア、電力、ネットワーク、人材に数十億ドルがかかる。しかし、そのモデルが出荷されると、焦点はそのモデルを運用して収益を生み出すこと、つまり推論として知られるものへと移る。すべてのプロンプト、クエリ、コード補完、画像編集、カスタマーサービスの回答、エージェント型ワークフローには推論コストがかかる。

AI業界のモデル開発と運用化への2段階アプローチは、クラウドコンピューティング企業のアプローチと非常に似ている。これらの企業は、非常に類似したデータセンターを持ち、大規模で変動する負荷を処理できるデータセンター開発に多額の投資を行った。大規模な設備投資が行われると、消費ベースの価格設定を通じて収益を生み出すことへとシフトする。この点で、AIは何も新しいものではない。

トレーニングは高強度の資本プロジェクトに似ている。推論は公共料金メーターに似ている。前者は集中的な研究開発に報い、後者は流通、稼働時間、レイテンシ、調達規律、そして徹底的に設計されたトークンあたりのコストに報いる。AIが人々が一日中使用するサービスになると、彼らは単にモデルの品質で競争しているのではない。推論がどこで行われるか、どれだけコストがかかるか、誰がそれを管理するか、どれだけ速く応答するか、そして企業がすでに使用しているシステムに適合するかどうかで競争している。

これが市場の重心が移動している理由である。マッキンゼーは、推論が2030年までにモデルトレーニングを上回り、支配的なAIデータセンターワークロードになると推定しており、AIコンピューティングの半分以上、世界のデータセンター需要全体の約30%から40%を占めるとしている。モデル開発からモデル推論へのシフトを認識し、エヌビディアは現在、推論の総所有コスト（TCO）を中心にBlackwell GPUを販売しており、フルスタック最適化により推論TCOを最大35倍削減できると主張している。

新たな競争優位性は回答あたりのコストである

AIモデルの課題は、多くのモデルが互いに直接交換可能で、同様の結果を得られることである。モデルは、チャットまたはAPIベースのインターフェースを通じてプロンプト入力を受け入れ、幅広いアプリケーションで使用できる一般的な出力を提供する。これにより、AIモデルははるかに粘着性が低く、競争上の堀が浅くなる。これは、データストレージ、処理、機能性とのベンダー固有の統合により、切り替えをはるかに困難にしてきたクラウドコンピューティング企業とは異なる。

この現実は、異なるクラウドとローカルモデル間でAI作業をルーティングできる顧客に有利である。単純なタスクには最も高価なモデルは必要ない。機密性の高いリクエストにはローカル処理が必要な場合がある。高価値のエンタープライズワークフローはより大きなモデルを正当化するかもしれないが、出力が測定可能な節約または収益をもたらす場合に限られる。AIモデルの推論がより高価になるにつれて、組織はジョブを適切に完了できる最も安価なシステムに一致させる動機を持つようになる。

AI企業は、モデルの能力だけでなく、より大きなエコシステムにもっと注意を払う必要がある。これは、初期参入者が単に生のストレージとコンピューティング能力に焦点を当てていたクラウドコンピューティング分野で起こったことを反映している。時間の経過とともに、これらのプラットフォームは成熟し、単純なインフラストラクチャ・アズ・ア・サービス機能を超えて、信頼性、開発者ツール、セキュリティ、データサービス、課金システム、エンタープライズ契約を販売するようになった。AI推論はそのルートをたどっている。モデルは1つの層である。モデルを取り巻くオペレーティングシステムが価値の多くを獲得する可能性がある。

エヌビディアはこれを理解しているようだ。2026年3月のGTCメッセージングは、推論を主要な収益機会として強調し、ロイターは、ジェンスン・フアン氏が2027年までにBlackwellとRubin AIチップで1兆ドルの機会の可能性を指摘したと報じている。同社の「AIファクトリー」へのより広範な推進は、そのインフラストラクチャをトレーニングエンジンとしてだけでなく、トークン、エージェント、アプリケーションの生産システムとして位置付けている。ファクトリーは、単一の精巧な製品ではなく、低欠陥、高スループット、管理された投入コストで大規模に生産することで勝利する。

戦略としてのエッジとローカルAI

推論シフトは、ローカルおよびオンデバイスAIへの関心の急増も説明している。すべてのリクエストをクラウドベースのデータセンター経由で実行することは高価である。レイテンシを追加し、プライバシーの懸念を生み出す可能性がある。ネットワークとデータセンターの電力供給に負担をかける可能性がある。多くのタスクでは、より安価な答えはモデルをユーザーに近づけることである。

アップルはこのロジックをApple Intelligenceの中心に据えている。同社によると、そのシステムはオンデバイス処理を通じてiPhone、iPad、Macに統合されており、より複雑なリクエストはAppleシリコン上で実行されるPrivate Cloud Computeにルーティングされる。アップルのiPhoneプライバシーガイドによると、リクエストはデバイス上で処理できるかどうかを判断するために分析され、Private Cloud Computeに送信されたデータは保存されず、アップルがアクセスすることもできないという。

プライバシーを超えて、ローカルモデルはローカル推論の経済性に焦点を当てている。日常的な推論をローカルで処理できるデバイスは、クラウド需要を削減する。プラットフォーム所有者は、どのワークロードが高価なサーバー側モデルに値するかを決定できる。数十億のAIインタラクションの世界では、これらのルーティング決定は財務上の決定である。そして、コーディング、会話、エージェント型タスクを超えて、ローカルモデルは、すべてのタスクで巨大なリモートモデルに依存できない電話、PC、自動車、カメラ、ロボット、産業機械への実装にますます必要になっている。

公共インフラ戦争が始まる

AIの第1段階はモデルの能力に焦点を当てていた。次の段階は単位経済性に焦点を当てる。誰が有用な結果あたりの最低コストを持っているか？誰がより低いメモリとGPU要件でより多くのリクエストを処理できるか？誰がユーザーに気にさせることなく、エッジで小規模モデル、クラウドで大規模モデル、ワークフローで特殊モデルを実行できるか？誰がライバルよりも推論を圧縮、キャッシュ、バッチ、ルーティング、管理できるか？

AIゴールドラッシュは、資本が流れ続けるという意味では終わっていない。掘って簡単な金を見つけるための急ぎが終わりつつあるという意味で終わっている。高性能で目を見張るようなモデルを構築するだけではもはや十分ではない。そこにあるほとんどのモデルは、私たちが使用しているほとんどのタスクにすでに十分であり、段階的な改善が指数関数的なブレークスルーよりも多くの利益をもたらすと主張することもできる。より大きな賞は現在、インテリジェンスが電力、帯域幅、クラウドストレージのように提供される公共インフラ層にある。これは、AI企業が現在、計測され、最適化され、組み込まれ、継続的に消費されるモデルの提供に焦点を当てている場所である。

（forbes.com 原文）