トークンコストの低下と需要拡大で、ハイパースケーラーがスプレッドを広げる
AIモデルを動かすコストは、推論フェーズを投資家にとってさらに魅力的なものにする可能性がある。トークンとは、AIモデルが応答を生成するために使用するテキストやデータの小さな単位だ。ハードウェアが改善されるにつれ、企業は各トークンをより低コストで生成できるようになり、高価なチップでより多くの処理が可能になっているようだ。
同時に、AIエージェントが一般化するにつれて、トークン需要は増加する可能性が高い。エージェントは単一の質問に答えて止まるのではなく、タスクを完了するまでに複数のステップを進められる。これがAIシステム全体の利用を大幅に押し上げ、横断的に広がる可能性がある。
この組み合わせは、ハイパースケーラーにとって重要だ。トークンコストが低下する一方で利用が増え、価格が維持されるなら、AIインフラを構築する企業は、より大きなスプレッドを得られるかもしれない。その場合、チップ、データセンター、電力への支出は投機的な賭けというより、より大きな実業の基盤に見え始める。
推論需要の拡大でAIサーバー構成がシフト、CPU 1基にGPU 4基へ
こうした広範な需要は、推論市場についてチップ企業が語る内容にもすでに表れている。インテルとArmはいずれも、推論が増えるにつれてCPUの役割が拡大していることを強調してきた。例えばインテルは、推論需要が拡大するにつれ、AIサーバーの構成が「CPU1基あたりGPU約8基」から「CPU1基あたりGPU約4基」へとシフトし得ると述べている。この予測が正しければ、より大きな論点を裏付けることになる。すなわち推論は、AI関連支出をGPUの先へ押し広げ、CPU、サーバー、そしてモデルを大規模に稼働させるために必要なシステムへと、より深く向かわせる可能性がある。
サーバーもまた、重要性を増すかもしれない。最大手のハイパースケーラーはカスタムシステムを設計し、世界的なサプライヤーと直接取引できる。一方、小規模なクラウド事業者や、推論向けに構築されたネオクラウド(neo-cloud)は、迅速に導入でき、容易にサポートできる機器を必要とすることが多い。これは、AIワークロードを担うサーバーを販売するDellやHPEといった企業に追い風となり得る。
準備から実利用へ企業が移るなか、AI投資はGPU主導の先の企業群へ広がる
注目すべきは、多くの企業が依然として、より広範なAI活用に向けた準備段階にある点だ。企業が事業全体にエージェントを展開する前に、データを整備し、システムを接続する必要がある。この作業には時間がかかるが、同時に、より多くの企業が準備から実利用へ移行するにつれて、推論需要が積み上がり続ける可能性も示唆している。
結局のところ、これはGPU主導の投資テーマに反対する議論ではない。推論が、次のAI支出フェーズをより広い企業群へ広げ得るという主張である。モデルが実際のワークフローの中で常時稼働するようになるなら、投資家は、それらを学習させた企業だけでなく、それらを稼働させ続ける企業へも目を向ける必要がある。


