筆者は創業以来グーグルを追ってきたが、同社は常に研究の限界を押し広げてきた。最新の人工知能(AI)インフラと研究の取り組みも、その流れを継いでいる。先週、同社は開発中の新たな圧縮アルゴリズム「TurboQuant」を発表した。この技術は、大規模言語モデル(LLM)を動かすために必要なメモリを最大6分の1まで減らし得る。キーバリューキャッシュを最適化し、モデルが再計算するのではなく過去の結果を呼び出せるようにする。これによりプロセスが合理化される。
表面上、この動きは半導体業界に影響を及ぼし得るほどの破壊力を備えているように見える。昨年、中国のDeepSeekの圧縮アルゴリズムがAI関連株の下落を招いたのと同じだ。TurboQuantとDeepSeekのアルゴリズムはいずれも効率改善を狙っている。DeepSeekはコストとモデル性能に顕著な影響を与え、TurboQuantは大幅なメモリ削減を約束する。どちらのケースでも、効率が高まれば高価な半導体チップをこれまでほど大量に必要としなくなる可能性がある。
テクノロジーについて40年以上書いてきた技術アナリストとして、筆者には一定のパターンが見えている。エンジニアが問題を解決しても、市場がただ黙って「よくやった」と言うだけで終わることはない。ゴールポストが動くのである。
比較として、ハードディスクドライブからソリッドステートドライブへの移行を考えてみよう。データアクセスが高速になっても、データ保存の必要性が減ったわけではない。むしろ、はるかに多くのデータを求めるアプリケーションが増えることを可能にした。今も同じことが起きている。より効率的なモデルは、必ずしもよりコンパクトなモデルを意味しない。代わりに、開発者と企業がより複雑なモデルを構築し、推論ベースのアプリケーションをより多く動かせるようにする。これはビジネスにとって重要である。
TurboQuantは、さりげないが重要な点を浮き彫りにする。グーグルはAI導入の経済性を真正面から捉えているということだ。大規模言語モデルの学習は常に高コストだったが、運用もまた、ますます費用がかかることが明らかになりつつある。そこでTurboQuantのメモリ要件を6分の1にする効果が際立つ。これは単なるコスト削減ではなく、これまで手が届かなかった新たなアプリケーションを可能にする。とりわけ、メモリ制約が現実的な制限となるオンデバイスAI関連アプリケーションで、その意味は大きい。
グーグルには、AIインフラをより効率的にする強いインセンティブがある。これはグーグルにとっての単なるコスト削減にとどまらない。同社のクラウドインフラをより競争力のあるものにし得るコスト削減でもある。チップ株への影響がどうであれ、グーグルにとって大きな進展である。
もっとも、この比較は納得感がある一方で、完全ではない。まず、DeepSeekによる効率向上は、学習コストを下げたという正当な主張と結び付いていた。そうしたコスト削減は、最先端AIに必要な設備投資額をめぐる従来の通念に疑問を突き付けた。一方TurboQuantで起きているのは、推論側における、より限定的な最適化である。それは大きな意味を持つのか。もちろんだ。
明らかなのは、AIを力任せにスケールさせる時代、つまりあらゆる問題に対してチップを追加投入する時代が、より洗練されたものへと移行しつつあることだ。トップラボはいま、モデルの規模や能力だけでなく、効率とコストでも競い合っている。グーグルの発表は、最適化が「ついで」ではなく、第一級の課題になったことを示すシグナルである。
業界全体にとっては勝利だ。効率の向上はAIの利用可能性を高め、より強固なビジネスモデルを支え、持続可能な成長を促す。チップ需要に固執する投資家は、本当のストーリーを見落としているのかもしれない。効率的でアクセスしやすいAIは、単なる上振れ要因ではない。前進の道筋そのものなのである。
開示:グーグルは、筆者が創業したCreative Strategiesのリサーチレポートを、世界中の多くのハイテク企業と同様に購読している。



