2026.03.27 15:30

グーグル「TurboQuant」技術、AIのメモリー消費を6分の1に圧縮──メモリー市場は縮小か拡大か

Thomas Coughlin | Contributor

著者フォロー

記事を保存

Shutterstock.com

グーグルは米国時間2026年3月24日、AIのアテンション計算をエヌビディア製H100 GPU上で最大8倍に高速化しながら、同時にメモリー消費を最大6分の1に削減する圧縮アルゴリズム「TurboQuant」を発表した。精度の劣化はゼロだ。同社はすでにGeminiへの適用を主要ユースケースとして明示しており、単なる研究成果にとどまらない実装レベルの技術として位置づけている。

背景として知っておくべき事実がある。現在、米国ではアマゾンやマイクロソフトといったハイパースケーラーが、DRAM（メモリー）やNANDフラッシュ（SSD）、HDDの生産枠を少なくとも1〜2年分にわたって囲い込んでいる。この影響はデータセンターにとどまらず、PCやスマートフォンの出荷にまで及んでいる。

こうした状況を踏まえ、メモリー・ストレージ業界のアナリスト、トム・コフリンは、TurboQuantがメモリー需要を「減らす」のではなく、逆に「増やす」と論じる。効率化によってAIの導入障壁が下がれば、オンプレミス（自社設備内）でのAI活用が一気に広がる。需要の総量は増大する──というのが筆者の見立てだ。効率改善が消費を増やすという逆説的な論理で、メモリー市場の縮小か拡大かという問いに答えようとした論考である。

「TurboQuant」は、KVメモリーの圧縮とベクトル検索の両方に適用できる圧縮アルゴリズム

Google Research（グーグル・リサーチ）のアミール・ザンディエとヴァハブ・ミロクニが公開したTurboQuantは、ベクトル量子化におけるメモリオーバーヘッドを解消し、LLMのKVキャッシュ圧縮とベクトル検索エンジンの両方に適用できる圧縮アルゴリズムである。記事によれば、TurboQuantはすべてのベンチマークで完全な下流の結果を達成しつつ、キー・バリュー（KV）メモリーサイズを少なくとも6分の1に削減するという。

これにより、AI推論ワークロードにおけるメモリー要件が軽減される可能性がある。たとえば、コンテキスト対応メモリーストレージなどだ。しかし、より少ないメモリーとストレージでAIを実現できるようになれば、そのメモリーとストレージの有用性がさらに高まり、特にオンプレミスでのAIワークフローが増加する可能性が高い。これにより、ローカルAI推論を実装するためのメモリーとストレージの需要が高まる可能性がある。

キー・バリューストアとは、固有のキーの集合としてデータを格納し、そのキーに紐づく値（データ本体）へ高速にアクセスできるようにするデータベースである。キーはデータよりはるかに小さく、迅速に見つけられる。このキーを介することで、紐づく値（データ）への素早いアクセスが実現する。

AIモデルにおけるベクトルは、データの属性を記述する。グラフ上の点のような単純なデータを表すベクトルは小さい一方、高次元ベクトルは、画像の特徴、単語の意味、あるいはデータ集合の特性といった複雑な情報を表す。こうした大きなベクトルは、多用される情報を蓄えておき、データベースを低速に検索する必要なくはるかに速く取り出せるようにするKVキャッシュにおいて、多くのメモリーを必要とする。

次ページ＞ベクトル量子化の追加コストが、本来の圧縮効果を部分的に損なっていた