リラン・ズビベル、WEKA共同創業者兼CEO。
NVIDIAのジェンセン・フアンCEOは最近、人工知能(AI)が第三の波に入り、知覚と生成から推論へと移行していると宣言した。知的で推論能力を持つモデルによって駆動されるエージェント型AIの台頭により、AI業界は推論によって牽引される重要な新たな転換点に達している。
AIは、ChatGPTに詩を書かせるような単純な一回限りのタスクから、複雑な複数ステップのタスクを長期間にわたって協働する高度なAIエージェントの群れを動かすものへと変化している。そしてもちろん、ソフトウェアエンジニアリングに対する考え方を変えつつあるコーディングエージェントも登場している。
しかし、問題がある。AIを動かすGPUに十分なメモリーを搭載することが不可能なのだ。より大きくなるモデルと爆発的に増大する推論コンテキストの間で必要とされる膨大なデータ量が、現在のメモリー容量を圧迫している。モデルとユーザーセッションを保持するための十分なメモリーがなければ、AIファクトリーはワーキングメモリー(アテンションコンテキスト)を繰り返し再計算しなければならず、その結果、ユーザー体験の低下とGPUインフラストラクチャーおよびそれを動かす電力コストの大幅な増加を招いている。
これがAIメモリーウォールだ:AIイノベーションの速度に対する存在的脅威である。
永続的コンテキストのパラドックス
AIエージェントの力は、コンテキストの維持にある:長期的な目標に向かって取り組む中で、過去の会話、決定、結果を記憶することだ。AIチームが数週間にわたってソフトウェアを開発し、すべての設計決定、コード変更、バグ修正を完璧に記憶している様子を想像してみてほしい。この永続的なコンテキストにより、エージェントは高度なチャットボットから真に知的な協力者へと進化する。
しかし、永続的コンテキストは今日のGPUベースのインフラストラクチャーと衝突している。
その原因はキーバリュー(KV)キャッシュ、つまりAIのワーキングメモリーにある。これは会話の長さに比例して増大し、データがGPUの貴重なメモリー内に収まることを困難にしている。
この数学は容赦ない。単一ユーザーの場合、MetaのLlama 3 70Bを使用した128,000トークンの会話(大企業の10-K報告書1つ分より少ない)には40GBのGPUメモリーが必要だ。しかし、最も高度なGPUでさえ、現在1ユニットあたり288GBしか提供していない。複数の同時ユーザーでAIモデルを実行すると、システムは破綻する。MetaのLlama 4 Maverick AIモデルは、コンテキストを考慮する前に422GBを必要とする可能性がある。
主要なAIエージェント研究者たちは、KVキャッシュヒット率—AIシステムが以前に処理した会話コンテキストを再利用する頻度—が最適化されたシステムでも71%と低いと報告しており、実際の顧客では50%という例も見てきた。つまり、AIデータ処理の最大半分が、最近破棄されたコンテキストの再計算に費やされているのだ。
要約すると:KVメモリーは希少なリソースだ。モデルは常に新しいリクエストを優先するために以前のコンテキストを「忘れ」、高価で遅い再計算を強いられ、ユーザーを本来対応可能な数のほんの一部に大幅に制限している。
人工知能の新たな経済学
メモリーウォールの経済的影響は驚異的だ。上記の例でKVキャッシュヒット率がより控えめな71%に低下した場合、組織は推論予算の29%をキャッシュミスによる冗長な処理に費やしていることになる。これを企業全体の導入規模で考えると、何億ドルもの無駄遣いになる。さらに、GPU生産能力は十分ではないため、電力とお金を無駄にしているだけでなく、AIイノベーションを制限していることになる。
これはGPU処理の問題ではない。メモリーのボトルネックはAIバリューチェーン全体に波及する:GPUクラウドプロバイダーは運用効率に苦しみ、モデルプロバイダーは持続不可能な長期コンテキストのコスト超過に直面し、AI開発者は革新的だが経済的に実行不可能なアプリケーションを構築している。
トークンウェアハウス:AIインフラストラクチャー革命の設計
解決策はGPUメモリーを追加することではない。私たちはすでにその技術の限界に達している。数年後を想像すると、エージェントアプリケーションの急増する需要を満たすために必要な設備投資は持続不可能になる。KVキャッシュがGPUメモリー内にのみ存在する必要がないことを認識した、新しいインフラストラクチャー設計アプローチが必要だ。
組織は、過去のセッションで獲得した知識と推論にますます依存するLLMの増大するサイズと複雑さに対応するデータアーキテクチャーを活用できる。「トークンウェアハウス」は永続的なペタバイト規模のメモリー階層を作成し、AI推論が繁栄できるようにする。
Amazonは実際の倉庫を使って幅広い製品を保管し、かつてないほど迅速に注文を処理することで、eコマース流通に革命をもたらした。
トークンウェアハウスも同様だ。これらは高性能ストレージに依存し、GPUに直接接続してバックエンドファブリックの速度で、はるかに大きなメモリープールにアクセスし、AIシステムのメモリー容量を拡張して、GPUが最も重要なこと—推論—に集中できるようにする。
トークンウェアハウスには変革的な結果をもたらす可能性がある。エージェントにほぼ完璧なワーキングメモリーを提供する非常に高いKVキャッシュヒット率を実現し、GPU当たり指数関数的に多くのトークンとユーザーの要求を満たし、AIの経済性を根本的に変える可能性がある:
• モデルプロバイダーはキャッシュ価格設定を通じてコスト削減を実現し、永続的な会話に基づくプレミアム機能によって収益性を高めることができる。
• AI開発者はより良いアプリをより速く提供するための大規模な処理能力を獲得できる。
• GPUクラウドサービスは、高価なプリフィル/アテンション計算から収益を生み出す推論へとハードウェアの大部分をシフトできる。
• モデルプロバイダーと推論サービスは、経済性を向上させながらトークンレート制限を撤廃できる。
これらをすべて規模で組み合わせると、収益の可能性は驚異的だ。
真の革命は、これが可能にするものだ:数日または数週間にわたって真に持続し、複雑なプロジェクトの記憶を維持して、高度なツールというよりも信頼できるチームメンバーのように機能するAIエージェント。
今こそ行動の時:3つの重要なアクション
エージェント型AIの革命—あるいは推論の時代—は、永続的でコンテキストを維持した協働に対応するメモリーアーキテクチャを必要としている。
経営幹部は3つの分野で緊急に行動しなければならない:
• AIメモリー効率を監査する。 AI導入全体でのKVキャッシュヒット率を評価する。90%未満の率が見られる場合、冗長な再計算に計算ドルを大量に失っている。
• クラウドプロバイダーにメモリー永続性階層を要求する。 ベンダーにキャッシュ効率に報いる差別化された価格設定を提供するよう促す。ここでの早期採用者は大幅なコスト優位性を獲得するだろう。
• 永続的インテリジェンスのためのアーキテクチャを設計する。 エージェントが数日または数週間にわたってコンテキストを維持することを前提としたAIシステムを設計する。一時的な対話に基づいてアプリケーションを構築すると、永続的エージェントが競争の基準となったとき、プラットフォーム全体を莫大なコストと遅延を伴って再構築する必要が生じる。
今すぐAIメモリー危機を解決するか、さもなければ競合他社が決して忘れず、リソースを無駄にせず、会話の再開を強制しないエージェントで先を行くのを見守ることになる。メモリーはもはや単なる技術仕様ではなく、収益性のある実行可能なAIへの道を切り開くビジネス上の必須条件だ。



