2026.04.01 15:24

必要なのはメモリだけ──AI RAMpocalypseにどう向き合うか

Thomas Coughlin | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

先週開催された2026年のNvidia Global Technology Conference（GTC）で、ジェンスン・フアンは、同社が20年前に導入したCompute Unified Device Architecture（CUDA）が、グラフィックス処理とAIの発展・成長を推進する「フライホイール」のように機能してきたことを語った。

さらにフアンは、データベースにあるような構造化データをAIで扱うためにcuDFを活用できること、また動画のような非構造化データにcuVSを用いることで、AIの学習と推論に利用できる代表的な構造化データを作成できることを説明した。cuVSでは、インデックスデータの保存とベクター検索の支援のために、デジタルストレージが重要な役割を果たす。

フアンはまた、IBM、Google Cloud、AWS、Microsoft Azure、Oracle、Dellなど、さまざまなオンプレミスおよびクラウドのストレージ企業と協業し、顧客に向けてAIにおける非構造化データの活用を支援していることにも触れた。さらにClaude Codeを背景に、エージェンティックAIにとってトークン生成の重要性についても語った。Claudeのような推論アプリケーションは、AIモデルの学習に投じられてきた莫大な投資を回収するための道筋になるという。

以下の図は、2026年から2027年にかけてのAIデータセンター投資が着実に増加し、2025年から2026年にかけての伸びと同程度になることを示している。資金の60%はクラウドインフラに、40%はオンプレミスのアプリケーション支援に振り向けられる。

現在のNvidia Vera Rubinアーキテクチャは、前世代のH200FP8と比べて1ワットあたりのAIトークン処理性能が50倍となり、その結果、生成トークンあたりのコストは35分の1になった。フアンは、AIの処理能力が10年間で4000万倍に増大したことも指摘した。しかし高速なトークン生成を実現するには、より多くのメモリと、メモリからGPUへのより高性能なデータ移動が必要になる。Vera Rubin NVL72は、75TBの高速メモリと、1.6PB/sのHBM4帯域幅を要する。

チャットボットなどの現在の主要AIアプリケーションは、約1000億パラメータ、8000コンテキストポイント、毎秒100トークンを必要とする。効果的なコーディング支援やディープリサーチといったAIのフロンティア機会では、10兆パラメータ、100万コンテキストポイント、さらに毎秒1500トークンが必要になる可能性がある。トークン生成を15倍高速化し、モデルを100倍大規模化するには、デジタルメモリとストレージの増強に加え、メモリと処理の間の帯域幅をさらに高めることが求められる。

推論が高速化すれば、より速い結果に対するプレミアム課金という新市場も開かれ、より高い利益率の新たな収益機会が生まれる。以下の画像は、スループットと高速応答が推論収益を押し上げる様子を示している。

また、最近リリースされたGroq 3 LPUのような言語処理ユニット（LPU）を追加することで、ユーザーあたり毎秒数千トークンというウルトラ推論が可能になることも示している。Nvidiaは、これにより3000億ドルの収益機会が解き放たれると考えている。なお、Groq 3のメモリ帯域幅は40PB/sである。

AIの学習と推論を支えるためのデジタルメモリおよびストレージへの需要が拡大したことで、高帯域幅メモリ向けDRAMやAIアプリケーションで使われるDDRパッケージ、NANDフラッシュを用いたSSDストレージ、HDDが大幅に不足している。さらには、磁気テープのストレージ容量でさえ出荷が増えているという報告も耳にしている。その結果、これらすべてのストレージおよびメモリ技術の価格が大きく上昇した。

特に高速なメモリとストレージは供給が最も逼迫しており、価格上昇も最も大きい。Gartnerは、2026年のDRAM/SSD合計価格が2025年比で130%上昇すると予測している。利用可能なストレージとメモリの不足により、2026年のPC出荷台数は10%以上減少し、スマートフォン出荷台数は8%以上減少する可能性が高い。ハイパースケールデータセンターおよびエンタープライズ顧客が、AI構築を支えるために長期契約を結ぶことによって生じたメモリとストレージの不足と価格高騰は「RAMpocalypse（RAMの黙示録）」と呼ばれている。

現在の需要ペースが続くと仮定すれば、メモリ企業がメモリチップの生産を増やしているとしても、このメモリとストレージの不足は2027年まで続く可能性が高い。新たなチップ生産能力を立ち上げるには1年以上かかり得るためだ。フアンはまた、2028年をターゲットとする次世代AI能力「Feynman」アーキテクチャについても、以下のとおり簡単に示した。

2時間超に及んだ講演の終盤、エージェンティックコンピューティング向けOpenClawのための同社Nemoclawリファレンスアーキテクチャを発表する直前（エージェントをサービスとして提供するAaaSを可能にするかもしれない）、フアンは宇宙空間のデータセンター用途向けに、以下に示す同社のSpace-1 Vera Rubinモジュールも発表した。

宇宙空間でのデータ処理は、放射線や、対流のない環境での放熱など、データセンター設計に新たな要因を持ち込む。これによりデジタルストレージとメモリにも新たな要件が生じ、MRAMのような耐放射線メモリ技術が有利になる可能性がある。

フアンのGTC基調講演での発表は、AIアプリケーションを支えるためのストレージとメモリの現在の不足が今後も続き得る理由を示している。これは価格を押し上げ、それらを生産する企業の価値を押し上げることになる。

（forbes.com 原文）