テクノロジー

2025.12.19 10:59

データセンターの変革:AIチップ冷却と電力システムの新時代

stock.adobe.com

stock.adobe.com

nVentのエグゼクティブVP兼CTOであるアラヴィンド・パドマナバン氏。

advertisement

AIインフラの導入競争は、現在の技術的課題を象徴するものだ。データセンターの設計者や運営者は、常に変化するITやチップ技術をサポートできるよう装備された長期的なデータセンター建設プロジェクトを管理しながら、相反する優先事項のバランスを取っている。CTOや技術リーダーとして、データセンター業界のシフトに伴う課題と影響を理解することが重要だ。AIインフラを支えるハードウェアは、大規模言語モデル(LLM)そのものと同様に、AI革命にとって不可欠なものである。

巨大なハイパースケールプロジェクトからエッジインストールまで、さまざまな種類のデータセンターがあるが、すべてのデータセンター運営者は同じことに注力している:AIの迅速な導入、効率的な電力供給と使用、そしてAIチップ(GPU:画像処理装置やTPU:テンソル処理装置)のニーズをサポートする準備ができたIT基盤の将来性確保だ。マイクロソフトのCEOであるサティア・ナデラ氏は次のように述べている:「現在直面している最大の問題は、計算能力の過剰ではなく、電力だ...実際には、接続できない多くのチップが在庫として眠っている可能性がある」

データセンターで起きている技術変化の規模は膨大だ。参考として、AI以前の非高性能コンピューティング(HPC)データセンターラックの平均電力はラック当たり約8kWと推定されている。今日、業界は1〜3メガワットのラックに向かって進んでおり、これは100倍以上の電力量だ。業界をリードするCDU(冷却液分配ユニット)リファレンス設計であるGoogleのProject Deschutes CDUリファレンスアーキテクチャは、ラック当たり1メガワットの冷却能力を提供するよう設計されている

advertisement

AIはこれらの驚異的な需要を牽引する最も破壊的なワークロードだ。AIアプリケーションはさまざまな業界で展開されており、従来はこの種のコンピューティングは企業アプリケーションにのみ使用されていたかもしれない。AIテクノロジーのサポートは段階的な変化ではなく、完全なパラダイムシフトだ。技術リーダーとして、AIコンピューティングを提供するハードウェアがAI LLMと同じくらいの変革を遂げていることを忘れてはならない。インフラのシフトとLLMの発展は相互依存している。統合された冷却と電力ソリューションは、この変革を管理する鍵となる。

冷却リファレンスアーキテクチャ

液体冷却はAIデータセンターにとって不可欠だ。GPUは空気だけでは冷却できない。今年10月初めのOpen Compute Projectサミットに先立ち、Meta、Microsoft、Google、そして私の会社であるnVentを含むいくつかの企業が、AIデータセンターインフラ標準を開発するための柔軟で協調的なフレームワークを求める公開書簡を発表した。データセンター業界内で共通のインフラ標準と相互運用可能なモデルに向かって進むことで、企業は開発を加速し、独自のイノベーションを継続的に開発することができるだろう。

モジュール性と標準インターフェースにより、データセンターはより迅速に技術を導入でき、インフラプロバイダーが効率性とパフォーマンスのためのイノベーションを行うための基盤を提供する。リファレンスアーキテクチャは、CDU、リアドアクーラー、熱排出ユニット、マニホールド、技術冷却システムなどの製品において、互換性とインターフェースの標準化を提供しながら、独自の差別化された設計を可能にし、複数のサプライヤーからの製品の組み合わせを可能にする。

リファレンスアーキテクチャはまた、「ウォール・オブ・クール」タイプのITインストールなど、ITの前に冷却インフラが設置され、より迅速な「ラック・アンド・ロール」展開を可能にする製品のフレームワークも提供できる。

高電圧DC電力

メガワット規模のラック電力供給のために、業界は800ボルト直流(VDC)電力分配、そして長期的には1500VDCに移行している。多くのデータセンターはすでに電源から直接ラックにDC電力を供給することを検討している。NVIDIAは、業界をこの800-VDC電力アーキテクチャに移行させるために20社以上のパートナーと協力していると発表した

この電力供給アーキテクチャのシフトは、銅の使用量削減や抵抗損失の最小化など、多くの利点をもたらす可能性がある。DC電力をラックまで直接供給することで、データセンター内のAC/DC変換の回数も減少する。これにより、データセンター運営者にとってインストールが容易になり、コストを削減できるだけでなく、電力が一つの形態から別の形態に変換される際に固有の電力損失を最小限に抑えることができる。

DC電力への移行は、電気がITラックに至るまでに何度も変換・再変換する必要がないため、複雑なデータセンター建設プロジェクトにシンプルさをもたらすこともできる。このシフトにより、ITインフラが追加された際に電力分配インフラを再設計する必要がなく、単にラックに拡張するだけでよいため、データセンターのスケーラビリティも向上する。

しかし、データセンター運営者は、AC-DC変換器、バスバーやバスウェイ、ラック電力供給、保護・監視ソリューションなどの電力製品が、DC電力アーキテクチャに適合するよう、現在の形から再設計される必要があることを理解する必要がある。

電力と冷却の収束

データセンターにおける冷却インフラと電力インフラは連携して機能する必要がある。最大限の効果を得るためには、GPUに適切な量の電力を供給し、その電力が冷却インフラによって適切に放熱され、これらのチップを熱的動作パラメータ内に保つ必要がある。

冷却と電力を知的に最適化することが、データセンター運営者が効率性とパフォーマンスで実際の成果を上げられる領域だ。ラック電力の大幅な増加と、それに伴う過渡現象を考えると、接続フレームワーク、高度な制御アルゴリズム、そしてIT機器と電力・冷却インフラの間のソフトウェア管理層が、インフラを効率的かつ安全に管理するために不可欠になると私は考えている。

AI革命をサポートする立場にある方々にとって、これは私たち全員にとってエキサイティングな時代だ。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事