Michael Wu氏は、NANDコントローラーとNANDストレージソリューションの大手プロバイダーであるPhison Technology Inc.(米国)のゼネラルマネージャー兼社長である。
企業がAIの精度向上について議論する際、より大きなモデル、より多くのGPU、あるいは新しいアルゴリズムに注目が集まりがちだ。しかし多くの場合、精度のギャップはモデル自体よりも、モデルに供給し更新するデータパスに起因している。冗長なトークン、適切に整理されていないファインチューニングデータ、過敏なノードなどが、出力を支配的なパターンに偏らせ、安定性と信頼性を低下させる可能性がある。
この問題を解決するための、あまり明白ではないが非常に実用的な場所がストレージ層だ。適切なアーキテクチャを備えることで、ストレージスタックはトレーニングとファインチューニングに積極的に参加し、モデルがより効率的かつ正確に学習するのを助けることができる。
精度が低下する原因
大規模言語モデル(LLM)のトレーニングとファインチューニングは、一度の端から端までの処理では完了しない。PyTorchやTensorFlowなどのフレームワークは、モデルの膨大なパラメータセットをスライス(またはシャード)に分割し、利用可能なGPU全体に分散させる。各スライスは同じシーケンスを経る:
• 順伝播:トークンを供給しモデルを更新する
• 逆伝播:各ノードがどれだけ変化したかを計算する
• エラー削減:過剰反応するノードを抑制し、過敏性を防ぐ
標準的なフローでは、システムが次のスライスに移る前に、スライスはこれら3つのステップをすべて完了する必要がある。つまりGPUは、行列乗算(ステップ1と2)という重い処理だけでなく、実際にはGPUクラスの計算能力を必要としない軽量なエラー削減ステップにも拘束されることになる。AIの精度を評価する際、これは過剰な重み付けパターン(アルゴリズムが特定の特徴、値、またはデータグループに必要以上に、あるいは不適切に注目すること)、更新の不完全さ、そして分断されたデプロイメントフローにつながる可能性がある。
エラー削減をデータの近くに移動する
GPUが各スライスの処理を完了している間、SSDは次のデータリクエストを待って待機状態になっている。ここでストレージの革新が登場する。
エラー削減ステップを、デジタルシグナルプロセッサ(DSP)などの追加処理要素を備えたSSDにオフロードすることで、軽量だが重要なタスクを処理し、トレーニングプロセスを本質的に高速化し、より効率的にすることができる。
GPUがエラー抑制を実行している間、拘束するのではなく、逆伝播が完了するとすぐにデータのスライスをアクセラレータから移動できる。SSDは並行してエラー削減を処理し、その間GPUはすでに次のスライスに移行している。
システムの観点から見ると、これによりフローは順次処理から重複処理に変わる。GPUは行列乗算という得意分野に集中し、SSDはバックグラウンドで静かにクリーンアップを行う。
SSDをアイドル状態のままにせず活用することで、GPUのボトルネックを解消するだけでなく、新しいハードウェアを追加したりトレーニングパイプラインを書き直したりすることなく、全体的なスループットと精度を向上させることができる。
スループット、電力、効率性の向上
エラー削減をSSDにオフロードすることで、これまでの無駄な時間を生産的な時間に変えることができる。GPUが軽量なタスクを処理するために一時停止する代わりに、実際に膨大な計算能力を必要とする順伝播と逆伝播に完全に集中できる。
実際には、このシフトによりオフロードシナリオで20%から40%のスループット向上が見られた。SSDが並行してエラー削減を処理するため、GPUパイプラインは飽和状態を維持し、無駄なサイクルを回避できる。
さらに効率性の層もある。CPUをループから外すこと—GPUからCPUを経由してSSDに戻るデータの余分なホップがない—で、追加のパフォーマンス向上を実現できる。CPUをスキップすることで電力を節約するだけでなく、エラー削減の任務でアイドル状態になる代わりに、他のタスクを処理するためにCPUを解放することもできる。
その結果、単にトレーニングが速くなるだけでなく、システム全体でワークロードのバランスが取れる。GPUは行列乗算に集中し、CPUは不要な迂回を避け、SSDは対象を絞った軽量な計算を処理する。このバランスは、電力消費の削減、アクセラレータのROI向上、そしてよりスムーズで予測可能なトレーニングパイプラインにつながる。
精度も向上する。エラー削減をより一貫して効率的に処理することで、ファインチューニングされたモデルにおける過剰な重み付けパターンや過敏反応を回避できる。これはより洗練された更新、よりバランスの取れたパラメータ、そして最終的にはより信頼性の高い回答を意味する。
混乱なくデプロイする
企業にとっての朗報は、これには全面的な再設計が必要ないということだ。PyTorchやTensorFlowなどの現在のフレームワークは、確立されたワークフローを壊すことなくオフロード技術を組み込むことができる。そしてSSDメーカーはすでに、計算ストレージ、GPUからSSDへの直接転送、DSP対応オフロードをサポートするために必要なコンポーネントを備えたドライブを設計している。
ベンダーロックインを警戒する組織にとっても、このアプローチはアーキテクチャに依存しない。軽量な計算が可能なSSDを備えたシステムであれば、どのようなシステムでもこの利点を活用できる。
より大きな展望
AIの精度の課題は消えることはない。モデルはますます大きくなり、トレーニングとファインチューニングのコストもそれに伴って増加している。より大きなクラスターとより多くのGPUで精度を追求することは、ほとんどの企業が勝てない軍拡競争だ。
より賢明な道は、冗長なトレーニング入力を減らし、軽量だが不可欠な作業をデータが存在する場所の近くに移動することで、データパイプライン自体を修正することだ。ストレージ層を積極的な参加者として活用することで、精度のギャップを埋め、電力消費を削減し、インフラの寿命を延ばすことができる。
AIにおける次の飛躍は、最も見落とされがちなストレージスタックを含め、システムのあらゆる層がどのように貢献できるかを再考することから生まれるだろう。



