IBMリサーチは8月8日、このPowerAIの機能を拡張する分散深層学習(DDL:Distributed Deep Learning)ソフトウェアをリリースした。これは、ディープラーニング分野において、過去数ヶ月間で最もインパクトの大きいニュースだ。
ディープラーニングはこの数年で爆発的に普及し、あらゆる場面で活用されている。一方で、ディープラーニングを活用する上での障害がスケーラビリティの問題だ。
今日のAIサーバの大半はシングルシステムで、多数のサーバによる並列処理はあまり用いられていない。一般的なオープンソースのディープラーニングフレームワークは、サーバの台数を増やすと処理時間が長くなることがボトルネックとなってきた。
この問題を解決するのがDDLだ。IBMの独自のメソッドを用いて開発されたDDLライブラリでは「TensorFlow」や「Caffee」、「Torch」、「Chainer」など主要なオープンソースのAIフレームワークの利用が可能だ。DDLを用いることにより、数百基のGPUを搭載した多数のサーバを使ってスケール化を図ることが可能になり、従来に比べてトレーニング時間が大幅に短縮された。
これまでは、IBMの「ResNet-101」モデルを使って大量のデータセット(「ImageNet-22k」の画像データなど)を学習させる場合、「NVIDIA P100 GPU」搭載のシングルパワーの「Minsky」サーバを用いて、16日間が必要だった。
深層学習の時間を大幅に短縮
IBMはDDLを「ディープラーニングのジェットエンジン」と呼んでいるが、これは実に的確な表現だ。同社は同じトレーニングにDDLを用いたところ、64台のMinskyサーバに搭載された256基のNVIDIA P100 GPUアクセラレータを使い、7時間で完了することができたという。