ディープラーニングにおいては「推論」と「トレーニング」という2つの処理が実行される。第1世代TPUでは「推論」の処理だけが可能だったが、第2世代ではより複雑な計算が必要なニューラルネットワークのトレーニングが可能になった。
ディープラーニングは、数年前から画像認識や音声認識などの分野で盛んに取り入れられるようになった。この分野で先行したのが、エヌビディア(NVIDIA)が製造するGPU(グラフィックス・プロセッシング・ユニット)だ。GPUは、もともとゲームのグラフィック化に使われてきたが、ディープニューラルネットワークのトレーニングに用いることで、トレーニング期間が従来の数週間から数日に短縮化された。
グーグルは、TPUを用いることでGPUよりもさらに高速化を図ることが可能だと考えている。Cloud TPUには4個のチップが搭載されており、1秒間の演算回数は180テラフロップス(180兆回)になる。これに対し、エヌビディアが発表した最新のデータセンターGPU「Tesla V100」の演算性能は、最大120テラフロップスとなっている。
グーグルによると、複数のTPUを接続して「TPU Pod」という一つのシステムを構成することで、演算回数は最大11.5ペタフロップスに達するという。エヌビディアの「NVLink」も、複数のGPUを相互接続することができる。
グーグルによると、ディープラーニングを用いた翻訳アプリケーションのトレーニングには、32個の最新GPUを使っても丸一日を要するが、1つのTPU Podを使えば6時間で完了するという。
「計算能力が上がれば、より規模が大きく精度の高いモデルを構築できる。だからこそ、我々は機械学習モデルを実行し、トレーニングもできる第2世代TPUを開発したのだ」とグーグルのシニアフェロー、ジェフ・ディーンは話す。
グーグルは現在、グーグルクラウドでGPUを提供しているが、Cloud TPUについても外部に開放し、価格もGPUと同程度に設定する予定だ。同社はまた、外部のAI研究者に対して1000個のCloud TPUを無料で提供するプログラム「TensorFlow Research Cloud」を発表した。
アマゾンやマイクロソフトも大きくリード
今後、グーグルはエヌビディアに真っ向から勝負を挑むことになる。また、クラウドサービスの競争においても、GPUに加えてTPUを外部に提供することで、先行するアマゾンやマイクロソフトと大きな差別化を図ることができる。
しかし、一部の専門家は、グーグルの戦略に対して懐疑的だ。「機械学習のフレームワークや洗練度、深度は急激に変化しており、グーグルはTPUよりも柔軟性に優れたGPUを多用することになるだろう」とテクノロジーアナリストのPatrick Moorheadは話す。
また、TPUはグーグルが提供するオープンソースのAIフレームワーク「TensorFlow」向けに最適化されているため、外部の開発者にとっては、一度AIアプリケーションを構築すると、他のクラウドサービスへの移行が困難になるリスクが指摘されている。