具体的には、DeepSeekはわずか560万ドル(約8億6000万円)程度の開発費でモデルを完成させ、短期間で市場投入にまでこぎ着けたと主張している。通常、ChatGPTやGPT-4クラスのモデルを開発するには、数千億円規模の予算と数万台クラスの高性能GPUを長期間稼働させる必要があるため、DeepSeekの主張が本当ならAI業界の常識を覆す大きな成果だ。
当初の情報では、「H800」と呼ばれる世代が古いGPUを2048個使っただけで実現とされていたが、AI企業Scale AIの創設者兼CEO、アレクサンダー・ワン氏はCNBCのインタビューで「DeepSeekはより高性能なH100を5万個保有している」としている。
560万ドルという開発コストは学習コストであり、AIモデルの開発、全体にかかった個数ではないとの指摘もある。
しかし、優れているという指摘は多く、決してブラフというわけではない。
低コスト実現のカギ、蒸留(ディスティレーション)とは?
DeepSeekのコスト低減における主役は「蒸留(ディスティレーション)」を積極的に取り入れたとされる。これは、先行する大規模AIモデル(教師モデル)が持つ知見や推論パターンを、より小型で効率的なモデル(生徒モデル)へと移し替える技術だ。すでに成熟したAIは、誤りに対して十分に追加の学習や調整が行われている。「先輩のAIが長い時間をかけて習得した知識や回答の『クセ(調整)』を、短期間で後輩AIに継承する」ことで性能を上げるイメージだ。