新たな大規模言語モデル(LLM)が次々に登場している。OpenAIのGPT-4.5、AnthropicのClaude 3.7、xAIのGrok 3、TencentのHunyuan Turbo S、そしてDeepSeekの最新モデル(早期リリースの可能性あり)が、私たちの仕事、コミュニケーション、情報アクセスの手段、さらには世界のパワーバランスを再定義しようとしている。
この競争が一段と激化する中で、ある問いが浮上している。「AIモデルはより賢く、より高速で、かつより安価になるのか」という問いだ。DeepSeek R1の登場は、AIの未来が必ずしも最大規模のモデルや膨大なデータを要するモデルである必要はなく、機械学習の手法を革新してデータ効率を極めるモデルにこそあるのだという可能性を示唆している。
重いAIから軽いAIへ、コンピュータの歴史と類似
この効率化の流れは、コンピューティングそのものの歴史を彷彿とさせる。1940〜50年代の部屋いっぱいのメインフレームコンピューターは、無数の真空管や抵抗器、コンデンサに依存し、膨大なエネルギーを消費したため、ごく少数の国しか導入できなかった。しかし技術が進歩し、マイクロチップやCPUが開発されるとパーソナルコンピュータ革命が起こり、サイズとコストを劇的に縮小しながら性能を飛躍的に高めることになった。
同様に、今の最先端LLMはテキスト生成、コード作成、データ分析などを実現するために、学習・保管・推論のすべてを巨大なインフラに依存している。これらのプロセスでは、膨大な計算リソースだけでなく、莫大なエネルギーも必要とする。だが、今後20年で登場するLLMは現在の一枚岩的な巨大システムとはまったく異なる形態になるかもしれない。中央集権的でデータ消費の激しいモデルから、機敏で個別対応が可能な超高効率モデルへと移行が進みつつある。鍵となるのは、データセットを無限に拡張し続けることではなく、「より良く学ぶ方法」を探り、限られたデータから最大の洞察を得ることである。
推論モデルの台頭とスマートなファインチューニング
特に注目されるイノベーションの一部は、データ効率設計に直接結びついている。カリフォルニア大学バークレー校に所属するJiayi Panや、スタンフォード大学のフェイフェイ・リーといった研究者たちが、その最前線に立っている。
たとえばJiayi Panは、強化学習を用いてわずか30ドル(約4500円)でDeepSeek R1を再現した。またフェイフェイ・リーはテスト時のファインチューニング手法を提案し、50ドル(約7500円)でDeepSeek R1の中核機能を再現することに成功している。いずれのプロジェクトも無秩序なデータ収集を避け、学習データの高品質化を重視した。こうした「より賢い学習技術」によって、AIは少ないデータからより多くを学習できるようになり、学習コストを削減すると同時にアクセスしやすさと環境負荷の低減をも実現している。