6月16日、中国のAIラボZ.aiがGLM-5.2をリリースした。MITライセンスの下で公開されたオープンウェイトモデルであり、誰でもダウンロードし、改変し、商用利用することが制限なく可能だ。その性能は驚異的で、最も広く使われているモデル性能ベンチマークの1つであるTerminal-Bench 2.1で81.0を記録している。注目すべきは改善のスピードだ。前バージョンのGLM 5.1は同じベンチマークでわずか62だった。これは大幅な飛躍であり、しかも数年ではなく数週間で達成されている。
GLM 5.2はベンチマーク性能で引き続き目覚ましい成果を上げている。SWE-bench Proで62.1を記録し、GPT-5.5をわずかに上回った。FrontierSWEでは、広くリーダーと認められているOpus 4.8にわずか1ポイント差まで迫っている。この新しい中国モデルは100万トークンのコンテキストウィンドウを備え、長時間のエージェントセッションでも持ちこたえる。そして、米国の主要クローズドモデルがトークンあたりに課金する金額のおよそ6分の1のコストで利用できる。
もう一度読み返してほしい。自分で実行できるオープンモデルが、エンジニアにとって最も重要なタスクでフロンティアモデルと互角に渡り合っている。しかも6分の1のコストで。
中国の「勝てる」モデル
これは例外ではない。これが中国の戦略なのだ。実際の性能、高速な反復と改善、そして米国拠点のAI企業が投資家に売り込んできたあらゆる収益予測に冷や水を浴びせるコスト。
もし私の結論が、誰かが実施したサードパーティのベンチマーク報告だけに基づいていたなら、懐疑的になるのも当然だろう。しかし私は、多くのマシンとさまざまなワークフローで、数百もの問題に中国製モデルを使ってきた。現在、私が「万能型(jack of all trades)」として最も気に入っているモデルはDeepSeek-V4と、より安価なv4-flashの姉妹モデルだ。私自身の仕事において、恐ろしく高価な最上位のOpusティアを除けば、これが私の使う中でもっとも幅広く有能なモデルである。V4-Proは1.6兆パラメータのMixture of Experts(MoE)モデルで、トークンあたり490億パラメータをアクティブ化する。SWE-bench Verifiedベンチマークで80.6%を記録している。コストは出力トークン100万あたり約87セント。フロンティアモデルの価格のおよそ30分の1、わずか3%強だ。ウェイトはオープンで、好きなように使える。これは研究上の珍品ではない。私の実際の仕事の多くをこなしているモデルなのだ。
先ほどスピードについて触れた。では、この勇敢な新しいオープンフロンティアの開発ペースを見てみよう。GLM-5は2月に登場した。GLM-5.1は3月に登場し、内部コーディングスコアを35.4から45.3へと、1つのポイントリリースで28%向上させた。GLM-5.2は6月に登場し、Terminal-Benchの結果をほぼ倍増させた。3つのステップ、4カ月。各ステップは中国製シリコンで訓練された。すべてがNvidiaフリーかどうかについてはまだ議論があるが、中国のラボは今や完全に国産スタックでフロンティアクラスのモデルを提供できるようになったと私は考えている。
このスピードが意味するのは、オープンフロンティアはクローズドフロンティアに向かってゆっくり歩いているのではなく、全力疾走しているということだ。2023年、オープンモデルは2年遅れていた。2024年は1年。2025年は6カ月。今日、実際のエンジニアリング作業を左右するベンチマークでの差は、わずか数週間で測られるようになっている。
コストカーブと「知能」の価格
これを知能そのもののコストと比較してみよう。3年間、モデル出力1単位の価格は毎年およそ10分の1に下落した。2022年末にトークン100万あたり20ドルかかったGPT-4級の結果は、今では約40セントで得られる。ほぼ1000倍の下落だ。コンピューティング史上、最速級のコスト崩壊の1つである。
しかし、その曲線は今年停滞した。技術の進歩が止まったからではない。サプライチェーンの問題だ。イラン戦争とAIデータセンターブームにより、世界はメモリ不足に陥った。DRAMと高帯域幅メモリ(HBM)は深刻な供給不足に陥った。サプライヤーの在庫は数カ月分から数週間分に減少した。サーバーメモリの価格は2026年末までに倍増する見込みだ。トークンあたりの価格は下がり続けた一方で、その基盤となるハードウェアの所有または賃借コストは上昇した。デフレは供給上の理由で一時停止したのであり、技術や物理法則や需要の理由ではない。
迫り来る「サプライズ」を恐れよ
しかし、この一時停止は永続しない。ダムが決壊したらどうなるか。2つのサプライズが同時に起これば、大規模データセンターへの楽観的な投資家の多くにとって破滅を招きかねない。
1つ目のサプライズは、新たな供給能力のオンライン化だ。メモリ不足は天井ではなくサイクルである。ファブ(半導体製造工場)は建設中だ。その供給が実現すれば、ハードウェアコストは再びトレンドに向かって下落し、1000倍の曲線は中断したところから再開する。知能は予定通り安くなり続け、この一時停止は振り返れば、急峻な下り坂の中の一時的な悪い時期に過ぎなかったように見えるだろう。
2つ目のサプライズは、エッジの到来だ。クラウドがメモリを待っている間に、デスクトップは静かに重要な性能閾値を超えることができる。Nvidiaは現在、DGX Sparkを出荷している。128GBのユニファイドメモリを搭載したGrace Blackwellマシンで、4ビット精度で最大2000億パラメータのモデルを実行でき、価格は約4700ドルだ。2台をリンクすれば256GBになる。適切なサイズ帯のオープンウェイトモデルはすでにその上で動作する。この分散推論、高速インターコネクト、モデルとマシン管理をサポートするソフトウェアスタックは数カ月で成熟した。文字通り、モニターの横に置ける箱が、2年前にはラック一杯のレンタルアクセラレータを必要とした作業をこなすようになったのだ。
この2つを組み合わせて考えよう。フロンティアグレードのオープンモデル。まもなく下落を再開するコスト曲線。実用的なモデルをローカルでホストできるコンシューマーハードウェア。3〜4年以内に、多くの人が毎日触れる最も高性能なモデルは、他人のデータセンターにあるのではなく、自分が所有するマシン上にあるようになるだろう。クラウドモデルは周辺部でより強力かもしれないが、その差は無制限の稼働時間、ローカルネットワークとドキュメントへのアクセス、プライバシーなどで埋め合わされるだろう。
データセンターへの賭けは生き残れるか
優れたモデルがローカルで動作するようになれば、これはある特定の賭けにとって問題になり得る。その賭けとは、集中型推論への需要が、5〜6年のスケジュールで減価償却されるハードウェアを正当化するのに十分な速さで、十分長く成長し続けるというものだ。
マイケル・バーリ(映画『マネー・ショート』で知られる投資家)は会計上の問題を声高に指摘してきた。ハイパースケーラーはNvidiaのシリコンを5〜6年で減価償却するが、チップの実際の経済的寿命は2〜3年に近い。彼は業界全体で2028年までに過少計上された減価償却費を約1760億ドルと見積もっている。ゴールドマン・サックスも同じリスクを端的に表現している。5万ドルのアクセラレータを5年スケジュールで減価償却すると、年間1万ドルの減価償却費がかかる。新世代が2年目で経済的に採算が合わなくなれば、運営者はもはや収益を生まない資産を抱え続けることになる。これを数十万台規模で掛け算してみてほしい。
2023年と2024年の建設ラッシュに対する最初のリース更新の崖は、今年後半から来年にかけて訪れる。2026年に米国で計画されているデータセンターのおよそ半分がすでに遅延またはキャンセルに直面している。ウィスコンシン州のある町では、大規模データセンターへのインセンティブに承認を求める初の住民投票が可決された。予測市場では、2027年までに連邦政府によるモラトリアムが実施される確率を約3分の1としている。
では需要を考えてみよう。オープンモデルが差を縮め続け、それを実行する最も安価な場所がデスク上のデバイスになれば、5年の減価償却スケジュールを支える集中型推論の需要曲線は崩壊する必要はない。投資家に示されたスプレッドシートが想定したよりも成長が遅くなるだけでいい。それだけで大きな問題が生じるには十分だ。
おそらく、エッジやローカルモデルへの移行はNvidiaを傷つけないかもしれない。同社はデータセンターのアクセラレータを販売し、エッジのシリコンも販売している。DGX SparkはNvidia製だ。次世代のワークステーションやコンシューマーカードのチップもNvidia製だ。推論がラックからデスクに移行すれば、Nvidiaは単にワークロードについていくだけだ。リスクは「つるはし」を売る会社にあるのではない。単一の鉱山に借金をして、2年資産に6年スケジュールを書いた運営者にあるのだ。
恐ろしいが、良いことでもある
このバブル崩壊を招き得る変化が、起こり得るだけでなく良いことでもある理由が最後にもう1つある。
ホスト型モデルにプロンプトを送るたびに、あなたは情報を引き渡している。質問だけではない。文脈も、貼り付けた文書も、デバッグ中のコードベースも、モデリングしている取引も、心配している診断も、誰にも話していない戦略もだ。私たちは、自分がコントロールできないシステム、自分が書いたのではない規約に支配され、同意なしに変更される保持とアクセスのルールに従うシステムに、職業生活と私生活で最も機密性の高い素材を注ぎ込んでいる。特定のモデルから外国ユーザーを一夜にして遮断した最近の輸出規制措置は、ホスト型の関係が安定しているという幻想を終わらせるべきだ。
米国防総省は、Grokのモデルがイランへの軍事行動に使用されたことを公表したばかりだ。ある国のユーザーが自分の家、所在地、オフィス、通りについての情報を共有し、それがいつか自分の通りが爆撃される原因となる訓練データとして使用されることを想像してほしい。おぞましい想像だが、多くの人々が今やこれらのリスクをはっきりと認識している。
全面的に信頼できる環境は、自分が所有する環境だけだ。自分のマシンで、自分のウェイトで、自分のファイアウォールの内側で動作するモデルは、何も漏らさない。プロンプトは建物から出ない。臨床医、弁護士、情報機関の要員、兵器技術者、機密業務に従事するエンジニア、テーゼを守る創業者にとって、これは「あればよい」ではない。それがすべてなのだ。
技術はローカルに収束しつつある。経済もローカルに収束しつつある。そして信頼の問題は常にローカルに収束する運命だった。なぜなら、1日で最もプライベートな思考を、他人のサーバーに頼って完了させるべきではないからだ。
データセンターにも、日の当たる時間はこれからもあるだろう。しかし私なら、エッジのオープンモデルに賭けたい。それに合わせて構築せよ。



