2026.06.30 07:30

GPT-5.5とOpus 4.8の競合、中国AI「GLM-5.2」が登場──オープンウェイトの脅威

Craig S. Smith | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Photo Illustration by Avishek Das/SOPA Images/LightRocket via Getty Images

脆弱性の発見では、米国の主要モデルと同等の性能を示す

この議論において重要なベンチマークは、セキュリティのものだ。2つの独立評価は、GLM-5.2が脆弱性発見で米国の主要モデルと同等の性能を示すことを見いだした。Semgrepは、IDOR検出タスクでClaudeを上回り、コストは発見1件あたり約17セントだったとしている。Graphistryは、最先端級のサイバーセキュリティ体験を得るために推奨できる、初のオープンウェイトモデルだと評した。

数日後、Axiosが報じたところでは、ロシア語フォーラムでハッカーがジェイルブレイク手法を交換し、ある研究者は同モデルがエクスプロイトを「エリートの人間攻撃者のように」連鎖させると述べたという。

これらはいずれもZ.aiの協力を必要とせず、同社が認識している必要すらない。重みがローカルに置かれた時点で、企業はモデルの挙動を形成することも、見ることもできなくなる。

3つのAIモデル、1つの変数

3つのAIモデルを並べてみると、違いを生む変数は能力ではなく、封じ込めにある。理屈の上ではMythosは最も危険だ。脆弱性の発見に最適化され、不具合を大量にあぶり出せることが実証されている。だからこそ、停止措置、輸出制限、審査済みパートナーのリストの背後に置かれている。GPT-5.6はコーディングとセキュリティの双方で高い能力を持つが、利用者に届くのは、管理されたエンドポイントと承認済み顧客の名簿を通じてのみだ。GLM-5.2はラッパーが存在しない。最初の2つのAIは、規制を強制する層の内側に置かれた高性能ツールである。3つ目は、ツールそれ自体であり、使い手が用意したものであれば、どんなハードウェアの上でも動く。

どれほど早く影響が出るのか

こうした攻撃能力が多くの使い手の手に渡ること自体はもはや疑いようがなく、残された問いは、それがどれだけ速く広がるかだけだ。Anthropicのダリオ・アモデイCEOは5月、Mythosがすでに数万件のソフトウェア脆弱性を見つけていると警告した。同等の能力がより広く拡散する前に、防御側が脆弱性に修正を当てられる猶予はおそらく6〜12カ月だと述べた。

GLM-5.2は、その「拡散」が具体的にどういうものかを示している。能力のある使い手であれば、既存のスキャナーやファザー（fuzzer。異常動作を起こさせて脆弱性を見つける検査ツール）、CIパイプラインに組み込み、防御と攻撃の双方を加速させられる。しかも実行がローカルで完結するため、悪用の検知のために防御側が頼ってきたクラウドのログそのものが生成されない。

これは、次の四半期までに自律的なエクスプロイト攻撃が始まるという予測ではない。しかし、AIによって加速する攻撃対象領域（アタックサーフェス）の分析を、将来的リスクから現在の運用上の事実へと押し上げるものではある。

経営陣へのメッセージ

取締役会やCISO（最高情報セキュリティ責任者）が得るべき教訓は、中国発の1つのリリースが一夜にして勢力図を塗り替えたという話ではない。最も強力なサイバーAIは、ゲートで守られたAPIと政府との取引の背後に留まるという作業仮説が、もはや成り立たないということだ。

Mythosは、政府が社会の安定を脅かすほど危険だと判断したモデルを、市場から回収しうることを示した。GPT-5.6は、米国の研究所がその制約を受け入れることを示した。GLM-5.2は、同じ水準の能力が、いったん出回れば誰も回収も停止もできない形で、オープンな基盤として登場することを示した。

ここから導かれる現実的な対応は、3つある。第1に、露出したエンドポイントを探るだけでなく、コードベースと構成の全体を読み解ける敵を想定すること。第2に、既知の脆弱性に対する修正の周期を、四半期単位から数日単位へと圧縮すること。第3に、攻撃者がこうしたモデルで自社のソフトウェアの弱点を見つけ出すより先に、自社で同じモデルを使って自ら脆弱性を洗い出す体制を、実効性あるガバナンスの下で社内に築くこと。

もはや問われているのは、AIが重要システムに対して使われるかどうかではない。その能力がどれだけ速く拡散するか、そして防御側が後れを取らずについていけるかどうかである。

（forbes.com 原文）