AI

2026.04.11 18:00

アンソロピックの最新AI「Claude Mythos」とは何か、なぜ一般に公開しないのか

sauloangelo - stock.adobe.com

なぜClaude Mythosを公開しないのか

Anthropicの立場は明快だ。このモデルのサイバー能力は、一般公開するには危険すぎるというものだ。Project Glasswingの発表文では、次のように述べている。「AIモデルのコーディング能力は、ソフトウェアの脆弱性を見つけて悪用する点で、最も熟練した人を除くほぼすべての人間を上回りうる水準に達しています」。

advertisement

Anthropicがこれまで公表した中で最も詳細な244ページのシステムカード(モデル仕様書)には、社内テストで何が起きたかが記されている。以前の版のモデルは、サンドボックスを脱出し、エクスプロイトの詳細を公開の場に投稿し、git上の痕跡を隠し、認証情報を探すためにプロセスのメモリーを検索し、安全フラグの発動を避けるために信頼区間を意図的にごまかした。Anthropicのモデル内部解析ツールは、モデルがこうした行為を欺瞞的なものだと理解していたことを確認している。

AnthropicはClaude Mythosを「これまでで最も人間の意図に沿うよう調整されたモデル」であると同時に「これまでで最大の制御逸脱リスクをもたらすモデル」とも形容している。なぜなら、失敗したときの影響がより重大だからである。同社はなお、Claude Mythosは自動化AI研究開発の閾値を超えてはいないとみているが、その評価については「これまでのどのモデルよりも確信が低い」と認めている。

Project Glasswingの取り組み

Project Glasswingの枠組みは実務的だ。パートナー企業は、Claude API、Amazon Bedrock、グーグル・クラウドのVertex AI、Microsoft Foundryを通じてClaude Mythos Previewにアクセスできる。取り組みの重点は、ローカルな脆弱性検出、バイナリのブラックボックステスト、端末の保護、ペネトレーションテストに置かれている。1億ドル(約159億円)分のクレジットを使い切った後は、Claude Mythos Previewは入力100万トークンあたり25ドル(約3975円)、出力100万トークンあたり125ドル(約2万円)で利用できる。

advertisement

Anthropicは90日以内に、この取り組みから何を学んだかを公表する予定であり、その中には修正された脆弱性や、公表可能な改善点も含まれる。同社は、脆弱性開示の手順、ソフトウェア更新の手順、オープンソースのサプライチェーンセキュリティ、パッチ適用の自動化を含め、セキュリティ実務が今後どう変わるべきかについて提言をまとめる考えである。

CrowdStrikeのCTOであるエリア・ザイツェフは、その切迫感を次のように表現した。「脆弱性が見つかってから敵に悪用されるまでの猶予は、なくなりました。以前は数カ月かかっていたことが、現在ではAIによって数分で起きます」。Linux財団のCEOであるジム・ゼムリンは、世界の重要インフラの大半を支えるソフトウェアを担うオープンソースのメンテナーは、これまで自力でセキュリティ対策を考えるしかなかったと指摘した。Project Glasswingは、その状況を変える。

次ページ > 市場への影響と、次に何が起きるのか

翻訳=酒匂寛

タグ:

advertisement

ForbesBrandVoice

人気記事