Anthropic(アンソロピック)が満を持して送り出した伝説のモデル「Mythos」のリリースは、大部分のユーザーにとっていまだ「伝聞」の域を出ない。モデル自体は「公開済み」ではあるものの、同社はProject Glasswingと呼ばれるプログラムを設置し、Cisco、Crowdstrike、Palo Alto Networksといった企業だけが利用できる体制を敷いている。アンソロピック幹部の説明によれば、Mythosはサイバーセキュリティ分野での能力が「あまりにも高すぎる」ためだという。
それ以外のユーザーに向けて、アンソロピックが今回投入したのがOpus 4.7だ。2月にリリースされたOpus 4.6の後継モデルにあたる。
次世代モデルという肩書きはつくものの、実際に触れたユーザーたちの反応は「単なる段階的改善」をはるかに超えている。
Opus 4.7の視覚性能
初期トライアルでOpus 4.7を絶賛するユーザーが真っ先に挙げるのが、コンピュータビジョン(AIによる画像認識・解析技術)の劇的な向上だ。これはあらゆるAIに共通する中核的な能力のひとつである。
アンソロピックの公式発表では、「このモデル(4.7)は視覚能力が大幅に向上している。画像をより高い解像度で認識できるようになった」と説明されている。
Dev誌のレビュアー、ガブリエル・アニャイアも4.7の他の能力を称えつつ、やはり視覚性能から話を始めている。
アニャイアはこう書いている。「ベンチマーク結果は本当に驚異的だ。視覚精度が54.5%から98.5%に跳ね上がり、画像入力の解像度は3倍、文書推論のエラーは21%減少。さらにOpus 4.6でもSonnet 4.6でも解けなかったコーディングタスクをこなしている。今朝から実際のプロジェクトで使っているが、久しぶりにワークフローを根本から見直そうと思わされたモデルアップデートだ」。
54.5%から98.5%への飛躍は確かに大きい。推論エラーの減少とコーディング能力の向上は、新しいOpusが、ユーザーが新モデルに求めていた“決め手”を確かに備えていることを示唆している。
筆者はRedditなどで公開初日のレビューをそれほど多くは見つけられなかったが、以下にベンチマーク結果をいくつか紹介する。
成功を示す指標
アンソロピックは、Opus 4.7と旧バージョンを比較した一連のベンチマークを公開している。
中でも注目すべきは、SWE-bench verified(ソフトウェアエンジニアリングの実践的コーディング能力を測定するベンチマーク)のエージェント型コーディングスコアだ。Opus 4.6の80.8%から、4.7では87.6%に上昇している。



