また同社によれば、新モデルはHumanity's Last Exam(学際的な推論能力を問うベンチマーク)でも改善を見せており、ツール使用時で1.4%、ツール不使用時で6.9%の向上があったという。
試験的な一歩
アンソロピック幹部は、Opus 4.7のリリースがMythosを安全に一般公開するための全体戦略にも寄与すると示唆している。公式発表にはこうある。
「当社は、禁止対象または高リスクのサイバーセキュリティ用途を示すリクエストを自動的に検知し遮断するセーフガード(安全装置)を搭載したうえでOpus 4.7をリリースします。このセーフガードを実環境で運用して得られる知見は、Mythosクラスのモデルを広く一般にリリースするという最終目標に向けた取り組みに活かされます」
理にかなった戦略だ。Opus 4.7はMythosほどの性能は持たないが、原理は同じだ。アンソロピックは実運用を通じて状況を評価し、何が起きるかを見極めることができる。
さらにアンソロピック内には新たにCyber Verification Program(サイバー検証プログラム)が設置された。おそらくブラックハット(悪意あるハッカー)をホワイト、レッド、グレーハット(正当な目的のセキュリティ専門家)から見分けるためのものだろう。利用希望者が記入できるCyber Use Case Form(サイバー用途申請フォーム)も用意されている。
OpenAI側の動向
一方、OpenAIの次期モデルは、通称「Spud」(スパッド、ジャガイモのこと)と呼ばれているが、リリースに関する具体的な情報はまだない。ただしサム・アルトマンは、モデルのトレーニングが完了したとは述べている。
興味深いことに、筆者はこの件についてGPTに「サム・アルトマンはvagueposting(曖昧な匂わせ投稿)をしているのか?」と聞いてみた。
GPTの回答はかなり明確だった。
「はい、少なくともネットスラングとしての一般的な意味では、その表現は的を射ています。具体的な詳細を明かさずに何か大きなことを匂わせる行為です。彼の投稿やコメントを『vagueposting』と呼ぶ人々は、たいてい、正確な時期も最終名称もローンチ方法も明言しないまま、勢いと重要性だけをシグナルとして発信していることを指しています。これはこの用語の通常の意味に合致しています」。
お見事、といったところだ。


