エージェント型AIの覇権を巡る衝突
エージェントが運用するインフラへの移行は、孤立して起きているわけではない。AI競争における次の主戦場になりつつある。
フロンティアモデルにおけるOpenAIの最も近い競争相手であるAnthropic(アンソロピック)は、エージェント型の仕事を中心とする並行したビジョンを進めている。同社のClaude(クロード) CodeやCoworkは、コード作成、プルリクエストのレビュー、問題のデバッグ、開発者と並走した反復など、ソフトウェアライフサイクル全体でAIを協働者として位置づける。SWE-benchのようなベンチマークでは、Anthropicの最新の公開モデルが検証済みタスクで60%台半ばから後半へと押し上げ、社内バリアントはさらに高いと報じられている。
しかしOpenAIは、Codex由来のエージェントと、より広範なエージェント志向のベンチマークによって、その物語に挑み続けている。Terminal-Bench 2.0では、OpenAIのエージェントが77.3%で、Claude(クロード)の65.4%を上回る。汎用コーディングとエージェント型タスクでは、AnthropicがSWE-benchと長文コンテキスト推論で先行する一方、OpenAIは決定論的ロジック、事実検索、マルチツールのオーケストレーションで競争力を維持している。
さらに、これが重要となる規模は大きい。OpenAIの社内データプラットフォームは、数万のデータセットにまたがる数百ペタバイトを処理し、イベント量は前年比でおよそ50倍に増加している。その規模では、信頼性や応答時間がわずかに改善するだけでも、運用上のレバレッジは大きくなる。
OpenAIのビジネスモデルが優勢になれば、実行レイヤーが支配点になる。実際に動くシステム──コードをデプロイし、インフラを管理し、障害を解決する──を所有する企業が、しばしばユーザーの直接的な操作なしに、仕事の進め方を定義する。その違いには経済的な重みがある。インターフェースレイヤーの覇権は利用とサブスクリプション収益を生みやすい。実行レイヤーの覇権は運用上の依存と長期的なロックインを形作る。
「人はしばしば、SnowflakeやDatabricksに接続して、その上にモデルを置くことが難しいと思いがちだ。そこは簡単だ。本当に難しいのは、企業のデータの現実をエージェントが読めるようにすることだ。どのテーブルが正規なのか、指標がどう定義されているのか、業務ロジックがどこにあるのか、各データセットの所有者は誰か、どんな権限が適用されるのかなどだ」とタンは言う。
インフラがより自律的になるにつれ、新たな制約が現れる。それは「信頼」だ。OpenAIは、SQLレベルの検証とデータレベルの比較の双方を用い、エージェントの出力を期待結果と突き合わせる継続的評価フレームワークによって、これに対応している。
タンは、抽象化が進んでもチームがデータへの深い理解を失う必要はないと語った。「自動化される部分の多くは、たいていありふれた部分だ。だからこそ人は、よりレバレッジの高い仕事に時間を使える。より良い問いを立て、数値がなぜ変わったのかを理解し、次に何をするかを決めることだ」と彼女は言う。「リスクが現実になるのは、チームがエージェントを推論の相棒ではなく、答えを出す機械として扱う場合だけだ」。
AIの次章では、知能の重要性は変わらないが、市場の主導権を決めるのは稼働率(uptime)かもしれない。優位性は、ピーク性能に向けて学習させるだけでなく、これらのシステムを継続的に動かし続けられる者へと移る可能性がある。


