コーディングエージェントは、2年前に存在していたソフトウェア関連のベンチマークのほぼすべてを打ち破った。ベンチャーキャピタルも、それに応じて資金を投じてきた。だが、10万人超の開発者を対象にしたMITの新たな調査は、ベンチマークでは見えない生産性のギャップを示している。AIエージェントによって書かれるコードの量は約180%増えた一方で、実際に本番環境へ投入されたソフトウェアの量は約30%しか増えなかった。コードを書くことと、実際に出荷することの間にあるこの差こそが、AI投資を読み解く本当の焦点となる。
ベンチマーク結果が13%から80%台後半へ、投資家が見誤った改善
CognitionのDevinが2024年初めに登場して以降、AIコーディングツールには数十億ドル(数千億円)規模のベンチャー資金が流れ込んできた。当時のDevinは、標準的なソフトウェア・ベンチマークであるSWE-Benchの課題のうち、わずか13%しか解くことができなかった。それから18カ月後、最良のエージェントは同じテストで80%台後半のスコアを出している。この改善速度を見て、多くの投資家はソフトウェアエンジニアリングがすでに攻略済みの市場になったと考えるようになった。だが、Conviction創業者のサラ・グオは今週、投資家コミュニティはその流れから誤った教訓を引き出していると主張した。
「モデルが測定しやすい部分を飲み込んだだけ」との批判
「ほぼ全員が同じ誤った教訓を引き出しました。モデルがソフトウェアエンジニアリングを飲み込んだという教訓です」とグオは書いている。「しかし、モデルがソフトウェアエンジニアリングのうち最も測定しやすい部分を飲み込むにつれ、私たちは多くのチームが以前から知っていたことを学び直しています。エンジニアリングは昔から測定になじみにくいものであり、最も測定しやすい部分だけが重要だとは限らない、ということです」。
コンパイラとテストで通るコードも、本番システムで正しい変更とは限らない
MITのデータは、その理由を説明している。コード生成はほぼゼロコストで検証できる。コンパイラは出力を受け入れるか、受け入れないかのどちらかである。テストスイートは成功するか、失敗するかである。検証が無料に近ければ、モデルはその判定基準に対して何百万回も訓練され、やがてそれを突破する。
安価に検証できないのは、ある変更が特定の本番システムにとって本当に正しい変更なのかという点である。たとえば、10年前から使われ、文書化されていない依存関係を抱え、誰も責任を持ちたがらないデプロイ手順まで含んだコードベースでは、その変更が正しいかどうかをリーダーボードから読み取ることはできない。実際の負荷のもとで十分な時間システムを動かして、初めて確認できる。その確認に必要な時間は、モデルの能力がどれほど向上しても短縮できない。
1年という時間軸でエージェントを確実に評価するには、実際に1年間動かすほかないのかもしれない
OpenAIの推論モデル開発を率いたノーム・ブラウンは、この制約をこう言い表している。1年という時間軸でエージェントを確実に評価する方法は、実際に1年間動かしてみるほかないのかもしれないというのだ。ベンチマークの進歩を根拠にAIアプリケーション企業の価値を評価する投資家が測っているのは、ソフトウェアの仕事のうち、すでにコモディティ(汎用品)化しつつある部分だ。価格決定力が残る部分ではない。
どのモデルでも出せる回答と、企業の非公開データを使う出力では価値が違う
グオはこの経済性を、SaaSの売り込みを聞いたことがある人ならすぐに理解できる言葉で整理している。一般的な質問に答えるために使われるトークン、つまりAIが処理するテキストの単位には、ほとんど価値がない。そうした答えは、どのモデルでも出せるからである。これに対し、特定企業の非公開データを読み込み、その企業の事情に即して推論するためのトークンには、はるかに高い価値がある。それは、単にもっともらしい答えを返すのではなく、その企業が実際に必要とする出力を生み出すからだ。この2種類のトークン価格の差こそが、持続的な利益率の源泉になる。そしてその差は、モデルの能力だけで生まれるものではない。データへのアクセス、顧客との信頼関係、そして組織の業務に深く組み込まれるまでに積み上げてきたコストによって生まれるものである。



