2026.06.10 09:36

OpenAIもAnthropicも見逃している、AIエージェントの真の価値

Lutz Finger | Contributor

著者フォロー

記事を保存

Adobe Stock

AI競争に勝つのは何か？UX（ユーザー体験）か？ユーザーへのアクセスか？基盤モデルか？データか？これらすべてが重要であり、すべてが争奪戦の対象となっている。しかし真の価値は、OpenAI、Anthropic、Geminiがまだ中心に据えていない1つのものにあるかもしれない。それはあなた自身の評価データだ。確かに、時折「いいね」ボタンは存在する。しかし、そのシグナルを本当に活用しているのは誰だろうか？AI競争の真の答えは、そこに隠れているのかもしれない。

今や明らかなのは、AI競争はAIエージェント構築競争によって決着がつくということだ。エージェントはソフトウェアの未来である。我々はもはやメニューをクリックして操作するのではなく、タスクを委任する。この変化はすでに企業のあらゆるワークフローを書き換えている。私自身のAIエージェントは、会議のスケジュール調整、動画編集、返信の下書き、受信トレイの監視を行っており、その数は日々増加している。AIエージェントプラットフォームを成功させるものは何か？我々は主に2つの議論を目にする。基盤モデルとユーザーアクセスだ。どちらも重要である。しかし、どちらも単独では十分ではない。我々には評価データを扱う方法が必要なのだ。

ユーザーアクセス：グーグルの誇示

今年のI/Oは、すべてユーザーアクセスに関するものだった。グーグルは自社が所有するあらゆる表面にAIを注ぎ込んだ。単一のストーリーはなく、ただこれだけだった。すべての表面にはUXがあり、グーグルは今やそれぞれの中にAIを組み込もうとしている。ビジョナリーには聞こえないかもしれないが、理にかなっている。なぜなら、グーグルは検索、Android、Chrome、Gmail、ドキュメント、YouTube、マップ、グラス、そしてGeminiアプリという表面を所有しているからだ。

AIワークフローの言語では、表面に相当するものは表面そのものではなく、ハーネス（馬具）である。これは、エージェントがツール、権限、メモリ、ガードレールを通じて行動できるようにする層だ。言葉は違うが、戦略的なポイントは同じである。LLM（大規模言語モデル）は製品を指示する新しい方法を見つけた。デジタルライフを運営するSpark、動画を生成・編集するOmni、コーディングエージェントを管理するAntigravity、再設計された検索ボックス、グラス、その他多数だ。

しかし、グーグルはグーグルらしく、モデル論も持ち出した。グーグルがより強力なモデルを構築するという主張は、デミス・ハサビス氏によって語られ、AGI（汎用人工知能）とシンギュラリティの麓について言及された。これはI/Oの終盤近くに隠されており、ハーネスとユーザーアクセスに関するすべての議論に影が薄くなっていた。

誤解しないでほしい。私は今回のI/Oが正しい焦点を当てていたと信じている。たとえ全体的なビジョンが欠けていたとしてもだ。私はハーネスとユーザーアクセスの有用性を信じている。これはまた、AIの波に完全に乗り遅れたアップルを見限らない理由でもある。アップルは依然として、エージェントが生きる表面を所有しているからだ。しかし、表面はプラットフォーム構築に必要ではあるが、十分ではない。

ワークフローは堀だが、ワークフローは脆い

私は2023年に、AIモデルは堀を作らないと主張した。ワークフローが堀を作るのだ。これこそが、1年間の死亡記事にもかかわらず、SaaSが死んでいない理由のすべてである。SaaSは、ユーザーデータと顧客表面の上に、新しいAI駆動型ワークフローを構築できる。しかし、ワークフローは脆い。1つの新しいプロンプト、1つのモデル更新で、チェーン全体が静かに壊れる。私はコーネル大学のワークショップで学生にエージェントをコーディングさせるたびに、これを目撃する。始めるのは簡単だが、壊すのも同じくらい簡単だ。ワークフローは正しい結果がどのようなものかを知らないため、静かに壊れる。評価データが欠けており、自己修正できないのだ。

評価データは解答集である

評価データこそが、この欠けているリンクだ。これはワークフローのユニットテストであり、ワークフローが逸脱したことに気づくための解答集である。我々は一日中評価データを生成している。下書きをそのまま承認するたびに、それはポジティブなラベルだ。送信前にAI生成メールを書き直すたびに、その書き直しはAIが生成したものとあなたが望んだものとの正確な距離である。推奨事項を拒否するたびに、それはネガティブな例だ。メール、カレンダー招待、ドキュメント、ブラウザアクション、これらすべてがグラウンドトゥルース（正解データ）であり、これは汎用モデルが所有していない唯一のシグナルだ。なぜなら、それはあなたのものだからだ。シリコンバレーは、解答集がモデル単体よりも価値があることを知っているため、評価データを管理するスタートアップに数百万ドルを投資し始めた。

より賢いモデルでは十分ではないのか？

標準的な反論は、これは一時的なものだというものだ。時間をかけてモデルを十分に賢くすれば、あなたの好みを推測できるようになるので、なぜ評価データに煩わされる必要があるのか？なぜなら、あなたの好みは推論の問題ではないからだ。それらはプライベートで、特定的であり、どのトレーニングコーパスにも存在しない。どれだけ生の能力があっても、あなたがMBAの学生には投資家よりも率直に答えることや、エージェントにフライトを予約させないことをモデルに伝えることはできない。より大きなモデルは、依然としてより優れた他人であり、自己回帰的であるため、あなたに関する1つの間違った推測が次へと連鎖する。

評価データを管理するAIプラットフォーム

しかし、評価データは管理されなければならない。いつ、どの程度、評価データセットがプロンプトや推論を再形成すべきか？これまでのところ、その評価ループを所有し、指示できる製品は1つも見当たらない。誰もがあらゆる表面にエージェントを配置することに躍起になっており、あなたが良いと呼ぶものへのループを閉じる者は誰もいない。

Anthropicは現在、ワークフローとハーネスの構築においてリーダーである。しかし、作業を3つの製品に分割している。Chat、Cowork、Codeだ。1つの表面でスキルを設計し、別の表面で実行し、3つ目でチャットする。理論的には、3つはスキルを通じて接続されている。実際には、LinkedInの投稿で議論しているように、これらのどれも評価データに基づいてスキルを実際に変更することはできない。ワークフローの設計と実行は別々の手にあるため、評価データの形でのフィードバックは決して実装されない。

評価データはファーストクラスの市民であるべき

評価データはどのようにしてファーストクラスの市民になれるのか？私はClaude上に小さな薄いクライアントを構築してきた。これはエージェント的なセットアップで、あなたの評価データを捕捉し、改善ループを作成する。これはバイブコーディングされており、アイデアのデモンストレーション以上のものとして読まれるべきではない。我々には、自分自身の評価データを使用するツールが必要だ。フロンティアは、より賢いモデルだけではない。それは、我々が自分自身のデータとどれだけうまく相互作用するかにかかっている。

（forbes.com 原文）