2026.03.05 10:36

Anthropic、Verceptを買収──人間のようにコンピューターを操作するAI構築へ

Ron Schmelzer | Contributor

著者フォロー

記事を保存

AdobeStock

AIはこの10年、画面を見つめ、テキストを入力し、人間が次のボタンをクリックするのを待ってきた。AIを複雑な業務にとって本当に有用な存在にするには、知覚とインタラクションの問題を解く必要があるが、これは機械にとってなお難題である。

こうしたニーズに応えるため、Anthropicは今週、Verceptの買収を発表した。この動きは、同社がコンピューターとの完全なインタラクション領域にさらに踏み込む意図を示している。同社はすでにデスクトップやウェブアプリと直接やり取りする機能を備えていたが、今回の買収は、人間のような自律性を持ってライブアプリケーションを操作できる自律型デジタルワーカーの構築に向けた戦略的転換を意味する。

テキストからアクションへ

Claudeは急速に進化してきた。最新バージョンのClaude Sonnet 4.6は、能力の大幅な飛躍を示している。しかし、AIシステムに実際に「何かをさせる」ことに関しては、ツールの洗練度がまだ不足していた。

ライターと編集者の違いを考えてみるとよい。ライターはコンテンツを作る。編集者は出版プラットフォームを操作し、ファイルをアップロードし、体裁を確認し、公開ボタンを押す。コンピューター操作機能により、Claudeは後者の作業を行えるようになる。AIがライブアプリケーションの中で、複数ステップのタスクを担えるようになるのだ。この機能は、コードだけでは解決できない問題を解く。複雑なソフトウェア環境では、メニューの操作、フォーム入力、視覚的レイアウトの解釈がしばしば求められる。

Verceptのチームは、人々が日々使うのと同じソフトウェアの中で、AIが「見て」行動できるシステムの構築に注力してきた。目的は、複数のツールやチームにまたがる業務ニーズを、継続的な人間の監督なしに管理できるAIを作ることである。

Anthropicは買収以前から、Claude内でコンピューター操作機能をすでに実証していた。同社は、仮想デスクトップを制御し、カーソルを動かし、ファイルを開き、ウェブサイトを閲覧し、構造化されたワークフローを完了できるClaudeのバージョンをプレビューしている。管理された環境では、その結果は印象的だった。モデルは旅行予約を行い、フォームに入力し、タブをまたいでデータを抽出できた。

しかし、能力を実証することと、エンタープライズ規模で信頼性を提供することは別物である。Claudeの初期のコンピューター操作スタックは、基盤モデルの推論力に大きく依存していた。スクリーンショットを見てUI要素の意味を推測し、どの行動を取るべきかを決める。インターフェースが整然としていて予測可能な場合には機能するが、動作は遅く、エラーも起きやすく、多くのトークンを消費した。

スクリーンショットに基づくアプローチは、レイアウトが変わる、処理中に状態が変化する、権限がアクセスを阻む、あるいはレイテンシーが曖昧さを生む、といった状況では破綻する。実際のエンタープライズソフトウェアは混沌としている。モーダルウィンドウ、入れ子になったワークフロー、動的なダッシュボード、ベンダー間で不統一なデザイン標準が存在する。そして、AIシステムが常にスクリーンショットを撮り続けることに、組織はあまり安心できない。

ギャップは、知覚と状態認識にある。Verceptはまさにそのレイヤーを専門としていた。あらゆるスクリーンショットを新しいパズルとして扱うのではなく、時間の経過に伴うアプリケーションの構造と連続性をモデル化するシステムを構築した。人間はこれを本能的に行う。ウィンドウが読み込み中か、プロセスが停止しているか、ダイアログボックスが行動の文脈を変えたかを理解できる。多くのAIエージェントはそうではない。AnthropicはVerceptを、Claudeを状況認識できるようにし、運用面で信頼に足るものへと高める手段だと見なした。

知覚が重要な理由

多くの人は視覚的な知覚を当然のものとしている。画面を見れば、どこをクリックすべきかを瞬時に理解する。AIモデルはこの機能を果たすよう訓練されねばならず、しかも設計言語（デザイン言語）がそれぞれ異なる何千ものアプリケーションにまたがって実行しなければならない。

この問題は些細に聞こえるかもしれない。しかし、そうではない。エージェントがボタンのラベルを誤解すれば、エラーを生む。アプリケーションの状態を誤解すれば、システム全体に連鎖的な障害を引き起こし得る。エンタープライズへの導入はそのリスクを拡大する。CRM（顧客関係管理）、ERP（統合基幹業務システム）、あるいは財務システムとやり取りするAIエージェントは、メモを起草しているのではない。運用上の結果を伴う行動を実行しているのだ。信頼性はもはや「あればよい」機能ではない。必須条件である。

Verceptは、AIの内部推論とユーザーインターフェースという外部現実のあいだにあるギャップに、長年取り組んできた。Verceptの創業者であるKiana Ehsani、Luca Weihs、Ross Girshickは、機械学習とコンピュータービジョンにおいて深い経験を持つ。彼らの専門性は、大規模言語モデルの推論におけるAnthropicの強みを補完する。この組み合わせは、業界全体のより広い認識を映し出している。推論だけではエージェントは生まれない。エージェントには、動的な環境との接地されたインタラクションが必要である。

今回の買収は、Anthropicが以前に行ったBunの買収に続くものだ。Bunは、本番環境でAIエージェントを実行し、オーケストレーション（統合管理）するためのツールを構築する開発者向けスタートアップである。これらの動きは、同社がClaudeを会話モデルから実行プラットフォームへ変えるために必要なレイヤーを統合していることを示している。

デジタルワーカーの事業性を構築する

Anthropicは、AIを活用しようとする企業内での地位を急速に固めてきた。現在のAIツールの波は効率性に焦点を当てる。ユーザーがより速く文章を書き、より迅速にデータを分析し、コードスニペットを生成するのを助ける。次の波が焦点を当てるのは自律性だ。企業は、タスクをエンドツーエンドで実行するAIエージェントを配備するようになる。

摩擦点は統合である。多くのエンタープライズシステムには包括的なAPIがない。APIが存在しても、機能の一部しか公開していないことが多い。人間がインターフェースを直接操作するのは、それが最も普遍的な統合レイヤーであり続けているからだ。AIの初期には、いわゆるRPA（ロボティック・プロセス・オートメーション）ツールがこの領域で使われた。記録またはスクリプト化された人間の操作を、将来のタスクのために再生するものである。知能というより自動化だ。

しかし、インターフェースをネイティブに理解できるAIシステムがあれば、ハードコードや個別カスタムの統合作業を不要にできる。これがAnthropicの動きの経済的ロジックである。Verceptは、エンタープライズソフトウェアを書き換えることなく、システム横断の自動化を実現可能にする唯一のレイヤーを強化する。

エージェント戦争で競う

自律型AIエージェント構築の競争は加速している。OpenAIは、モデルがアプリケーションをまたいで閲覧し、行動できるOperator型のシステムを導入した。Googleは、ビジョン、推論、リアルタイムのインタラクションを融合するProject Astraのような取り組みの下で、マルチモーダルエージェントを披露している。スタートアップ各社は、基盤モデルの上にオーケストレーションフレームワークを重ね、タスク実行エージェントを作っている。

これらの企業はいずれも、デスクトップアプリケーションやウェブサイトとやり取りする能力を持つ。競争上の差は、本番環境の中で、予測可能で安全かつ監査可能なパフォーマンスを誰が提供できるかにある。コンピューター上で行動するエージェントはリスクの表面積を広げる。機密データにアクセスし、取引を実行し、システム構成を変更し得る。企業は、ガードレール、ログ、ポリシー適用がなければ、こうしたエージェントを大規模に配備しない。

Anthropicは、Responsible Scaling Policy（責任あるスケーリングポリシー）を中核的な差別化要因として強調している。ただし、Anthropicが基本的なAI安全性と責任ある実践への長期的コミットメントを維持するかについて、疑問の声が増えつつある。

知覚と行動のスタックを自社で保有することにより、Anthropicはこれらの制御をシステムに直接組み込める。Verceptの取引は、戦略的な緩衝材も提供する。同時に、Claudeが信頼されるデジタルオペレーターになるかどうかを左右するレイヤーを、Anthropicが確実にコントロールできるようにする。

（forbes.com 原文）