AI

2026.02.06 08:03

AIエージェントは自動化の最適解か──コストと信頼性の課題

Adobe Stock

Adobe Stock

ルーカス・ジョルダーノ氏は、nottelabsの最高技術責任者(CTO)兼創業者であり、元AI研究者でもある。


ここ数年、AIエージェントの台頭を目の当たりにし、自動化業界全体で新たな期待が高まっている。複雑なロボティック・プロセス・オートメーション(RPA)やビジネス・プロセス・アウトソーシング(BPO)に苦労する必要があるだろうか。AIエージェントに「ログインして請求書をダウンロードして」と命令するだけでよいのではないか。

その結果、多くの人々は、大規模言語モデル(LLM)が人間と同じようにウェブを閲覧できると信じるようになった。ポップアップを処理し、CAPTCHAを解決し、複雑なダッシュボードを扱う──しかも1行のコードも書かずに。しかし時間が経つにつれ、AIエージェントは推論には優れているものの、本番環境での実行となるとコストが急速に膨らむ可能性があることが明らかになった。これは重要な問いを投げかける。ウェブエージェントは本当に適切な抽象化なのだろうか?

信頼性のギャップ

純粋なウェブエージェントが本番環境で苦戦する主な理由の1つは、信頼性である。WebVoyagerベンチマークに関する2024年の結果によると、最高性能のエージェントでさえ、タスク成功率は約60%にとどまった。より最近の研究では、エージェントのベンチマークを改良し続けているものの、人間の介入なしに80%から85%の成功率を一貫して超えることは依然として困難である。

デモとしては、80%は印象的だ。しかし、1万件の保険金請求を処理したり、日次の価格データをスクレイピングしたりするような企業のワークフローにとっては、負債となりかねない。もし「買掛金処理」エージェントが20%の確率で失敗するなら、プロセスを自動化したことにはならない。「AIの子守役」という新しい仕事を生み出しただけである。

「トークン肥大化」という隠れたコスト

信頼性を超えて、ユニットエコノミクス(単位経済性)の問題がある。人間がウェブを閲覧する際、画面の大部分(広告、フッター、サイドバーなど)を無視し、「ログイン」ボタンに集中する。対照的に、LLMはすべてをテキストとして処理する。生のHTMLを入力すると、シグナルがノイズに埋もれてしまう。実際、現代のウェブページには、ほとんど無関係な情報が10万トークン以上含まれていることも珍しくない。

ここで認識レイヤーが登場する。これは、ブラウザとLLMの間に位置し、生のHTMLを簡略化されたセマンティックマップに変換する技術である。ノイズを削減することで、モデルは幻覚を起こすことなく推論できる。しかし、このステップを経た後でも、ページの処理には数千トークンが必要になることがある。したがって、クリックするたびにGPT-5を実行すると、コストはすぐに積み上がる。

コストは変動するが、私の経験では、小規模なクラウドサーバー上でPlaywrightスクリプトを実行してボタンをクリックする場合、10秒の実行あたり約0.0001ドル(計算コストのみ)かかる。一方、LLMを実行して同じボタンをクリックすると判断させる場合、約0.05ドル以上(推論コスト)かかる可能性がある。タスクを1回実行する場合、エージェントはスクリプトを書くのに必要な開発者の1時間分の時間よりも安価だろう。しかし、そのタスクを月に1万回実行する場合、エージェントの方が高くつく可能性が高い。

代替案:ハイブリッド・ブートストラッピング

では、手動で脆弱なスクリプトを書く作業に戻るのか? いや、そうではない。ここでハイブリッド・ブートストラッピングの出番となる。AIエージェントを作業者としてではなく、設計者として扱うことができる。企業は3つのフェーズでこれを実行できる。

1. 探索フェーズ(エージェント型):AIエージェントを使用してウェブサイトをナビゲートする。関連するインタラクティブ要素を把握し、ポップアップを処理し、最終的に成功への道筋を見つける。トークンを消費するが、地形を学習する。

2. 固定化フェーズ(決定論的):探索に基づいて、エージェントは各ステップを自動的に実行するスクリプトを生成する。

3. 実行フェーズ(ランタイム):以降のすべての実行では、LLMを使用しない。代わりに生成されたスクリプトを実行する。これにより、より高速で低コスト、かつ完全に監査可能になる。

ウェブサイトが変更されてスクリプトが壊れた場合、エージェントを起動させ、新しいセレクタを見つけてスクリプトを「修復」し、再びスリープ状態に戻す。

今後の展望

AIにクレジットカードを渡して「休暇を予約して」と指示できる段階には、まだ達していない。しかし、信頼性の高いソフトウェアの作成を加速するためにAIを活用できる段階には達している。

開発者を置き換えることができる「魔法のボット」を探すべきではない。むしろ、開発者を強化するエージェント型フレームワークを構築することを、企業に推奨する。ツールは、1人のエンジニアがコードを書くことなく、1000の自動化を構築・維持できるようにすべきである──それを書くエージェントを管理することによって。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事