AI

2026.02.12 08:46

AI開発の本質的課題は評価プロセス──Micro1の挑戦

AdobeStock

AdobeStock

エージェント型AIの時代に突入するにつれ、企業はAIをツールではなく労働力として扱い始めている。このエージェント中心モデルへの移行に伴い、ソフトウェアの開発、評価、展開のアプローチも変革を迫られている。

advertisement

従来のソフトウェア開発と品質保証は、決定論的システムを前提に構築されている。そうしたシステムでは、テストは単純明快で、スクリプトに従うだけで済むことが多い。ボタンをクリックすれば、ページが読み込まれるか否かが判明する。テストスイートを実行し、結果が期待通りかどうかを記録する。いずれの場合も、明確に定義された有限のプロセスがあり、ジュニアチームメンバーに引き継ぐことができる。

しかし、顧客の問題を振り分けたり契約書の文言を起草したりといった実際のワークフロー内で独立して動作し、独自の判断を下すことが期待されるAIエージェントの場合、トレーニングと評価は単純ではない。エージェントは単純に正しいか間違っているかではなく、大部分は正しいものの、依然として実質的なコストを生み出す可能性がある。本番環境への準備が整っているかを判断するには、より高度な専門知識と職業的判断が必要となる。

モデルのトレーニングとエージェントの評価

Micro1の最高経営責任者(CEO)であるアリ・アンサリ氏は、Micro1の事業は依然として、ラボが重要な領域向けにモデルをトレーニングする支援に軸足を置いているものの、モデルが企業エージェントになるにつれ、中核的な問題が変化すると述べている。エージェントが質問に答えられるかどうかを評価することから、実際の組織の制約内で確実に機能できるかを評価することへとシフトしているのだ。

advertisement

こうした評価において、文脈が鍵となる。すべての組織には独自のツールチェーン、ポリシーロジック、エスカレーションルール、内部プロセスがある。基盤モデルが法的分析、財務推論、臨床要約に優れていたとしても、企業環境は「良い」の意味を変える。モデルはデモでは印象的でも、内部システムに触れた瞬間に本番環境には不適格となる可能性がある。

複雑性の増大と関与の可能性の拡大により、エージェントの評価は、専門資格の一環としての口頭試験に似てくる。評価はもはや「質問に対する答えを書けるか」ではなく、「主題だけでなく、自分の役割の境界、つまり答えを推測するのではなくいつ質問をエスカレーションすべきかを含めて理解しているか」となる。

アンサリ氏のより大きな賭けは、評価が現代の製品ワークフローにおいて、エンジニアリングそのものと同じくらい不可欠な、恒久的なトップレベル機能になるということだ。従来の品質保証が消えるわけではないが、不十分になる。「典型的なソフトウェアのように、機能するかしないかをイエスかノーで言えるようなものではない」とアンサリ氏は言う。「むしろ、どの程度うまく機能するか、そして本番環境に移行するためにどのような閾値を求めているかということだ」。準備状況は変動する目標となる。

評価に必要な専門知識

当然の疑問は、このタイプの評価をAIにオフロードできるかどうかだ。アンサリ氏は懐疑的で、鶏と卵の問題を指摘する。特定の企業コンテキストにおいてドメインパフォーマンスを確実に判断するモデルがあれば、基礎となるタスクをすでに解決したことに不快なほど近づいており、その時点でも判断が信頼できることを証明する必要がある。実際には、高信頼性の評価には依然として人間の判断が基盤層として必要だと彼は主張する。時間の経過とともに、システムのパフォーマンスが狭い作業範囲で安定すれば、その範囲での評価コストは下がる可能性があるが、節約分はエージェントが新しい機能を引き受けるにつれて拡大されたアクションスペースのテストに再配分される可能性が高い。

これは2つ目の誤解につながる。エリート専門家だけが重要だという誤解だ。アンサリ氏は、ジェネラリストは依然として重要であり、特に初期のエージェント展開が比較的標準的なワークフローから始まることが多い企業コンテキストではそうだと述べている。「誤解の1つは、ジェネラリストタイプの個人がもはやモデルのトレーニングに取り組んでいないということだ」と彼は言う。「実際にはそうではない」。

評価は事実の正確性を超えて広がる。エージェントは技術的には正確でも、トーンに無頓着だったり、不確実性を適切に表現できなかったり、信頼を損なう行動をとったりすれば、受け入れられない可能性がある。医療では、それはベッドサイドマナーに似ている。顧客対応の文脈では、それは裁量、明確性、そして即興ではなくエスカレーションする規律を意味する可能性がある。

デジタルエージェントから物理的知能へ

地平線の向こうでは、同じロジックがデジタルエージェントから物理的知能へと移行している。アンサリ氏は、Micro1が自己中心的な人間のデモンストレーションデータのパイプラインを構築していると述べている。人々が自分の環境でタスクを実行する一人称視点の記録を、構造化されたトレーニング信号に後処理するのだ。彼は小規模から始めて急速にスケールアップしていると説明しており、ロボティクスラボがこの種のデータをますます優先するようになっている。根底にある理論は直感的だ。ロボットが人間の空間で動作する場合、人間が実行するタスクを視覚的にも文脈的にも学習することで利益を得る。ロボットには、行動が完全で安全で効果的だったかどうかについての構造化された判断が必要であり、その判断はしばしば一人称視点のビデオと客観的なスコアリングフレームワークから導き出される。

こうしたエージェントをトレーニングする戦略の一部には、Micro1が「レルム」と呼ぶシミュレートされた世界で構築された強化学習環境が含まれる。これらの環境では、エージェントが税金を申告し、法的契約を検討し、財務報告を分析し、段階的に意思決定を行う。各環境の背後では、会計士、弁護士、医師が自分の経験を、成功がどのようなものかを定義する構造化されたルーブリックにエンコードする。このアプローチは、標準的なデジタル学習モデルを効果的に反転させる。ユーザーがテクノロジーから学ぶのではなく、テクノロジーがユーザーから複雑なスキルを学び、ユーザーによって評価されるのだ。

人間の判断に対する拡大する市場

アンサリ氏は公に主張している。自動化が拡大するにつれ、構造化された人間の判断の市場は劇的に拡大すると。企業が推論のための計算に多額の投資を行うにつれ、その投資を正当化する新しい機能を解放するインセンティブが生まれる。合成データは学習を増幅できるが、人間の基盤の必要性を排除するものではない。そのレンズを通して見ると、評価は副次的な探求ではない。それは、AIシステムが信頼できる労働力になるかどうかを決定するゲートなのだ。

Micro1自身の成長は、この物語の一部だ。アンサリ氏によると、同社は約5000万〜6000万ドルのランレートから約1億9000万ドルに成長しており、その成長の大部分は過去数カ月間に発生している。また、同社はシリーズBラウンドで資金調達を準備していると述べている。詳細は投資家にとって重要だが、より広範なシグナルはすでに明確だ。AIがデモから運用に移行するにつれ、評価は「展開」が実際に何を意味するかを定義するインフラストラクチャレイヤーになる。

自動化の次の段階では、勝者は最も強力なモデルをトレーニングする者だけによって定義されるわけではない。企業が避けられない質問に確実に答えられる者によって定義される。このシステムは行動する準備ができているのか、と。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事