AI

2026.01.23 20:08

エージェント型AI実装の壁:非構造化データ活用が企業の課題に

stock.adobe.com

stock.adobe.com

今週公開したBox Extractの一般提供開始に関する調査レポートに続き、企業がエンタープライズコンテンツ管理を最適化し、エージェント型AIを活用して価値を引き出すために、各ベンダーがどのような支援を行っているかを検証したい。最大のボトルネックは技術的な問題だけではなく、組織とガバナンスに基づくものである。企業は膨大な非構造化コンテンツのリポジトリを保有しているが、そこから実用的な意味を抽出するツールと、抽出されたインテリジェンスをAIシステムを通じて確実にガバナンスし、ルーティングするための運用フレームワークの両方が欠けている。これが、Box(ボックス)などのベンダーがコンテンツ管理を単なるストレージではなく、AI駆動型オペレーションの基盤インフラとして扱っている理由である。(なお、Boxおよび一部の競合企業は、筆者の所属するMoor Insights & Strategyのアドバイザリークライアントである。)

advertisement

この変化が重要なのは、非構造化データへの対応が不十分だと、AIを効果的に実装しようとする企業にとって複合的な問題が生じるためである。非構造化データがAIエージェントにアクセス不可能なままだと、組織は最大の情報資産プールを運用できない。その結果、摩擦が連鎖する。チームは手作業での処理を続け、AIエージェントは不完全なコンテキストで動作し、組織はAIが約束する競争優位性を獲得できない。

問題は、企業が活用するのに十分な非構造化データを持っているかどうか(圧倒的な量を持っている)、あるいはそのデータをAIに活用すべきかどうか(非常に価値があるという広範なコンセンサスがある)ではない。問題は、ガバナンスと運用ワークフローに統合される形で、それをAI対応にできるかどうかである。

核心的な問題:エージェント型AIのための非構造化コンテンツの活用

企業は膨大な量の非構造化データを保有しているが、文書、電子メール、サービスログ、通話記録などのこれらの資料は、AIエージェントにとってほぼアクセス不可能なままである。核心的な課題、そしてこの分析の中心的な主張は、この非構造化データを使用可能にすることが効果的なエンタープライズAIにとって不可欠であるということだ。Kompriseの2026年非構造化データ管理状況調査によると、ITおよびデータストレージ責任者の74%が現在、少なくとも5ペタバイトの非構造化コンテンツを管理しており、これは2024年比で57%の増加である。

advertisement

従来の光学式文字認識(OCR)ツールは非構造化テキストを効果的にデジタル化するが、意味の抽出には失敗する。たとえば、OCRは契約書を検索可能にするかもしれないが、AIエージェントは依然として、段落の途中にある特定の日付が署名日、有効期限、更新日のいずれを表すのかを識別できない。これらの区別は、法務および財務オペレーションにおいて極めて重要である。

調査レポートでより詳しく説明した例を挙げると、Box ExtractはAIを使用してこの課題に直接対処している。単に画像をテキストに変換するのではなく、グーグルのGemini、AnthropicのClaude、OpenAIのGPTを含むモデルを活用したエージェント的推論を適用し、コンテキスト、意味的関係、文書階層を理解する。したがって、システムは文書内の「trust」がマーケティング用語ではなく特定の法的実体を示す場合を認識できる。OCR技術を基盤として、印刷されたコンテンツと並んで手書きテキストを解釈し、時間の経過とともにレイアウトが変化した文書から意味を抽出することもできる。抽出されたメタデータは、エージェントが確実に行動できる構造化された、ガバナンスされたコンテンツに変換される。これはまさに企業が必要としているもの、つまり膨大な非構造化文書のリポジトリをAI対応の情報資産に変換する方法である。

当然ながら、Boxの顧客だけがこの問題に直面しているわけではない。業界全体で、コンテンツインテリジェンスベンダーは同じ顧客の現実に対応している。組織が既存のコンテンツを大規模に構造化できない場合、エンタープライズAIイニシアチブは停滞する。2025年のFivetran調査によると、企業の42%が、AIプロジェクトの半数以上がデータ準備の問題により遅延、パフォーマンス低下、または失敗したと報告している。

しかし、希望の理由はある。BoxのCEOであるアーロン・レヴィ氏はLinkedInの投稿で、この瞬間が異なる理由を説明した。「AIは非構造化データの構造化において驚異的に優れてきている。構造化データ、つまりデータベース、ERPシステム、CRMシステムに入る情報については常にこれを行うことができたが、あらゆる企業のデータ資産の大部分を占める非構造化データ、つまりコンテンツについてこれを実現することは決して不可能だった。ロボティック・プロセス・オートメーション(RPA)システムを使用する必要があったが、これは新しいデータタイプに簡単に適応できなかった。データのサブセットにのみ機能するカスタムトレーニングされた機械学習モデルを使用するか、各文書を手動で読み、関連情報を抽出するために膨大な時間を費やす必要があった」

これに対応して、より多くの企業が根本的な質問をしている。エージェント向けに文書リポジトリをどのように準備するか。数十億の文書にわたって抽出をどのようにスケールするか。エージェントが正確でガバナンスされた情報にアクセスできるようにするにはどうすればよいか。これらの質問に最もよく答えられるベンダーが、企業がAIパイロットから本番規模のオペレーションに移行する方法を定義するだろう。

ベンダーは何をしているのか:抽出課題への4つのアプローチ

この課題への競争的対応はいくつかのアプローチに分かれており、それぞれがエンタープライズ環境で最も重要なものについての異なる前提を反映している。これらの違いが、以下で議論するベンダーの状況を形作っている。

Boxの統合プラットフォーム戦略は、コンテンツ抽出をAIオペレーション向けに設計された包括的なインテリジェントコンテンツインフラストラクチャ内の1つのレイヤーとして位置付けている。Box Extractは独立したツールではなく、セキュリティとコンプライアンスオペレーションにAIエージェントを適用するBox Shield Proと並んで存在し、Box Relayオートメーションと深く統合されている。抽出されたメタデータはBox固有のワークフローに流れ込み、外部データウェアハウスに同期し、APIまたはSlack、Salesforce、ServiceNow、Workdayなどへのコネクタを介してダウンストリームシステムと統合される。Boxの論理は明確である。抽出は、それがガバナンスするコンテンツがエージェントが動作するワークフローとシステムに到達する場合にのみ重要である。価値提案は、抽出精度、プラットフォーム統合、運用規模を組み合わせている。すでにコンテンツ管理にBoxを使用している組織にとって、このツールはネイティブであり、データ移動のオーバーヘッドを削減し、価値実現までの時間を加速する。

Hyland(ハイランド)は、コンテンツサービス、インテリジェント文書処理、ワークフローオーケストレーションを組み合わせたエンタープライズプラットフォームとして、深いドメイン専門知識とともに位置付けている。2025年6月、同社はトレーニングデータを必要としないエージェント型文書処理を発表した。そのContent Innovation Cloudにより、企業は複数のコンテンツソースを接続し、ハイブリッド環境全体で一貫した抽出と分類を適用できる。Hylandの主な強みは幅広さとドメインの深さである。そのプラットフォームは文書キャプチャ、分類、抽出、ローコードワークフロー設計を提供し、規制セクターにおけるドメイン固有の課題に対処する。ただし、大規模組織は実装の複雑さのため、統合サポートを必要とする場合がある。

マイクロソフトとSalesforce(セールスフォース)は、それぞれ抽出を支配的なエコシステムに直接組み込んでいる。マイクロソフトのAzure Document IntelligenceとSalesforceのDocument AIは、多くの企業がすでにアイデンティティ、データ、ビジネスプロセスに使用しているクラウドプラットフォーム上で動作する。マイクロソフトは抽出をCopilotおよびMicrosoft 365と深く統合し、SalesforceはSales CloudおよびService Cloudでのフィールドマッピングとワークフローオートメーションに焦点を当てている。両社とも独自のモデルアクセスと深いエコシステム統合を活用している。どちらも抽出を独立した製品として位置付けておらず、代わりに既存のユースケースを加速する機能として扱っている。Google Cloud Document Intelligenceは異なるアプローチを取り、ページごとの課金と50言語にわたる手書き認識を提供し、スキャンされた文書を大規模に処理する組織にとって魅力的である。このようなエコシステム中心のモデルは、文書インテリジェンスを特定のクラウドまたはCRMプラットフォームに緊密に結合したい企業に最適である。一方、より専門的またはクロスプラットフォームのニーズを持つ組織は、BoxやHylandなどのコンテンツ中心のプラットフォーム、または中立的なIDPベンダーを検討する可能性がある。

OpenText(オープンテキスト)とWorkiva(ワークバ)は、どちらも水平的なデータプラットフォームアプローチを取っている。OpenText File Content Extractionは2,300以上のファイル形式をサポートし、抽出をデータパイプライン、分析、検索のインフラストラクチャとして位置付けている。財務報告とコンプライアンスに焦点を当てたWorkivaは、文書から用語と条項を抽出し、企業固有のコンテキストで分析を基礎付ける。両プロバイダーは、抽出を部門別ワークフローオートメーションだけでなく、分析とガバナンスの基盤と見なしている。

意思決定ツリー:組織はどのように選択するか

この分野でのベンダー選択は、企業が抽出をどのように評価するかを反映すべきである。SalesforceユーザーはDocument AIが便利だと感じるだろうが、Boxも抽出されたコンテンツをルーティングするための深いSalesforce統合を提供している。変動する文書を扱う金融機関は、Hylandの専門性を評価するかもしれない。抽出を組み込むテクノロジー企業は、OpenTextまたはAPIを提供するニッチプレーヤーを選択する可能性がある。

ガバナンスも重要な考慮事項であり、市場は同意している。エージェントスピードでの適切なガバナンスのない抽出はリスクが高い。エージェントが数百万の文書を即座にクエリできるようになったため、エラーはもはや孤立していない。それらは急速に伝播し、コンプライアンスとビジネスプロセスにリスクをもたらす。BoxのExtractとShield Proの統合、およびHylandのポリシー駆動型分類への焦点は、ガバナンスの重要性を強調している。抽出をガバナンスと監査可能性なしに狭い技術的タスクと見なすベンダーは、おそらく遅れをとるだろう。

2026年の市場を形作るもの:パイロットから本番規模へ

2025年から2026年への移行は、実験から運用の成熟への移行を示している。エージェント型AIの企業採用は急速に加速しており、初期のパイロットからより広範な本番展開に向かっている。この加速は主にモデルの改善によって推進されているのではなく、BoxやHylandなどが市場に投入しているプラットフォームやツールを通じて、組織がついにコンテンツ準備の問題を解決していることによって推進されている。

ベンダーがこの機会を獲得するために競争する中、4つのダイナミクスが抽出機能の構築と展開の方法を再形成するだろう。

  1. マルチエージェントオーケストレーションには専門的な抽出エージェントが必要になる。組織はモノリシックなAIシステムから、専門化されたエージェントの協調チームに移行している。これは、抽出が1回限りのデータ準備問題ではなく、異なるエージェントが異なる文書クラスに異なる抽出ロジックを適用する継続的なプロセスになることを意味する。契約、請求、コンプライアンス提出のためのドメイン固有のエージェントをサポートできるベンダーは、汎用プラットフォームを上回るパフォーマンスを発揮するだろう。
  2. ガバナンスと監査可能性が競争資産になる。抽出駆動型エージェントが大規模にビジネス上の意思決定を行うにつれて、組織は追跡可能で防御可能な抽出を要求するだろう。どのモデルが使用されたか。信頼度スコアは何だったか。プライバシーのためにどのデータがマスクされたか。エージェントが特定のアクションを取るよう促したものは何か。透明で監査可能な抽出パイプラインを提供するベンダーは、抽出をブラックボックスとして扱うベンダーに勝つだろう。
  3. 合成解析パイプラインがアーキテクチャの標準として登場する。文書全体を単一のモデルにルーティングするのではなく、文書はタイトル、段落、表、画像などの構成部分に分解され、それを理解するのに最適なモデルまたはエージェントにルーティングされる。これには、抽出ベンダーが単なる抽出機能ではなく、柔軟なルーティングロジックを提供する必要がある。一部の既存企業はこの点で明確な優位性を持っている。BoxのAPIアーキテクチャと統合モデルは、この進化に適した位置にある。Hylandのローコードワークフロースタジオは必要な柔軟性を可能にする。SalesforceとMicrosoftのプラットフォームの性質もこれを可能にする。対照的に、専門的な抽出ベンダーは進化する必要があるか、コモディティ化のリスクに直面する。
  4. 機能リリースと運用規模の間のギャップが重要な差別化要因になる。Boxを例に挙げると、Box Extractの一般提供は重要だが、成功の真の尺度は、2026年末までに何人のBox顧客が抽出を活用したエージェントを本番環境で確実に実行しているかである。実装フレームワーク、リファレンスアーキテクチャ、規範的ガイダンス、業界固有のテンプレートに投資するベンダーは、顧客の価値実現までの時間を加速し、スケールするだろう。対照的に、単に機能をリリースし、顧客が残りを理解すると想定するベンダーは、包括的な運用サポートと成功フレームワークを提供する競合他社にますます負けるだろう。

ガバナンスのボトルネックが自律性の要請と出会う

ここで言及されたソリューションは、大規模にAIを実装する企業が直面する最も重要な課題の1つに対処している。非構造化コンテンツをインテリジェントエージェントにアクセス可能で有用にすることである。これは些細な問題ではなく、企業がAIパイロットから本番展開に移行できるかどうかの中心である。私の見解では、Boxは抽出、ガバナンス、セキュリティ、ワークフローオートメーションをAI駆動型オペレーション向けに設計された一貫性のあるプラットフォームに統合することで、この動きをリードしている。とはいえ、同社はHylandのような確立されたプレーヤーや、MicrosoftやSalesforceのようなテクノロジー大手からの洗練された競争に直面しており、それぞれが同じ根本的な問題に対処するために異なる強みと視点をもたらしている。

上記で触れたように、2026年の真のテストは、どのベンダーが最も洗練された抽出モデルを持っているかではない。企業がエージェントが要求するスピードでコンテンツガバナンスを運用できるかどうかである。Deloitteなどの調査によると、組織の65%がAIの成功を達成するのに苦労しているが、それは技術が未熟だからではなく、組織がエージェントを制御できるよりも速く展開したためである。

勝つベンダーは、顧客がガバナンス・アズ・ポリシーからガバナンス・アズ・アーキテクチャへと移行するのを支援するベンダーである。そこでは、制御がマシンスピードで実行され、監査可能性が後から追加されるのではなく、システム自体に組み込まれている。市場は最終的に、この移行を大規模に最も効果的に実行するベンダーに報いるだろう。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事