アマン氏は、サンフランシスコを拠点とし、YCの支援を受けるスタートアップUnsiloed AIの共同創業者兼CEOである。同社は非構造化データ向けのビジョンベースAIインフラを構築している。
企業データの多くは、PDF、PPT、DOCXなどの非構造化形式で存在する。
金融、法務、医療などの業界では、データベースよりも文書に依存して業務を行っている。これらの業界において、文書は例外的な存在ではない。文書こそが記録システムなのだ。
我々はこれまで文書を「非構造化データ」と表現してきた。このラベルは便利だが、深く誤解を招くものである。
請求書、融資契約、保険証券、裁判所への提出書類、医療記録、財務諸表、規制当局への届出書類は、非構造化ではない。これらは人間による解釈のために設計された、高度に構造化された視覚的成果物である。タイトルは階層を確立する。表は関係性をエンコードする。
空間的レイアウトは、一つの単語が読まれるずっと前から意味を伝えている。問題は文書に構造が欠けていることではない。問題は、我々が文書を大規模言語モデル(LLM)のために平坦で線形のトークンストリームに強制的に変換し、すでに消去された構造を再構築するよう求めていることだ。この制限は、組織がLLMを使用してワークフローを自動化しようとする中で、ますますコストがかかるようになっている。
根本的なミスマッチ:テキストモデルと視覚データ
今日の企業向けAIパイプラインの多くは、同じ欠陥のあるパターンに従っている。OCRで文書をスキャンし、すべてをプレーンテキストに変換し、そのテキストを言語モデルに入力し、正しく意味を推論することを期待する。
これは単純な文書では機能する。しかし、価値を破壊する形で体系的に失敗する。例えば、テキストに平坦化された価格表は、理解不能なリストになる。行と列の関係が消失する。自動化された契約分析システムは、どの割引がどの階層に適用されるかを判断できない。あるいは、フォームのチェックボックスが曖昧な単語になったり、完全に消失したりすることを考えてみよう。融資申請書の「雇用確認済み」ステータスが翻訳の過程で失われる。
金融、法務、医療において、これは業務リスクを生み出す。負債額の誤読。契約条項の見落とし。医薬品の投与指示が曖昧になる。
これが、文書のレイアウトや書式が変化した瞬間に「AIの精度」が崩壊することをチームが発見する理由だ。モデルは推論に失敗しているのではない。破損したデータに対して推論しているのだ。
文書はテキストファイルではなく、視覚的プログラムである
より有用なメンタルモデルは次の通りだ。文書は人間による実行のために設計された視覚的プログラムである。例えば、融資契約は次のような条件付きロジックをエンコードする。「借り手の収入がXを超え、かつ雇用期間がYを超える場合、承認する」。規制フォームは検証ルールをエンコードする。これらのルールはコードとして記述されていないが、レイアウト、配置、視覚的グループ化を通じて実施される。「フィールドBが『はい』に等しく、かつフィールドCがゼロでない場合、フィールドAを完了しなければならない」。
人間はこれらのプログラムを実行する。我々はレイアウトの慣例を解析し、空間的グループ化を解釈し、視覚的シンボルを認識し、相互参照に従う。我々の脳は文書を統合された視覚言語システムとして処理する。
従来のソフトウェアにはそれができない。空間認識も視覚的コンテキストもなく、近接性が関係性を伝えることや位置が階層を示すことを理解せずに、文字のストリームを見ているだけだ。これが文書自動化を破壊する根本的なミスマッチである。
欠けている抽象化レイヤーとしてのビジョンモデル
ビジョンモデルは文書を文字列として扱わない。空間システムとして扱う。ビジョン言語モデルは次のことができる。
• レイアウト要素(ヘッダー、表、フィールド、署名)を検出する。
• エンティティ間の空間的関係を保持する。
• テキストを視覚的コンテキストに根付かせる。
• 複数の視覚領域にわたって同時に推論する。
これにより、文書を損失の多いテキストの塊ではなく、構造化された計算可能な表現に変換できる。重要なのは、これは単により良い抽出に関するものではないということだ。人間、文書、機械の間のインターフェースを変更することに関するものである。
パース処理だけでは不十分な理由
文書AI市場の多くは「パース処理」、つまりPDFからフィールドを抽出することに焦点を当てている。これは重要な第一歩である。文書を不透明な塊ではなく機械可読にする。しかし、これらの表現は依然として損失が多い。レイアウト、視覚的階層、空間的関係、つまり企業文書において意味をエンコードするまさにその信号を確実に保持できないことが多い。
その結果、今日我々が得ているのは可読性であり、完全な計算可能性ではない。文書はモデルによって消費できるが、その暗黙のロジック(階層、グループ化、相互参照、視覚的制約)は部分的にしか保持されない。
計算可能性とは次を意味する。
• フィールドは単に抽出されるだけでなく、クエリ可能である。
• ロジックは手動で解釈されるのではなく、評価可能である。
• 変更は文書全体に伝播できる。
• エージェントはスナップショットではなく、文書の状態に対して推論できる。
言い換えれば、文書は凍結された成果物ではなく、リレーショナルデータベースのようなインタラクティブなシステムになる。
この区別が重要なのは、企業のワークフローにおいて、従業員は通常、文書を一度読むだけではないからだ。時間をかけて文書を扱い、レビュー、更新、検証、照合、監査を行っている。
非構造化企業データのための動的インターフェースに向けて
ビジョンモデルが成熟するにつれて、文書は静的ファイルから動的インターフェースへと進化できる。
• エージェントがレイアウトとコンテキストに根ざした質問をできるインターフェース
• ビジネスロジックが暗黙的ではなく明示的であるインターフェース
• 文書が書類仕事ではなくソフトウェアのように振る舞うインターフェース
我々は以前にもこの変化を見てきた。例えば、スプレッドシートは数値を計算可能にすることで台帳に取って代わった。データベースはデータをクエリ可能にすることでファイルシステムに取って代わった。ビジョンモデルは、文書を実行可能にすることで次の移行を可能にできる。
新たな展望
これらのいずれも、ビジョンモデルが万能薬であることを示唆するものではない。新たな課題をもたらす。
• より高い計算コスト
• レイテンシの制約
• 評価の複雑さ
• 精度と速度の間のデプロイメントのトレードオフ
しかし、企業向けAIの未来はマルチモーダルである。人間が文書を理解するために使用するのと同じ視覚構造を見て推論できるシステムに依存することになる。
ビジョンモデルは、構造化された実行レイヤーと組み合わせることで、文書を静的ではなく計算可能にする。この変化を採用する組織は、仕事のやり方を変えることになる。そして、データベースではなく文書で業務を行っている業界において、その変化は基盤的なものとなるだろう。



