2026.02.05 10:21

なぜ規模拡大ではなく構造理解が、AIの次なる課題となるのか

Adnan Abbas | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

AdobeStock_1761025180

アドナン・アッバス氏は、最先端のVLM（視覚言語モデル）構築に深い専門知識を持つ元AI研究者である。同氏はUnsiloed AIの共同創業者である。

大規模言語モデルは、機械がテキストで実行できることの範囲を劇的に拡大し、数百ページに及ぶレポートの要約、法的な流暢さを持つ契約書の起草、長い会話の文脈を横断した推論、自然言語の記述から実行可能なコードの生成を可能にするシステムを実現した。

しかし、これらの進歩は、主に線形のトークン列から意味を復元でき、依存関係が主に順次的、言語的、順序に敏感な領域に限定されている。言い換えれば、非線形の現実世界の複雑さに直面すると機能しなくなる。

これらのモデルが現実世界の文書ワークフローに適用されるにつれ、より深い限界が浮かび上がってくる。それは、スケーリングだけでは解決できないものである。現在の大規模言語モデル（LLM）は、2次元構造と幾何学的関係の内部表現を欠いている。この限界は、単語の欠落や不十分なOCRの問題ではない。それは、線形シーケンスの外側に存在する関係性についてである。

LLMの構造的盲点

実際の文書では、意味は空間的配置、表の境界、行と列の対応関係、視覚的グループ化、幾何学的制約によって伝えられる。数値の位置は、数値そのものよりも重要な場合がある。ヘッダーはページ全体の領域を支配する可能性がある。単一のずれたセルが意味を反転させることもある。これらは言語的な問題ではなく、構造的な問題である。

この失敗は、文書を多用するワークフローで明白になる。財務諸表は表にロジックを埋め込んでいる。請求書はレイアウトの慣例を通じて意図をエンコードする。フォームは、フィールドを結び付けるために近接性、階層性、配置に依存している。エンジニアリング図、ダッシュボード、科学論文は、散文ではなく幾何学を通じて意味を表現する。すべてのトークンが正しく抽出されている場合でも、LLMはレイアウトと構造によって伝えられる意味を頻繁に誤解し、微妙で体系的で検出が困難なエラーにつながる。

したがって、私が予見するAIの次のボトルネックは規模ではなく、表現である。真の進歩は、言語理解と明示的な空間的・構造的推論を組み合わせ、レイアウトの不変性をエンドツーエンドで保持できるシステムから生まれるだろう。

LLMの成功の背後にある隠れた前提

その核心において、LLMはシンプルだが強力な前提の上に構築されている。世界は1次元のトークンのシーケンスとしてモデル化できるというものだ。これらのシステムは、世界をテキストのような形式に押し込むことで機能する。たとえそれが自然に適合しない場合でもである。

Transformer（トランスフォーマー）は、テキストを単語またはトークンのシーケンスとして処理し、その順序を追跡し、各トークンをシーケンス内の他のトークンと比較して関係性を理解する。この設計は、順序が意味の主要な担い手である言語に対して非常に効果的である。

しかし、2次元レイアウトが線形トークンストリームに平坦化されると、構造情報は不可逆的に圧縮される。位置エンコーディングはシーケンスの順序を捉えるが、空間的トポロジーは捉えない。その結果、レイアウトのセマンティクスは、モデルの入力空間で明示的に表現されなくなる。

この設定では、行、列、ヘッダー、領域は構造的ではなく暗黙的なものになる。モデルは、テキストの手がかり、トークンの近接性、または過去のテンプレートから学習したパターンに依存して、それらの関係を間接的に推論しなければならない。これらの近似はより限定的な状況では機能する可能性があるが、構造的一貫性を強制せず、レイアウトの変動下では失敗する傾向がある。

なぜモデルのスケーリングが答えではないのか

一般的な反応は、スケールが問題を解決すると仮定することである。結局のところ、LLMはパラメータとデータが増加するにつれて改善し続けている。しかし、2次元推論は異なる種類の限界を露呈する。帰納的バイアスのミスマッチである。

LLMは段階的なパターンに従うように最適化されている。しかし、表やレイアウトは、行、列、空間的関係のような構造に依存しており、再配置されても意味が変わらない。これらの特性は、次トークン予測目標では自然に表現されない。

その結果、モデルはしばしば、一般的な表レイアウトの暗記、視覚的近接性ヒューリスティックへの依存、馴染みのあるスキーマへの過剰適合といったショートカットを学習する。

レイアウトが変化すると、現実世界のデータでは必然的にそうなるが、パフォーマンスは急激に低下する可能性がある。これが、スプレッドシート推論、財務諸表分析、文書インテリジェンスが、同様のレベルの投資にもかかわらず、会話型AIよりもはるかに信頼性が低い理由である。

コンピュータビジョンからの教訓

この課題は新しいものではない。コンピュータビジョンは、大規模言語モデルが存在するずっと前に、同様の限界に直面していた。多層パーセプトロンのような初期のニューラルネットワークは、画像を空間構造を認識せずにピクセルのフラットなベクトルとして扱っていた。

これらのモデルは機能させることができたが、膨大な量のデータと限定的な堅牢性が必要だった。位置やスケールのわずかな変化が、モデルが画像の組織化方法について組み込みの概念を持っていなかったため、しばしば過大なエラーを生み出した。ブレークスルーは、視覚構造を設計に直接組み込むことができるモデルによってもたらされ、画像のどこに現れても関係なくパターンを認識できるようになった。その結果、畳み込みニューラルネットワーク（CNN）は、単により良くスケールしただけでなく、正しい特徴をより速く、はるかに高い信頼性で学習した。

この類推は、AIの現在のボトルネックに対して示唆的であると考える。表やレイアウトを1次元トークンシーケンスとして扱うことは、画像を非構造化ピクセルリストとして扱うことに似ている。将来の文書理解には、それを平坦化するのではなく、保持し推論できるモデルが必要になるだろう。