2026.04.29 08:59

なぜ構造化データが企業AI市場の次の主戦場になるのか

著者フォロー

記事を保存

過去数年間、AI市場はテキスト、画像、動画といった非構造化データ向けに構築されたモデルが支配してきた。これらのモデルはメモを作成し、質問に答え、コードを書き、文書を要約し、チャットを製品戦略の議論に変える。企業向けAIスタートアップのKumoは、企業AIの次の重要な段階が、ビジネスを動かすデータベース、データウェアハウス、トランザクションシステム内部の構造化データとリレーショナルデータから学習できるシステムによって形作られると主張している。これが、同社の大規模企業データ向け最新モデルKumoRFM-2の背後にある考え方だ。

企業向けの構造化データシステムは、最も華やかなデモを生み出すわけではないが、ビジネス運営に最も重要なデータに焦点を当てている。これは、ほとんどの組織が文章だけで動いているわけではないからだ。組織は記録、注文、請求、出荷、支払い、顧客履歴、タイムスタンプ、リンクされたテーブルで動いている。そこで利益が生まれたり失われたりし、また無駄と機会が存在する場所でもある。

Kumoの企業向けモデル

AI市場の一方は、言語やその他の非構造化コンテンツ向けに構築されたモデルが支配している。これらのシステムは、執筆、要約、検索、コーディング、会話タスクに強い。多くのナレッジワーカーがソフトウェアと対話する方法を変え、AIを可視化してきた。

もう一方は、あまり目立たないが、間違いなくより重要である。実際に企業を動かすシステム内部での予測に焦点を当てている。これは、バイブコーダーやプロンプトエンジニアという用語が登場する前から、データサイエンティストの領域だった、より「伝統的な」AIの世界だ。この伝統的な世界は、企業インフラ内に存在する生データから、解約の可能性、不正、遅延、欠陥、債務不履行、アップセル機会の逸失、サプライチェーンの混乱を発見するといった、高価値データに焦点を当ててきた。この作業には莫大な経済的価値があり、決して容易ではなかった。通常、専門チーム、長いセットアップサイクル、かなりの手作業が必要だった。

Kumoはこの層を簡素化しようとしている。KumoRFM-2は、テキストモデルの適応としてではなく、基礎となるデータ自体の形状により近い形で動作することを意図したモデルとして、構造化およびリレーショナル企業データ向けに構築されている。これが、見出しを支配してきたより有名なAI製品との違いだ。

「すべての企業は構造化リレーショナルデータで動いているが、これまですべてのAIツールは、企業がそのデータを使用する前に、データの最も価値ある部分を破壊することを要求してきた」と、KumoのCEO兼共同創業者であるヴァニャ・ヨシフォフスキー氏は述べた。「大規模言語モデル（LLM）はデータベースの行をトークンとして扱う。KumoRFM-2は、リレーショナルグラフ上で直接動作する初のモデルであり、完全に教師あり機械学習を上回る初の基盤モデルだ。つまり、人間でもエージェントでも、専任のデータサイエンスチームが6カ月かけて構築するものよりも正確な予測を、5000億行以上の本番データ上で、平易な英語で、即座に得ることができるようになった」

AIをめぐる公の議論の多くは、OpenAIのGPT、AnthropicのClaude、GoogleのGemini、あるいは他のベンダーから登場する増加するモデル群といった1つのモデルクラスがほぼすべてをこなせると依然として想定している。それが望ましい目標かもしれないが、大規模組織が実際にどのように運営されているかを反映していない。

企業は1種類のデータを持っているわけではない。多くの種類を持っている。契約書、メール、サポート記録、画像、チケット、クリックストリーム、トランザクション記録、アカウント階層、台帳、サプライヤーデータベース、製品カタログ、請求履歴、機械ログがすべて並存している。それぞれが独自の構造、独自のリズム、独自のビジネス価値を持っている。文中の次の単語を予測するために構築されたモデルは、自動的に他のすべての仕事に適した手段になるわけではない。すべての企業データを言語優先のレンズを通して押し込むのではなく、Kumoは構造化データが独自のモデルアーキテクチャと企業AIスタック内の独自の位置を持つに値すると主張している。

企業内部での予測モデリングは新しいものではない。企業は何年もの間、リードをスコアリングし、リスクをランク付けし、需要を推定し、不正にフラグを立て、結果を予測するために機械学習を使用してきた。問題は、モデルを本番環境に投入するコストと複雑さだった。

標準的なワークフローは、データサイエンティストがよく知っているものだ。チームは複数のシステムからデータを引き出す。それをクリーンアップし、準備し、欠落情報を処理し、手作業で特徴を定義する。1つのタスクに対して1つのモデルを訓練できる。それを調整する。ドリフトを監視する。ビジネスが変化したら再構築する。そして次のユースケースのために同じことを再び行う。これが、生成AIが状況を一変させる前のAIの通常のプロセスだった。

このプロセスは強力な結果を生み出すことができるが、スケーラブルなソフトウェアというよりは、カスタム職人技のように振る舞う。希少な人材に依存する。動きが遅い。実験を高価にする。各予測問題を新たなプロジェクトに変える。

Kumoの提案は、リレーショナル基盤モデルがこのオーバーヘッドの一部を削減できるというものだ。チームにすべての予測システムをゼロから構築するよう求めるのではなく、モデルはリンクされたテーブル全体で構造化ビジネスデータがどのように振る舞うかについて、より広範な学習済みの理解から始まる。価値提案は効率性、つまり特徴エンジニアリングの削減、カスタム準備作業の削減、生データから使用可能な予測への迅速な移行だ。

「LLM、XGBoost、表形式基盤モデルのいずれであっても、すべての既存アプローチの根本的な制限は、リレーショナルデータを単一のテーブルに平坦化する必要があることだ。このステップは、企業データにおいて最も強力な予測シグナルを持つテーブル間の関係を破壊する」と、Kumoの最高科学責任者兼共同創業者であるジュレ・レスコベック氏は説明する。「KumoRFM-2はこのステップを完全に排除する。リレーショナルグラフトランスフォーマーと呼ばれる新しいアーキテクチャを使用して、データベースとデータウェアハウスのリレーショナル構造上で直接推論する。結果：4つの主要ベンチマークにおける41の予測タスク全体で、タスク固有の訓練がゼロの単一の事前訓練済みモデルが、構築に数カ月かかった完全に教師ありのパイプラインを上回る。これは言語と視覚で起こったのと同じパラダイムシフトが、今、構造化企業データに到来しているのだ」

大規模AIモデルにはない構造化モデルの利点

企業の構造化データに対して超人気のLLMの1つを使おうとすることは、しばしば四角い杭を丸い穴に入れようとするようなものだ。汎用言語モデルを構造化予測タスクで機能させたいチームは、しばしばレコードをテキストに平坦化し、テーブルをシリアル化し、モデルをオーケストレーションロジックでラップするか、複数のステップを連鎖させなければならない。これは一部のケースでは実行可能かもしれないが、解決するのと同じくらい多くの問題と複雑さを引き起こす。企業データのハルシネーション（幻覚）は大きな問題だ。重要な構造が希釈され、精度が低下する可能性がある。システムは、有用であることを証明するずっと前に賢く聞こえるかもしれない。

構造化企業データ向けに設計されたモデルは、異なる場所から始まる。行、キー、テーブル、関係で動作するように構築されている。ビジネスエンティティがどのように接続し、時間とともにどのように変化するかのパターンを見つけることを目的としている。これにより、実際のシグナルが1つのフィールドにあるのではなく、多くのレコードに分散した多くのフィールド間の相互作用にあるタスクに対して、より関連性が高くなる。

これが重要なのは、ほとんどの企業の結果がリレーショナルだからだ。それらは単一のイベントやスプレッドシートの単一行から生まれるわけではない。顧客の解約は、購入、返品、割引、サービス連絡、タイミングのギャップ、アカウント行動の一連のシーケンスを通じて現れる可能性がある。不正は単独では無害に見えるかもしれないが、関連するアカウント、トランザクション、デバイス、取引相手全体で見ると疑わしい。出荷の遅延は、1つのサプライヤーや1つの港に結びついているのではなく、ルート、天候、在庫状況、倉庫の制約全体にわたる一連の相互作用に結びついている可能性がある。

これが、構造化データがこれほど戦略的な重みを持つ理由だ。それは動いているビジネスのロジックを含んでいる。エンティティがどのように接続し、イベントがどのように展開し、小さなシグナルがどのように高価な問題や収益性の高い機会に複合化するかを捉えている。その環境向けに構築されたモデルは、従来のダッシュボードが見逃すもの、言語優先システムが自然に見るように設計されていないものを表面化する可能性が高い。

より実用的で価値重視のAIへのシフト

AIの次の波は、センセーショナルさは減るが、より価値が高いかもしれない。モデルをデータタイプとビジネス上の意思決定に合わせることに焦点を当てる可能性が高い。言語モデルは、もちろん引き続き重要であり、特に採用と機能がますます広範になるにつれてそうなる。それらはインターフェース層に位置し、人々がシステムと対話し、情報を検索し、出力を要約し、複雑さをナビゲートするのを支援する。

一方、構造化モデルは同様に有用だが、一般的なユーザーにはあまり見えない。予測と意思決定支援が最も重要な運用コアにより近い位置に、ますます配置される可能性がある。混雑したAI市場へのKumoのモデルリリースは、セグメンテーションの必要性を主張している。言語用の1つのモデルクラス。構造化予測用の別のクラス。企業の異なる層のための異なるツールだ。

（forbes.com 原文）