カリフォルニア州サンマテオに拠点を置くAIスタートアップのUnstructured(アンストラクチャード)は、この問題に対処するため30以上の異なるファイル形式を機械学習モデルが理解できるように変換するツールを開発した。
同社の創業者でCEOのブライアン・レイモンドは「我々は、誰もが触れたがらないAIの側面に焦点を当てています。開発者は、このようなものをとても嫌います」と述べている。
アンストラクチャードは3月14日、エヌビディアのVC部門のNベンチャーズやデータブリックスの投資部門が参加し、メンロー・ベンチャーズが主導したシリーズBラウンドで4000万ドル(約59億円)を調達したと発表した。今回のラウンドで同社の評価額は2億3000万ドルとされ、累計調達額は6500万ドルに達した。
メンロー・ベンチャーズのパートナーのティム・タリーはフォーブスの取材に「彼らがデータをチャンク(塊)化する能力は、一種の芸術の域に達している」と述べ、彼自身がアンストラクチャードのツールを用いて投資家にプレゼンを行うためのAIアプリケーションを構築したと付け加えた。
アンストラクチャードによると、同社のオープンソースのソフトウェアは、約5万の組織においてAIのトレーニング用データの準備に使用されているという。同社は独自のAIモデルを組み合わせて、ドキュメントのファイル形式を検出し、ほとんどのAIモデルが好むJSON形式に変換する。
アンストラクチャードのツールは、約1000社の有料利用されており、そのなかには機密データを独自の大規模言語モデル(LLM)の学習に用いている米軍や、保険契約のためのAIを準備中の医療保険大手のIndependent Health(インディペンデント・ヘルス)などが含まれるという。
現在38歳のレイモンドは、元CIAの職員で、エンタープライズ系のAI企業Primer AI(プライマーAI)に勤務していた際に、膨大なデータを整理するためのツールの必要性に気づき、2022年7月にアンストラクチャードを設立した。「私たちのミッションは、人間が生成したデータと基礎モデルを結びつけることです」と彼は語った。
(forbes.com 原文)