2026.05.26 11:30

マルチモーダルLLMとは何か、なぜ台頭するといえるか

John Werner | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

模倣の技術

従来のトークンベースのLLMが、インターネット上の文章を調べ尽くし、予測モデルを適用することで人間の文章を模倣していたのだとすれば、新しいMLLM／LLMMシステムは、ある意味で「見ること」によって学習できる。入力も出力も、テキストだけに限られない。しかも、双方向的である。

「ヒューマン・コンピューター・インタラクション（HCI）と人間拡張（HA）の観点から見ても、MLLMにはさまざまな可能性があります」と、暦本純一は米国計算機学会（ACM）のデジタルライブラリに掲載された記事で書いている。「こうしたモデルが人間に近い形で世界を認識できるなら、幅広い応用が可能になる。たとえば、熟練者の行動を記録して理解し、それを他者に伝える技術、技能の発達を評価する技術、現実世界での行動を認識して個別支援を行う技術、障害のある人の環境認識を補助するために感覚知覚を拡張する技術などだ。

とはいえ、MLLMには従来型の推論を迂回して実行できることが多い。物理が関わる現実世界のタスクでは、とりわけそれが当てはまる。開発者の世界では約1年にわたり、テキストを通じてLLMに物理をどう教えるかが議論されてきた。その後、世界は、LLMに「見る」能力を持たせ、その方法で教えればよいのだと気づいた。

様々な特徴

「特徴抽出」という言葉を考えてみよう。

たとえば畳み込みニューラルネットワークのようなモデルは、画像を見て分析し、特徴を抽出して、視野に入っているものを分類・識別できる。今では、この畳み込みニューラルネットワークをLLMに接続し、畳み込みニューラルネットワークが見て識別したものをLLMに処理させることができる。これは強力な組み合わせであり、この種の構成に関する多くの研究を後押ししている。

部屋の中をボールが跳ねていて、LLMにそのボールを「追跡」させたいとしよう。その情報すべてをニューラルネットワークにどう符号化すればよいのか。現実世界の物理に基づくボールの軌道を、モデルにどう「見せる」のか。

LLMが見ることができれば、その作業ははるかに容易になる。

専門家の一部は、こうした機能を備えたLLMは、関係性を持つデータについて最初からより多くを把握でき、反復的な問い合わせを減らせるとも指摘している。一部の情報源は、こうした新しいモデルを使うことで、FLOP、すなわち計算量を最大75％削減できると見積もっている。

MLLMの設計領域の中では、さらに新しい専門用語が登場している。たとえば、トークン・スパース化（token sparsification、トークンの間引き）あるいはトークン圧縮（compression）という考え方がある。GitHubのあるページからの説明を引用する。

「トークン圧縮とは、MLLMが処理する視覚トークン（画像を分割した最小単位）の数を減らしつつ、モダリティ間（テキストと画像など）の重要な意味を保持する手法であり、大きな精度低下を伴わずに、より効率的な学習と高速な推論を可能にする。この分野はエンコーダー、プロジェクター、LLM側の各技術にまたがって断片化しており、一元化された検索可能なリソースが必要とされている」。

さらに、構造的プルーニング（structural pruning、不要な部分の枝刈り）や知識蒸留（knowledge distillation、大きなモデルの知識を小さなモデルに移す手法）（参考論文）といった、同様の目的を持つ手法もある。エンジニアたちは、これらのモデルの効率を高めるためのさまざまな方法を見いだしている。注意機構（attention mechanism、入力のどの部分に重点を置くかを決める仕組み）についても多くの研究が進んでいるが、それはまた別の記事で取り上げるべきテーマだろう。

したがって、MLLMという文字列は一見ローマ数字のように見えるかもしれないが、LLMの流れを受け継ぐものとして大きな可能性を秘めている。今年、そして今後数年のうちに、この言葉を耳にする機会はかなり増えるだろう。

（forbes.com 原文）