2026.05.26 11:30

マルチモーダルLLMとは何か、なぜ台頭するといえるか

John Werner | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

AIの世界に新しい専門用語が登場している。ただし、これは単なる細かな言葉の問題ではない。よく知られた略語に、見慣れた文字をひとつ加えたものだ。そう言うと軽い話のように聞こえるかもしれないが、この動きに追いつこうとすると、どこか既視感を覚えるかもしれない。

試しに「LLMM」を普通に検索してみるとよい。グーグルのGeminiやBingのCopilotがAIによる概要で説明してくれる場合を除けば、あまり多くの結果は出てこない。

だが「MLLM」で検索すると、もう少し結果は出てくる。IBMのページや学術論文、GitHubのページなどが見つかるかもしれない。しかし、Multimodal Large Language Model、すなわち「マルチモーダル大規模言語モデル」、あるいは一部でLarge Language Multimodal Modelと呼ばれる考え方は、CNBCやニューズウィークのような一般メディアに広く浸透しているとはまだ言いがたい。今のところ、それはまだ本物の技術好きの領域にとどまっている。

マルチモーダル大規模言語モデルとは何か

マルチモーダル大規模言語モデルの本質的な概念は、異なる種類のデータを扱うことができるという点にある。ただしそれは特定の設計手法を通じて実現されるという含意がある。博士課程の研究者でエンジニアでもあるセバスチャン・ラシュカは、自身の自主運営プラットフォーム上で、MLLMを次のように定義している。

「マルチモーダルLLMとは、複数の種類の入力を処理できる大規模言語モデルのことであり、それぞれの『モダリティ』とは、テキスト（従来のLLMと同様）、音声、画像、動画など、特定の種類のデータを指す」。

機械がこれを実現するのは、何らかの洗練された蒸留（モデル圧縮の一手法）のような形によるものだろうと考えるなら、それは正しい。だがそこにはもう1つの要素もある。ある意味では、エンジニアたちは古典的な機械学習の技術という「井戸」に戻って、中枢の「脳」としてのLLMの能力を高めようとしているように見える。

その出発点となるのが、マルチモーダルなデータを取り込むために、LLM本体にセンサー類のツールを取り付けることである。

「最近の研究では、マルチモーダル大規模言語モデル（MLLM）が、視覚的プロンプト（画像化された指示）を用いて現実世界のセンサーデータと結びつけられることで、センサー機器（IoTセンサー、ウェアラブル、カメラなど）によって機能を強化できることが示されている」と、この種の研究の先駆けである「By My Eyes」と題された論文の要旨は説明している。著者らはこう書いている。

「私たちは、対象とするセンサータスクの記述とともに、視覚化されたセンサーデータをMLLMに活用させるよう導く視覚的プロンプトを設計する。さらに、与えられたセンサータスクに最適な視覚化を自動的に生成する視覚化ジェネレーターを導入することで、事前にタスク固有の知識を必要としないようにする」。

次ページ＞「見ること」による学習