AI

2025.11.20 10:56

生成AIの常識を覆す:純粋テキストではなくテキスト画像をトークンとして使う革新的アプローチ

Adobe Stock

Adobe Stock

今回のコラムでは、生成AIと大規模言語モデル(LLM)の従来の設計を根本から覆す、非常に革新的なアイデアについて検討します。簡単に言えば、生成AIが純粋なテキストを受け取る代わりに、テキストをまず画像として捉え、その画像をAIに入力するという大胆な発想です。

何だって?

LLMの技術的基盤に精通している人なら、これは完全に奇妙で直感に反するように思えるでしょう。すでにこれは意味がないと声を上げているかもしれません。理由はこうです。LLMは英語などの自然言語を扱うように設計されており、したがってテキストを豊富に使用します。テキストは通常、私たちがLLMにプロンプトを入力し、質問を入力する方法です。実際のテキストの代わりにテキストの画像を使用するという選択は、突飛な概念に違いありません。異端的です。

しかし、心して聞いてください。真摯な研究者たちがこのアプローチを試み、真剣に注目すべき価値があるのです。

詳しく見ていきましょう。

このAIブレークスルーの分析は、私のForbesコラムで継続的に取り上げているAIの最新動向の一部であり、様々な影響力のあるAIの複雑さを特定し説明しています(こちらのリンクをご覧ください)。

トークン化が重要

この問題の核心は、現代の生成AIとLLMのトークン化の側面にあります。トークン化の詳細についてはこちらのリンクで説明しています。ここでは簡単な概要を説明します。

AIにテキストを入力すると、そのテキストはさまざまな数値に変換されます。これらの数値はその後、プロンプトの処理全体を通じて扱われます。AIが回答に到達すると、その回答は実際には数値形式であり、ユーザーが読めるようにテキストに戻す必要があります。AIはその数値をテキストに変換し、それに応じて応答を表示します。

この全プロセスがトークン化として知られています。入力したテキストは一連の数値にエンコードされます。これらの数値はトークンと呼ばれます。数値、つまりトークンはAIを通じて流れ、質問の回答を導き出すために使用されます。応答は最初は数値形式のトークンであり、テキストに戻すためにデコードする必要があります。

幸いなことに、一般ユーザーはトークン化プロセスを意識する必要はありません。知る必要もないのです。この話題はAI開発者にとっては非常に興味深いものですが、一般の人々にとってはあまり関心がないでしょう。AIが処理を遅らせないよう、エンコードとデコードのプロセスをできるだけ高速化するために、さまざまな数値的トリックがよく使われています。

トークンは問題

一般の人々はLLMのトークン化の側面について通常知らないと述べました。しかし、それは必ずしも当てはまりません。AIを限界まで使用した経験がある人なら、トークンとトークン化についてなんとなく知っているでしょう。

問題はこうです。

OpenAIのChatGPTやGPT-5、Anthropic Claude、Meta Llama、Google Gemini、xAI Grokなど、現代のLLMのほとんどは、一度に適切に処理できるトークン数によってある程度制限されています。ChatGPTが最初に登場したとき、1回の会話で許可されるトークン数はかなり限られていました。

ChatGPTが突然、会話の前半部分を思い出せなくなるという不愉快な発見をすることになりました。これはAIが一度に存在できるアクティブなトークン数の壁に突き当たったためです。会話の前半部分のトークンは容赦なく捨てられていたのです。

長く複雑な会話をしていた場合、これらの制限は苛立たしく、生成AIの大規模な使用はほぼ不可能でした。比較的短い会話に限られていたのです。同様の問題は、RAGなどの方法でテキストをインポートした場合にも発生しました(こちらのリンクでの私の説明を参照)。テキストはトークン化され、再びAIが処理できるアクティブなトークン数の閾値にカウントされました。

生成AIを大規模な問題解決に使用する夢を持っていた人々にとって、これは非常に苛立たしいことでした。

制限は高くなったが依然として存在する

ChatGPTの初期バージョンでは、一度にアクティブにできるトークン数が10,000未満という制限がありました。トークンを「the」や「dog」などの小さな単語と考えると、会話が約1万語の単純な単語を消費した時点で限界に達したことになります。当時、長文や複雑な用途には耐えられないものでした。

現在、GPT-5の標準バージョンは約40万トークンのコンテキストウィンドウを持っています。これは入力トークンと出力トークンを合わせた総容量と考えられています。コンテキストウィンドウのサイズは様々です。例えば、Claudeの一部モデルでは約20万トークンの制限がありますが、他のモデルでは約50万トークンまで拡張されています。

未来の先見的な見方では、許可されるトークン数に関連する制限はなくなるでしょう。いわゆる無限または無限のメモリに関する最先端の研究が行われており、事実上どんな数のトークンも可能にするでしょう。もちろん、実用的な意味では、サーバーメモリには限りがあるため、真に無限ではありませんが、その主張は魅力的でかなり妥当です。AIの無限メモリの仕組みについての私の説明は、こちらのリンクをご覧ください。

トークン問題への対処

トークン化はほとんどのLLMの設計と使用の核心にあるため、トークン化の側面を最適化するための多大な努力が精力的に行われてきました。可能であればトークンを小さくし、システムのメモリ制約内でより多くのトークンが存在できるようにすることが目標です。

AI設計者は繰り返しトークンの圧縮を追求してきました。それは大きな助けになる可能性があります。トークンウィンドウが通常20万トークンに制限されている場合、各トークンを通常のサイズの半分に縮小できれば、制限を40万トークンに倍増できます。素晴らしいですね。

トークンの圧縮には厄介な問題があります。確かにサイズを縮小できることが多いですが、そうすると精度が損なわれます。それは悪いことです。それほど悪くないかもしれませんが、依然として機能し使用可能です。どれだけの精度が犠牲になるかによります。

理想的には、可能な限り最大の圧縮を実現し、100%の精度を維持したいところです。それは高い目標です。圧縮レベルと精度の精確さのバランスを取る必要があるでしょう。人生のほとんどのことと同様に、タダの昼食はありません。

驚くべき発想

枠を超えた思考をしてみましょう。

LLMの通常のアプローチは、純粋なテキストを受け入れ、テキストをトークンにエンコードし、楽しく進めることです。トークン化について考え始める際、ほぼ常に論理的かつ自然に、ユーザーからの入力は純粋なテキストであると仮定します。彼らはキーボードからテキストを入力し、そのテキストがトークンに変換されます。それは単純なアプローチです。

他に何ができるか考えてみましょう。

一見すると場違いに思えますが、テキストを画像として扱うとどうでしょうか。

テキストの写真を撮り、それを光学的にスキャンして画像として保持するか、後でテキストに変換できることはご存知でしょう。このプロセスはOCR(光学式文字認識)として長年知られています。OCRはコンピュータの初期の頃から存在しています。

通常のOCRプロセスは画像をテキストに変換することで、画像からテキストへと呼ばれます。時には逆のことをしたい場合もあります。つまり、テキストがあり、それを画像に変換したい場合は、テキストから画像への処理です。画像からテキスト、テキストから画像を喜んで行う既存のソフトウェアアプリケーションは数多くあります。それは古くからの手法です。

LLMとトークン化に関するこの奇抜なアイデアを見てみましょう。

人々はまだテキストを入力しますが、そのテキストを画像に変換します(つまり、テキストから画像へ)。次に、テキストの画像がトークンエンコーダによって使用されます。したがって、純粋なテキストをエンコードするのではなく、エンコーダはテキストの画像に基づいてエンコードします。AIがユーザーに応答する準備ができると、トークンはトークンからテキストに変換され、画像からテキストへの変換を利用します。
ドーン、マイクドロップ。

驚きの理解

おや、と思うかもしれませんが、この画像を使った遊びは何の役に立つのでしょうか?

画像からトークンへの変換によって、より小さなトークンを実現できれば、トークンを圧縮できる可能性があります。これにより、限られたメモリの範囲内でより多くのトークンを持つことができるかもしれません。トークンの圧縮が私たちの心に重くのしかかっていることを忘れないでください。

最近投稿された研究「DeepSeek-OCR: Contexts Optical Compression」(Haoran Wei、Yaofeng Sun、Yukun Li、arXiv、2025年10月21日)では、以下のような主張がなされています(抜粋):

  • 「文書テキストを含む単一の画像は、同等のデジタルテキストよりも実質的に少ないトークンで豊富な情報を表現できることから、ビジョントークンを通じた光学的圧縮がはるかに高い圧縮率を達成できる可能性があります。」
  • 「この洞察は、人間が優れている基本的なVQAではなく、ビジョンエンコーダがテキスト情報の処理におけるLLMの効率をどのように向上させるかに焦点を当てた、LLM中心の視点からビジョン言語モデル(VLM)を再検討するよう促します。」
  • 「OCRタスクは、視覚と言語を橋渡しする中間モダリティとして、視覚的表現とテキスト表現の間に自然な圧縮-解凍マッピングを確立しながら、定量的評価指標を提供するため、このビジョン-テキスト圧縮パラダイムの理想的なテストベッドとなります。」
  • 「私たちの方法は、多様な文書レイアウトを特徴とするFoxベンチマークにおいて、9-10倍の圧縮で96%以上のOCRデコード精度、10-12倍の圧縮で約90%、20倍の圧縮で約60%を達成しています(出力と正解の間のフォーマットの違いを考慮すると、実際の精度はさらに高くなります)。」

上記のように、実験的な研究では、10倍小さい圧縮率が時に96%の精度で達成できることが示唆されています。これが全体的に実現できれば、現在のトークンウィンドウの制限が40万トークンである場合、その制限は400万トークンに引き上げられる可能性があります。ただし、96%の精度率となります。

96%の精度は、AIの使用目的によっては許容できるかできないかもしれません。少なくとも今のところ、タダの昼食は得られません。20倍の圧縮率はさらに良いですが、60%の精度はかなり魅力的でないように思えます。それでも、60%を20倍の増加のために渋々受け入れる状況もあるかもしれません。

著名なAI研究者のAndrej Karpathy氏は、このアプローチ全体について最初の考えをオンラインで投稿しました:「新しいDeepSeek-OCR論文はかなり気に入っています。それは良いOCRモデルです(おそらくdotsよりは少し劣りますが)、そしてはい、データ収集などがありますが、とにかくそれは重要ではありません。私にとってより興味深い部分(特に一時的に自然言語の人物を装っている心の中のコンピュータビジョン専門家として)は、ピクセルがLLMへの入力としてテキストよりも優れているかどうかです。テキストトークンが無駄で単に恐ろしいかどうか、入力において。おそらくLLMへのすべての入力は画像だけであるべきだということが理にかなっているのかもしれません。」(出典:Twitter/X、2025年10月20日)。

ブレインストーミングは有用

この研究では、多数の自然言語も試されました。これは画像を使用することの別の価値です。ご存知のように、絵文字や単語を使用する自然言語があります。それらの言語は、トークン化の画像ベースの方法に特に適しているように思えます。

もう一つの興味深い側面は、すでにVLM(ビジュアル言語モデル)があり、テキストそのものではなく視覚的な画像を扱うAIがあることです。LLMでも同様のことをするために車輪を再発明する必要はありません。VLMで機能したものを借用し、LLMでの使用に再調整するだけです。それは頭脳全体を使い、可能な場合は再利用を活用することです。

このアイデアは認識と追加の掘り下げに値します。すべてのLLMがこの種の方法に切り替える必要があると宣言して回るべきではないでしょう。まだ判断は下されていません。これがどこまで進むか、そしてメリットとデメリットの両方を理解するために、さらなる研究が必要です。

その間、少なくともこの大胆な宣言をすることができます:「時には、一枚の絵が本当に千の言葉の価値がある」のです。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事