2026.02.27 09:38

LLMを賢くするTransformer、その画期的な意義とは

John Werner | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

AdobeStock

実際のところ、LLM（大規模言語モデル）は何をしているのか。LLMは、進化し続けるチャットボットを動かしている。記憶や推論、認知の力を備え、まるで実在の人間のように話すAIの「エンティティ」だ。画像の処理であれ、入力された1文の処理であれ、その力は発揮される。

ここに至るまでに、コンピュータサイエンスのコミュニティを導いたアーキテクチャについて少し話そう。とりわけ、現代のコンピュータサイエンスには「Transformer（トランスフォーマー）」と呼ばれるものがある。これは二重の意味を持つ言葉であるべきだ。入力を変換するだけでなく、ニューラルネットワークの性質そのものを根本から変えたからである。

その仕組みはこうだ。Transformer以前は、基本的には重み付けされた入力の集合があった。誤差逆伝播を強化するためにLSTM（Long Short-Term Memory：長・短期記憶ネットワーク）も使われていた。しかし、LLMの推論、そして要するに注意（attention）に関しては、なおかなり厳しい限界が存在していた。

その1つが「主語の問題」だった。LLMは文をトークンに分解し、並び順を見ながら次トークンを予測できる。しかし、人間のように「it」が何を指すのかを理解するところまでは踏み込めなかった。入力文が例えば「The fluffy cat chased the squirrel over the fence（ふわふわの猫がフェンス越しにリスを追いかけた）」のような場合、文の主要な主語が猫なのか、リスなのか、フェンスなのかを判断するのが難しかった。文脈と高度な注意の仕組みが欠けていたのだ。そこで登場したのがTransformerである。Transformerは4つの中核的な設計改善、すなわち位置エンコーディング、自己注意（self-attention）、マルチヘッド注意（multi-head attention）、エンコード／デコードの仕組みをもたらした。LLMはそれ以降、まったく別物になった。

ダボスでTransformerを称える

ダボスで開催された「Imagination in Action」イベントでは、UBSグローバル・ウェルスのグローバル株式CIOであるウルリケ・ホフマン＝ブルハルディと、このきわめて著名な論文の共著者であるリオン・ジョーンズが、Transformerの歴史、とりわけこの画期的な科学に関するジョーンズの仕事について語り合った（免責：筆者はスイスの会議に合わせて開催される、AIに関する無料カンファレンス「Imagination in Action」の運営を手伝っている）。

「2017年当時、それがどれほどのブレークスルーに感じられたかといえば、正直、私は大したことだとは思っていなかった」とジョーンズは言う。当時、彼はチームとともにこの技術に取り組んでいた。「共著者の中には、最初から大きなことだと分かっていたと言う人もいるが、それ以降の影響の大きさには私自身驚いている」

ただしジョーンズは、自身の研究の一部についても説明した。LLMの構成を変えることで、文脈把握が大きく向上することを見出したという。

「それまで存在しなかったものが見えた」と彼は言う。「多くの実験を行った後、注意（attention）が各層で具体的に何に向いているのかを可視化するコードを書いた。すると、驚くほど解釈しやすい層が1つあり、共参照解析（co-reference resolution）と呼ばれることをしていた。つまり『it』や『she』や『her』といった語が、実際には何を指しているのかを割り出していたのだ」

ウィノグラード・スキーマ──勝利の鍵

ジョーンズは、Transformerがウィノグラード・スキーマの扱いにおいて成功し得ることに言及した。これを知らなくても気にする必要はない。2012年にヘクター・レベスクが提唱したウィノグラード・スキーマは、元来のチューリングテストの概念に、いわば翼を与えたものだ。別の言い方をすれば、ウィノグラード・スキーマは、Transformerが文脈を扱う力を示すのに役立つ。

科学的に説明すると、テストの候補プログラムは、曖昧な代名詞の先行詞（antecedent）を特定しなければならない。これを元来のチューリングテストと比べてみよう。歴史家が指摘するように、元来のチューリングテストは「模倣ゲーム」に重きがあった。初期のシステムは、人間の利用者をだまして、人間と会話していると思わせることができた。しかしAIの時代となり、人間側はより警戒するようになった。したがって、現代のチューリングテストは、ハードルを引き上げる必要がある。

「私たちは、翻訳を学ぶだけで、そうした類いのことを自動的に解いてしまうものを、どういうわけか作り上げた」とジョーンズは、ウィノグラード・スキーマの問題について語った。

翻訳以外の応用について話す中で、彼は「Transformer」という言葉の3つ目の定義も示した。

「『Transformer』という名前は、あらゆるデータを、別のあらゆるデータへと一般的に変換できるものを作ろうとしていたことに由来する」と彼は言う。

継続学習の力

講演の後半でジョーンズは、プロセスに関わる「継続学習（continual learning）」と呼ばれる概念を説明した。

「研究の世界で、継続学習が2026年に人々が取り組み、語り合うテーマになるといううわさを耳にしている」と彼は言った。

ある意味でジョーンズは、Transformerを、LLMが学習するのを支える仕組みだと捉えているという。

「私は、Transformerは学習していると確信している」と彼は言う。「最初はタスクができないが、訓練の終わりにはできるようになる。私はそれを学習だと考える」

しかし彼は、現在のシステムがなおどれほど先へ進む必要があるかについての見解も対比させた。

「本質的に、ChatGPTのようなものは、訓練が終わった後には何も学ばない」と彼は言う。「だが、学ぶべきではないだろうか。人間のように学ぶべきだ。何かを経験したなら、そこから学ぶべきだし、次はそれをしないようにと言われたら、それから学ぶべきだ。継続学習は、私たちにそうしたことを可能にしてくれる。そして相互作用からのフィードバック機構を持てるのは、明らかに大きなブレークスルーになる」

その後2人は、学習の保管庫、因果関係、オープンエンドな探索といった考え方にも触れた。

「試せることがたくさん、手の届くところにある」とジョーンズは言う。「だが私たちは、入力を足し合わせ、活性化関数を通すという、文字通り最も単純なバージョンに行き詰まっている。このモデルは文字通り75年前のものだ。だから私は、もう少し脳に近いものに見える何かを見つけることで進歩が見たい。そして、私たちが話してきたこれらの性質のいくつかは、そこから自然に出てくるはずだと思っている」

要するに、Transformerによって技術は大きく前進した。しかし、多くの人がAGI（汎用人工知能）と呼ぶものに向けて前進するには、なお長い道のりがある。Metaの元チーフAIサイエンティストであるヤン・ルカンのように、もっとニュアンスのある別の呼び方を望む人もいる。というのも、専門家がしばしば主張するように、現在のAIはギザギザしたフロンティアであり、LLMは非常に得意なこともあれば、かなり苦手なこともあるからだ。人間と同じように、強みと弱みがある。やがて人々は、面接でこうしたタイプの評価についてLLMに尋ねるようになるかもしれない。

（forbes.com 原文）