パート1:革命のはじまり
━━LLM(大規模言語モデル)の基礎となったTransformerモデルを提唱した論文「Attention is All You Need」。Google ResearchとGoogle Brainの8人の共著者によって2017年6月に発表されたこの論文は、発表の場でも反響があったと聞きます。共著者の一人として、ライオンさんはその反響をどのように受け止めていましたか?
ライオン・ジョーンズ(以下、ジョーンズ): 正直に言うと、あの論文(「Attention is All You Need」)を巡る熱狂の多くは、論文がGoogle ResearchやGoogle Brainから出てきたからだと思っています。Googleの動向には多くの人が注目していますからね。もし他の誰かが同じ論文を発表していても、見過ごされたか、あれほど話題にならなかった可能性は十分にあると思っています。Google発であることも成功の大きな要因だったはずです。
Transformerモデルに注目し、さまざまな用途に応用し始めたのは(開発者ではなく)コミュニティでした。じつは今、同じようなことが起きています。「KAN」と呼ばれるニューラルネットワークの新しいアプローチがあるのですが、コミュニティがいろいろなことに試しているのです(編集部註:Kolmogorov-Arnold Network;より賢く、より解釈しやすく、より少ないパラメータで機能する可能性を秘めた次世代のニューラルネットワーク)。うまくいく場合もあれば、そうでない場合もありますが、きちんと扱えば、ほとんどの場合は既存の技術と遜色ない性能を発揮します。
発表当初、Google発の論文だったことから一定の注目は集めましたが、それがこれほど大きなインパクトをもたらすとは、まだ誰も確信していなかったと思います。「この問題にTransformerを試してみたら、ずっと性能が良くなった」という論文がぽつりぽつりと出始めました。画像や音声に関する研究もありましたが、最終的にはあらゆる分野へと応用が広がっていったのです。一人、また一人と「試してみよう。おお、すごく良くなったぞ!」と試行錯誤を繰り返すうちに、「じゃあ、今度はこれも。これもすごく良くなった!」というかたちで、成功事例が少しずつ積み重なっていきました。
そうした論文が増えるにつれて、どんどん勢いがついていき、試した人がさらに別の研究へと応用して論文を引用するという好循環が生まれ、Transformerは一気に広まっていったのです。少なくとも、それが私の受けた印象です。
━━耳目を集める論文が出てくると、社内の製品やサービスに応用しようとするものだと思います。ところがOpenAIがGoogleに先んじて2018年6月に「GPT-1」を発表していますね。イリヤ・サツケバー氏(Ilya Sutskever;OpenAI共同創業者で、当時はチーフサイエンティスト。現在はSafe Superintelligence共同創業者兼CEO)は、あなたがたの動向を注意深く追っていたのでしょう。あるいはお互いにかもしれません。あなたがたも「Transformer論文」で、彼の論文を引用していましたからね。
ジョーンズ:ええ、ルカシュ・カイザー(Łukasz Kaiser;当時、Google Research所属でTransformer論文の共著者。現OpenAI勤務)とイリヤ・サツケバーがとても親しいことは、今ではよく知られています。彼らは「Neural GPU」というものに取り組んでいました。そして、その種の汎用的なアルゴリズミック学習モデルが、Transformerモデルのインスピレーションの一つであったことは間違いありません。


