【重要なお知らせ:当社を装った偽サイトにご注意ください】

AI

2025.02.04 18:10

スマホでも動くSakana AIのSLM「TinySwallow-1.5B」、その画期的な学習手法

プレスリリースより

プレスリリースより

ChatGPTやGeminiなどの大規模言語モデル(LLM)を含む生成AIの高い利便性が一般に知れ渡り、私たちの生活をずいぶん変わった。しかしこれらの生成AIは、膨大な計算を高速に熟さなければならず、学習や運用に大きくて高性能なコンピューターを必要とし、それだけ多大な電力も消費する。

それに対して同時に開発が進められているのが、小規模言語モデル(SLM)に代表される効率と使い勝手を重視した小さな生成AIだ。スマホやパソコンなどの端末デバイスにインストールしてオフラインでも利用できるコンパクトなサイズで、音声アシスタントや自動翻訳といった特定の目的に使用される。ただしSLMは、LLMから知識を学ぶ仕組みになっているのだが、どう学ぶかが課題となっていた。

日本のIT企業Sakana AI(サカナエーアイ)がこのほど発表した、非常に高性能な小規模日本語言語モデル「TinySwallow-1.5B」は、「TAID」という画期的な学習方法が取り入れられている。むしろ、TAIDの実用性を実証するための言語モデルということだ。TAID(Temporally Adaptive Interpolated Distillation:時間適応型補間蒸留)は、Sakana AIが開発した新しい「知識蒸留」の手法。知識蒸留とは、大規模言語モデルから小規模言語モデルへ知識を移す方法のことだが、単に最適解を詰め込むのではなく、それに加えて文脈的に自然な選択肢も示す。つまり「物の考え方」を教えることで理解を深めるという考え方だ。
「Sakana AI develops efficient methods for __」の下線部の単語を予測する課題で、知識蒸留は最適解のほかに文脈的に確率の高いものも示して知識を深めさせる。

「Sakana AI develops efficient methods for __」の下線部の単語を予測する課題で、知識蒸留は最適解のほかに文脈的に確率の高いものも示して知識を深めさせる。


また、より大きくて高性能な大規模言語モデルが教師として最適とは限らないという指摘がある。大学の大先生の講義を小学生が理解できないのと同じで、そのギャップが大きいと学習効率が落ちてしまう。
実際に従来の知識蒸留と比較したところ、TAIDは教師のサイズ(パラメータ数)に沿って学習が進んでいるのに対して、従来方法では隔たり、または低下が見られる。

実際に従来の知識蒸留と比較したところ、TAIDは教師のサイズ(パラメータ数)に沿って学習が進んでいるのに対して、従来方法では隔たり、または低下が見られる。


次ページ > AIにも人間と同じように教えることが重要

文 = 金井哲夫

タグ:

advertisement

ForbesBrandVoice

人気記事