大規模言語モデルの性能を担保しながら軽量化を図るためには、アルゴリズムの練度を高めることも大切だが、機械学習に用いる「データの質」も大きく影響する。NTTは正しく整理された日本語のデータを用意して、効率よく学習させることに時間を費やした。「泥臭い前処理も発生するが、どのようにすれば日本語の良質なデータが得られるのか、NTTには豊富なエンジニアリングの知見があった」と宮崎氏は振り返る。
例えば英語には単語を区切る「スペース」が存在するが、日本語にはこれがない。だから、日本語のテキストを言語上の最小単位である「形態素」に分解して細かく解析する。その基本処理段階では、NTT研究所が長年蓄えてきた知見と良質な辞書データが活きた。独自のアプローチから入力データをセグメント分けする機構をつくり、日本語の意味に正しくひも付くデータベースをNTT研究所は根気よく構築してきた。
特殊業務にも導入しやすい柔軟なカスタマイズ性能
tsuzumiは特定の業界に固有の言語表現や知識に対して、低コストで特化させられる大規模言語モデルなのだと宮崎氏が説く。今後、多くの企業が大規模言語モデルを導入し、業務に活用する段階では多くの場合が「うちの会社の、この業務に特化して精度を上げたい」というニーズが高まることも予測される。
ある特定の用途や業務に適した知識は、大規模言語モデルの巨大なデータベースに内包されている。大規模言語モデルに、特定の用途に向けた新しい知識を覚えさせることはもちろん可能だ。ところがすでに規模の大きな言語モデルに再学習をさせると、大きな学習コストの負担が生まれる。特定業務への依存性が高い特殊なデータは数が多いわけではないことから、投資に見合う対価が見込みづらい。宮崎氏によると、特殊な学習データが従来から存在する膨大な学習データの中に埋もれてしまうケースも見られるという。
NTT研究所ではアダプタチューニングを使って効率的に知識を学習させることで、tsuzumiをカスタマイズ性能に富んだ大規模言語モデルにする道を選択した。事前に学習を済ませたモデルの外部に「アダプタ」というサブモジュールを追加。チューニング時にはベースラインにある学習済みのモデルはパラメータを固定したまま、アダプタのパラメータのみを学習・更新する。計算コストの負担になるベースモデルの再学習を行わずに新たな知識を追加できることから、業界に特化したカスタマイズが低コストで実現する。