軽量でありながら世界トップクラスの日本語処理性能を持つというtsuzumiは、NTTグループ発の商用サービスとして3月25日に提供開始された。その特徴と今後に向けた展開を主幹研究員である宮崎昇氏に聞いた。
日本の企業が導入しやすい大規模言語モデル
近年登場したさまざまな生成AIの中でも、特にOpenAIのChatGPTやGoogleのGeminiに代表される対話型AIが関心を呼んでいる。一般に対話型AIを実現する言語モデル(LLM)は、巨大なデータセットと計算リソースによる学習を積み重ねながら作られる。その規模を示す1つの指標である「パラメータ」が大きくなると、言語モデルがより複雑なタスクをこなしたり、豊かな表現力を得ると言われている。
だが言語モデルの規模拡大にともない、学習と運用のためのコストも膨らむ。加えて企業が大規模言語モデルに基づく生成AIを業務に導入して、ビジネスに資する形にするためには、業界に特化したチューニングや推論モデルの構築も欠かせない。つまりは大きな経済的負担が発生するのだ。
なぜ日本語処理に強いのか
NTTでは自然言語処理に関連する独自の研究開発を40年以上に渡って続けてきた。2022年11月に高度な応答を交わせるChatGPTが発表された当時、宮崎氏は「他社が作った大規模言語モデルの上に研究を重ねたところで、この技術を本当に手中にしたことにならない」という危機感を抱き、NTT研究所もゼロから構築した自前のテクノロジーによる大規模言語モデルを持つべきという考えに至ったという。以後、独自の大規模言語モデルを構築するために学習データの整備など進めてきた。tsuzumiという名前は小型軽量であり、筐体の"調べ(ひも)”を調整して音の高さや響きをカスタマイズできる伝統的な楽器「鼓(つづみ)」に由来している。