2024.03.27 10:00

なぜ日本語に強い？　NTTの大規模言語モデル「tsuzumi」の勝ち筋

山本敦 | Official Columnist ITジャーナリスト・ライター

著者フォロー

記事を保存

日本電信電話株式会社サービスイノベーション総合研究所/人間情報研究所主幹研究員の宮崎昇氏にインタビューした

NTTグループのNTT人間情報研究所の中に組織されている思考処理研究プロジェクトでは、同所が長く培ってきた自然言語処理や音声認識、音声合成に関する研究成果を基にNTT独自の大規模言語モデル「tsuzumi（ツヅミ）」の研究開発を進めている。

軽量でありながら世界トップクラスの日本語処理性能を持つというtsuzumiは、NTTグループ発の商用サービスとして3月25日に提供開始された。その特徴と今後に向けた展開を主幹研究員である宮崎昇氏に聞いた。

日本の企業が導入しやすい大規模言語モデル

近年登場したさまざまな生成AIの中でも、特にOpenAIのChatGPTやGoogleのGeminiに代表される対話型AIが関心を呼んでいる。

一般に対話型AIを実現する言語モデル（LLM）は、巨大なデータセットと計算リソースによる学習を積み重ねながら作られる。その規模を示す1つの指標である「パラメータ」が大きくなると、言語モデルがより複雑なタスクをこなしたり、豊かな表現力を得ると言われている。

だが言語モデルの規模拡大にともない、学習と運用のためのコストも膨らむ。加えて企業が大規模言語モデルに基づく生成AIを業務に導入して、ビジネスに資する形にするためには、業界に特化したチューニングや推論モデルの構築も欠かせない。つまりは大きな経済的負担が発生するのだ。

NTTのtsuzumiは70億パラメータの軽量版が1GPUで、6億パラメータの超軽量版はCPUで高速に推論動作ができるため、実用上必要となる追加学習や推論に必要なコストが抑えられる。画像は1750億パラメータのOpenAIによるGPT-3に対するサイズを比較したグラフ

なぜ日本語処理に強いのか

NTTでは自然言語処理に関連する独自の研究開発を40年以上に渡って続けてきた。2022年11月に高度な応答を交わせるChatGPTが発表された当時、宮崎氏は「他社が作った大規模言語モデルの上に研究を重ねたところで、この技術を本当に手中にしたことにならない」という危機感を抱き、NTT研究所もゼロから構築した自前のテクノロジーによる大規模言語モデルを持つべきという考えに至ったという。

以後、独自の大規模言語モデルを構築するために学習データの整備など進めてきた。tsuzumiという名前は小型軽量であり、筐体の"調べ（ひも）”を調整して音の高さや響きをカスタマイズできる伝統的な楽器「鼓（つづみ）」に由来している。

次ページ＞特殊業務にも導入しやすい柔軟なカスタマイズ性能