AI

2024.03.27 10:00

なぜ日本語に強い? NTTの大規模言語モデル「tsuzumi」の勝ち筋

安井克至
アダプタチューニングの考え方や技術は一般的なものだが、学習させるデータの重み付けや、前処理により重複するデータのゴミをクリーンナップしたり、学習効率を最大化するための知見はNTT研究所に1日の長がある。

NTT研究所では「マルチアダプタ」の技術を将来、確立するための研究開発にも力を入れている。

通常、70億パラメータのtsuzumiを運用するためにはGPUが1枚が必要だ。もう1つ別の学習データをアダプタとして加えながら、tsuzumiをオンプレミスで運用する場合には、ベースラインになるtsuzumiとGPUを導入したマシンを別途用意しなければならない。もしある企業が営業部、管理部、開発部などのセクションごとに言語モデルを導入するとなれば、その分ランニングコストも大きくなる。

言語と視覚を組み合わせたモーダル拡張の実施例。グラフや名刺に入力されているデータを「位置関係」で視覚的に読解することにより、正しい回答が速く得られる

言語と視覚を組み合わせたモーダル拡張の実施例。グラフや名刺に入力されているデータを「位置関係」で視覚的に読解することにより、正しい回答が速く得られる

マルチアダプタの技術を使うと1つのtsuzumiのベースラインに複数のアダプタが接続できる。導入する企業は特定の組織や役職・権限に応じて、よりきめの細かなチューニングを低コストで可能になる。

宮崎氏が知る限り、今のところマルチアダプタはNTT研究所による独自のアプローチであるという。tsuzumiの商用化後、どれぐらいの時期にマルチアダプタの提供開始が実現できるのか見通しはまだ立っていないが、その動向には間違いなく注目が集まるだろう。

スマホやロボットへの搭載、次世代通信技術IOWNとの連携は?

今後のtsuzumiに関連する研究開発のテーマについても宮崎氏に聞いた。

例えば人間は文書を読む時に、書かれているテキストの内容だけではなく、テキストが配置されている位置や色など視覚情報も含めて内容を理解する。tsuzumiはテキストに音声、画像、センサ情報など、種類が異なる複数の入力情報を組み合わせて能力を引き出すマルチモーダル対応を追求する。

宮崎氏は、NTT研究所では自然言語処理に限らず音声や画像の解析処理、人流などさまざまな調査のデータを保有している。これらを言語モデルに掛け合わせれば、新しい価値を生み出せるかもしれない。

「直近では図表やグラフなど、文書内にある画像の視覚的読解について多くの問い合わせいただいています。まだ実用化には至っていませんが、NTTグループはこの分野でかなり先を行く技術を所有している」のだと、宮崎氏が胸を張る。
次ページ > どのようなユーザー体験と社会的価値を生み出せるのかを考えることが大事

編集=安井克至

タグ:

ForbesBrandVoice

人気記事