NTT研究所では「マルチアダプタ」の技術を将来、確立するための研究開発にも力を入れている。
通常、70億パラメータのtsuzumiを運用するためにはGPUが1枚が必要だ。もう1つ別の学習データをアダプタとして加えながら、tsuzumiをオンプレミスで運用する場合には、ベースラインになるtsuzumiとGPUを導入したマシンを別途用意しなければならない。もしある企業が営業部、管理部、開発部などのセクションごとに言語モデルを導入するとなれば、その分ランニングコストも大きくなる。
マルチアダプタの技術を使うと1つのtsuzumiのベースラインに複数のアダプタが接続できる。導入する企業は特定の組織や役職・権限に応じて、よりきめの細かなチューニングを低コストで可能になる。
宮崎氏が知る限り、今のところマルチアダプタはNTT研究所による独自のアプローチであるという。tsuzumiの商用化後、どれぐらいの時期にマルチアダプタの提供開始が実現できるのか見通しはまだ立っていないが、その動向には間違いなく注目が集まるだろう。
スマホやロボットへの搭載、次世代通信技術IOWNとの連携は?
今後のtsuzumiに関連する研究開発のテーマについても宮崎氏に聞いた。例えば人間は文書を読む時に、書かれているテキストの内容だけではなく、テキストが配置されている位置や色など視覚情報も含めて内容を理解する。tsuzumiはテキストに音声、画像、センサ情報など、種類が異なる複数の入力情報を組み合わせて能力を引き出すマルチモーダル対応を追求する。
宮崎氏は、NTT研究所では自然言語処理に限らず音声や画像の解析処理、人流などさまざまな調査のデータを保有している。これらを言語モデルに掛け合わせれば、新しい価値を生み出せるかもしれない。
「直近では図表やグラフなど、文書内にある画像の視覚的読解について多くの問い合わせいただいています。まだ実用化には至っていませんが、NTTグループはこの分野でかなり先を行く技術を所有している」のだと、宮崎氏が胸を張る。