サンプル音源を聞くとビックリする。これまでのAIとの質疑応答のような対話ではなく、ごく自然な雑談が可能だ。言葉が重なっても話が続けられる同時双方向性の会話は、通信方式で言うところのFull-duprex(全二重通信)だが、AIとの会話でこれを実現したということだ。

J-Moshiは、フランスの非営利AI研究機関Kyutai(キュタイ)が開発したMoshiを日本語対応にしたもの。名古屋大学大学院情報学研究科の東中竜一郎教授は、これまで日本語のFull-duprex音声対話に関する研究があまりなかったためMoshiを取り入れたということだ。J-Moshiには名古屋大学のスーパーコンピューター「不老」が使われているが、元になったMoshiのパラメータ数(言語モデルの規模を示す数値)は70億。大規模言語モデルは数百億から数千億に達するものもあるため、比較的コンパクトで応用範囲も広い。
これだけ自然な会話ができれば、高齢者施設のお年寄りの話相手や、バーのバーチャルバーテンダーの役割は十分に熟せそうだ。ロボットに搭載されたなら、人間との距離がぐっと縮まって、お友だちになれそうだ。
プレスリリース