2024.08.16 16:45

3秒聞くだけで瞬時に声マネ、日本語音声生成テクノロジー

Forbes JAPAN Web-News | Forbes JAPAN編集部

著者フォロー

記事を保存

著者フォロー

記事を保存

Getty image

誰かが話した音声データを、別の人の声や口調そのままに話す最新の日本語音声生成モデルが開発された。3秒ほどの音声データを与えれば、ものの0.5秒でその人そっくりに約30秒間の文章を話すというものだ。ほぼリアルタイムの音声生成が可能となり、幅広い用途に活躍しそうだ。

AI人材育成や研究開発を行うNABLAS（ナブラス）は、高度な日本語音声生成モデルを開発した。これは、Googleの音声生成モデル「SoundStorm」の構造をベースにしたもの。SoundStormはリアルタイムの対話も可能な音声生成モデルだが、残念ながら日本語に対応していない。そこでNABLASは、独自の日本語データセットを使って学習を行い、日本語対応モデルを作り上げた。

上の動画はSoundStormのデモの様子。「SoundStormに関するGoogleの論文について聞いてます？」「いや、うっかりしてた、どんなの？」「効率的な音声生成の並列コーダーで、会話に使えます」「へえ、面白いね」「そうなんです。これもSoundStormです」「え、ウソ！」といった内容。

日本語モデルはまだリアルタイムの対話はできないが、話者Aの話を3秒ほどサンプリングすれば、約0.5秒で話者Bが話した内容を話者Aの声、抑揚、話した方のクセなどを模した音声を生成する「Speech to Speech」が可能だ。

日本語音声コーパス（データベース）から所得した音声から雑音を排除するなど独自技術で処理した日本語音声データセットだけを用いて学習させているため、音声の品質が高い。また、日本語の音声生成に適したオーディオコーデックを用いているため、音声の類似度スコアは本家SoundStormよりもわずかに高いという。

この技術を使えば、たとえばエンターテインメント分野では、ひとりの声で動画コンテンツの複数のキャラクターにセリフを言わせるといったことも可能になる。発話が困難な人が自分の声で楽に会話ができるようにもなるだろう。カスタマーサポートで感情的になった相手に対して、オペレーターの感情の変化を悟られないよう冷静な口調で対応するといったことも可能になるだろう。同社はこの技術開発をさらに進めると同時に、悪用防止や悪用検出技術の開発にも取り組んでいくとのことだ。

プレスリリース

文＝金井哲夫