「文字入力だけで音声ナレーション」。20言語以上に対応も、音声合成ソフトがすごい

Getty Images


AITalk5


「AITalk5」は会社エーアイが提供している音声合成ソフトで、収録した人の音声データをもとに、声の高さや変化パターン、音の長さなどの韻律情報をまとめた韻律辞書を作成し、それをもとに合成音声を作成する「コーパスベース音声合成方式」という技術を採用している。

また、最新のディープラーニング技術を活用し、入力されたテキストを解析して単語間の雑音等を減らし、なめらかで自然な音声に近づける「DNN音声合成方式」も採用しているため、感情の起伏や多様な発話表現が可能だ。

日本語で利用できる音声の種類は男性8人、女性10人の計18種類。声の特徴は大人や子供だけでなく、元気な声や落ち着いた声、標準語や関西弁も選べるため、複数の音声を利用した会話形式のコンテンツなどにも活用できる。

エーアイは他にも音声合成ソフトを提供しており、外国語に対応した「AITalk International」は英語や中国語、韓国語など40言語、54方言に対応した計123人の音声を利用できる。外国人観光客が訪れる観光スポットや、美術館や博物館などの公共施設、駅やデパートなどの商業施設で外国語のナレーションが必要になった場合、外国語のテキストさえ作成すれば、わざわざ外国語話者を手配して収録することなく、手軽に外国語のナレーションを作成することができる。

Amazon Polly


Amazonが提供している音声読み上げサービスで、利用料に応じて料金が変わる従量課金制を採用しているのが特徴だ。ウェブ上の画面に入力したテキストからすぐに読み上げ音声を作成し、ダウンロードすることが可能で、登録した初月から12カ月間は月に500万文字まで無料で利用できる。

日本語の音声の種類は3パターンと国内の音声合成サービスに比べると少ないが、外国語のラインナップが豊富で、英語は16種類、フランス語やドイツ語はそれぞれ4種類と計23言語、男女63人から自由に音声を選ぶことができる。また、Pollyもディープラーニング技術も採用しているため、読み上げ音声が自然な発音に近い。


Getty Images

ここまで主要な有料の音声合成ソフト・サービスを紹介した。AIが作成した読み上げ音声は、すでに人間の発声とほとんど変わらないほど自然な発音を実現している。だが、AI技術の進歩は著しく、ディープラーニング技術を採用しているソフトも多いため、今後学習データの蓄積によって、今以上の完成度の読み上げ音声を作成することができるようになるだろう。

テレビ番組やYouTube動画のナレーション、eラーニングの音声など、コンテンツの最先端にも音声合成ソフトが活用されている。時代に乗り遅れないためにも、読者の中にコンテンツ作成の担当者がいるなら、音声合成ソフトの導入を検討してみてはいかがだろうか。

文=アステル 編集=石井節子

ForbesBrandVoice

人気記事