「文字入力だけで音声ナレーション」。20言語以上に対応も、音声合成ソフトがすごい

Getty Images

テレビ番組や企画のプレゼンテーション、商品の紹介動画、社員の研修動画など、入力した文字から自動で読み上げ音声を作成する「音声合成ソフト」の活用が広がり、より高品質な有料サービスに注目が集まっている。デジタル化やAIの活用が急速に進む中、今後コンテンツの作成に音声合成ソフトの知識が必須になるかもしれない。代表的な音声合成ソフトや商用サービスの特徴をまとめた。

音声合成ソフトとは


音声合成ソフトとは、文字入力からナレーションを自動生成するソフトを指す。元々は目の不自由な人や細かい字が読めない高齢者向けに開発された。パソコンの画面上で文字を読むことが難しい人が日常生活にかかわる情報をインターネットで手に入れられるよう、県や市などの行政機関のホームページに導入されることが多かった。近年は活用の幅が広がり、民間企業のサイトにも導入されたり、動画コンテンツや企画のプレゼンテーションなどに使われたりしている例も見られる。

動画コンテンツにナレーションをつける場合、これまではナレーターと契約し、スタジオを借りて音声を収録することが多く、完成まで多大な時間と人件費がかかっていた。だが、音声合成ソフトを導入すれば、デスク上でコンテンツにナレーション音声をつけられるようになるため、時間と費用を抑えることができる。また、商品の仕様変更などで音声の差し替えが必要となった場合、読み上げに使った文章の内容を修正するだけで済むため、再収録の手間がかからない。


Getty Images

音声合成ソフトには、個人でも利用できる無料のものから、法人向けの高品質な有料のものまで様々だ。一般的に無料ソフトの場合、導入費用がかからない一方で、使用できる音声の種類が少なかったり、イントネーションの調整が難しかったりする。

有料ソフトの場合は、男性や女性、大人や子供など、複数の種類の音声から用途に合わせた声を選べるほか、イントネーションや声の高さの細かい調整が可能で、感情の起伏まで表現できるものもある。また、日本語以外の言語にも対応しているサービスもあるため、海外向けのコンテンツを作成する際にも活躍する。

ソフトによってサービスの内容が異なるため、有料ソフトの導入を検討する際には、コンテンツの内容に応じてソフトを選ぶ必要がある。以下に主な有料の音声合成ソフトの特徴をまとめた。

ReadSpeaker


1999年にスウェーデンで設立され、これまで世界62カ国に音声読み上げサービスを展開してきたReadSpeaker社が提供している音声合成サービス「ReadSpeaker」。日本語のほか、英語や中国語、韓国語など20カ国の言語に対応した多数の話者の声から読み上げ音声を作成することができる。

Windowsパソコン用のアプリ「speechMaker Desktop」では、読み上げ音声の作成後でも漢字の読み仮名や単語の抑揚、イントネーションを自由に変更することが可能となっている。日本語の場合、カタカナで表記できる単語であればアクセントをすべて再現できるという。また、よく使う単語を登録し、同じ発音を繰り返し使用できるユーザー辞書や、再生時間と文字数の計測、イントロやBGM用の外部音源の挿入など、コンテンツの編集を補助する機能も充実している。

ReadSpeaker社はパソコンとスマートフォン向けアプリや、ネットワーク型のシステムにReadSpeakerの音声合成機能を導入できる開発ツールも提供しているほか、利用者が選定したナレーターの声を収録し、その特徴を生かしたオリジナルの合成音声を作成するサービスも提供している。
次ページ > 続いてAITalk5とAmazon Pollyについて

文=アステル 編集=石井節子

ForbesBrandVoice

人気記事