Tacotron2は、ふたつのニューラルネットワークで構成されている。ひとつ目のニューラルネットワークは、文字をスペクトログラムに変換する。スペクトログラムとは、音波を時間の流れに沿って視覚的に表現したものを指す。そのスペクトログラムを、ディープマインドが制作した音声合成ソフト「ウェーブネット」に入れると、ウェーブネットはそのデータを分析し人間の声として読み出す。現在、Tacotron2の平均オピニオン評価(MOS=メディアの品質を数値で評価する手法のひとつ)は4.53点をマークしたと言われている。これは、録音された人間の声の点数4.58点にほぼ近い数値だ。
グーグルの研究者はまた、Tacotron2が発音しにくい言葉に関しても上手く処理し始めていると報告している。例えば、句読点に合わせて発音したり、大文字で書かれた英単語を強調して読むなどがそれにあたる。
ただし、同システムはまだひとりの女性の声だけを真似できる段階にあるというのが現状のようだ。男性もしくは他の女性の声を模倣するためには、より多く学習を積む必要がある。また、上述の同研究結果については、査読(研究者仲間や同分野の専門家による評価や検証)を完了してはいない状態であることも付け加えておきたい。
とはいえ、人間の声を機械が再現する日は刻一刻と迫っているかもしれない。人工知能を使った「TTS:(Text to Speech)」技術の利点は、すぐに実用化できるという点にある。昨年公開されたウェーブネットは現在、「グーグル・アシスタント」に採用されている。今回紹介された新バージョンが搭載されれば、ユーザーはより自然な音声サービスを受けることか可能になるだろう。今年、人工知能はどこまで人間の声を再現できるようになるのか。その動向に注目したい。