恩田社長は、全身の筋肉が動かなくなる難病のALS(筋萎縮性側索硬化症)を発症し、話すことが難しくなってきていた。装置をつくったのは国立情報学研究所の山岸順一准教授。音声合成や音声認識で世界最先端の研究開発をリードしている人物だ。
声を失った人が本人そっくりの声で会話できる、あるいは喋れないはずの外国語が自分の声で再生されるといった、「音声合成」をめぐる技術は現在、まったく新しい領域へと足を踏み出している。
山岸の音声合成には「話者適応」という技術が使われている。数十人の声からつくった「平均声」を土台にし、それに録音した本人の声をミックスする形で本人そっくりの声をつくる。従来は、本人の声を録音し、音を切り分けて合成していたが、それには数十時間分の録音データが必要だった。しかし、話者適応であれば最短で5分間分の音声で、本人そっくりの声をつくれる。
「話者適応では、訛りの強い言葉も合成できます。該当する訛りがある人たちの平均声のパターンを導き、それに本人の声を加えて合成するのです」(山岸准教授)
話者適応を実現したのが「隠れマルコフモデル(HMM)」という統計的な手法だ。音声を自動的に個々の音に分割し、コンピュータに数式(関数)として理解させる。
例えば「すし」という音。「す(su)」と「し(si)」の「s」は、同じsでも後ろに「u」を従えるsと、uの後に来てiを従えるsではまったく異なる。そのため「s」に絡む関数だけでも数億パターンになる。そこで、音声を合成するときには本人の音声の分析結果に合わせて該当する関数を導き、前後の文脈を踏まえて合成する。
実は、音声認識や音声合成のこうした統計的アプローチの研究は、日本のお家芸とされている。HMMも名古屋工業大学大学院工学研究科の徳田恵一教授が1990年代後半から開発を進めてきた技術だ。山岸准教授は、この技術をさらに発展させたのだ。
その一つが、先に挙げた「音声合成」を使って声を失った人たちに福音をもたらす技術だ。ALSや喉頭がん、脳梗塞などで声を失った人は50万人ともいわれる。発病の前後を問わず、なんらかの方法で本人の声を録音できれば新たな会話の術を手にできる。
このほかに、音声認識と音声合成を同時に活用した、外国語での音声再生技術がある。例えば、日本語で音声を入力すると、その言葉を認識して英語や中国語などに自動翻訳し、さらにその外国語を自分そっくりの声で読み上げるというものだ。学習分野での応用なども考えられる。
「自分の声や担任の先生の声で再現されたナレーションでゲームをすると、遊ぶ時間が長くなるという実験データもあります」(山岸准教授)
ただ音声合成の精度が向上すれば、悪用される懸念も出てくる。「オレオレ詐欺」や生体認証などで成りすましが行われる可能性があるためだ。山岸准教授は、特殊なノイズを加えて機械で判定したり、肉声に交じる息の音を解析したりして合成音声を区別するなど、セキュリティー技術の開発も進めている。