音声認識技術を障害者にも AI活用したグーグルの取り組み

Gettyimages

予定をスケジュール表に組み込みたい時は、スマホに頼めばよい。寝室の電灯をつけたい時は、グーグルホームが代わりにやってくれる──。このように日常的なタスクを自動化・効率化する音声認識・作動システムは、消費者の間で人気を集めており、その市場規模は490億ドル(約5兆3000億円)にまで達している。ただ、発話障害のある人々にとって、音声での指示に頼るテクノロジーはまだ完璧には程遠い。

グーグルはこの状況を変えるべく、「プロジェクト・ユーフォニア(Project Euphonia)」を立ち上げた。同社のプログラム「社会貢献のための人工知能(AI for Social Good)」の一環である同プロジェクトは、耳の不自由な人や、筋萎縮性側索硬化症(ALS)や脳卒中、パーキンソン病、多発性硬化症、外傷性脳損傷などの神経疾患のある人が利用する音声認識を向上させる方法を模索するものだ。

グーグルは非営利団体の「ALS療法開発研究所(ALS TDI)」や「ALS住居イニシアチブ(ALSRI)」と共同で、発話や運動に支障をきたす神経変性疾患のある人々の音声サンプル収集を実施している。

神経疾患のある人にとって、音声作動システムは、日常的なタスクをこなしたり、家族や友人、介護者、同僚らと会話したりする際に大きな役割を果たす可能性がある。

「明かりをつけたり、音楽をかけたり、誰かとコミュニケーションを取ったりできる。でも、これが正しく動作するには、音声認識技術が自分の声を正しく認識し変換できる必要がある」。こう語るのは、グーグルAIでプロダクトマネジャーを務めるジュリー・カティオーだ。

グーグルの音声認識テクノロジーは、大量のデータトレーニングを必要とする機械学習アルゴリズムを利用している。「何十万、何百万もの文の読み上げデータがあり、それぞれをどのように認識させるかをアルゴリズムに学習させるサンプルデータとして使っている。それでもまだ、障害のある人々に対応するには十分ではない」とカティオーは言う。

プロジェクト・ユーフォニアでは、発話障害のある人々の音声サンプルを使用することで、基礎システムに不明瞭な音声命令の理解を学習させようとしている。目標は発話障害のある人にも利用してもらえる技術の開発だが、はっきりとした成果はまだ出ていない。

「ALSなどの疾患を抱える人たちも利用できるモデルを確立できるかもしれない」とカティオー。「一方で、同じALS患者の中でも個々の発話の方法が違い過ぎて、そうした機械学習モデルを確立できない可能性もある。その場合、個人に合わせて一定のカスタマイズをすることにより、個々人に合わせたモデルを作る必要があるかもしれない」
次ページ > 課題は音声データの収集

編集=遠藤宗生

ForbesBrandVoice

人気記事