音声認識技術を障害者にも AI活用したグーグルの取り組み

Gettyimages


グーグルの音声認識技術は、膨大なトレーニングデータのおかげで、発話障害のない人による音声命令をほぼ全て理解できる。しかし、発話障害のある人による音声命令をどこまで理解し、それに反応できるかについては、はっきりとした結論が出ていない。プロジェクト・ユーフォリアが保有する発話障害者の音声サンプルの量は限られており、今プロジェクトが注力できるのは「本を読んで」や「電灯を消して」など特定用途のフレーズや単語のみだ。

カティオーのチームはこれまでに数万件のフレーズを記録した音声データを収集したが、さらに数十万件が必要だという。サンダー・ピチャイ最高経営責任者(CEO)が、プロジェクト・ユーフォリアの発表を今年5月の同社の開発者向け会議で行った理由の一端はここにある。

ピチャイは「われわれは、こうした音声認識モデルを将来的にグーグルアシスタントへ加えるべく努力している」と述べ、発話障害のある人々に対し、音声サンプル収集への協力を呼びかけた。

カティオーは「障害のある発話は、収集が非常に難しいデータセットだ。単に人々にフレーズの録音を頼めばいいというものではないし、データセットがそこらに存在するわけでもない」と語る。「まずはデータを収集する必要があり、これは大変な作業だ」

プロジェクト・ユーフォニアの取り組みで恐らく最も画期的な点は、完全なろうあ者向けのインタラクティブなAIシステムの開発も目指していることだ。同じく初期段階にあるこのシステムでは、ジェスチャーや、言葉にならない発声、表情を検出し、テキストメッセージの送信や読み上げといった特定の行動をとるようにするトレーニングが進められている。

「話せる人だけでなく、あらゆる人たちを対象としたい」とカティオーは言う。プロジェクト・ユーフォニアはまだ駆け出しの段階にあるものの、やがては障害者たちに大きな影響を与え、自立した生活を送る自由と柔軟性を与えられる可能性がある。

編集=遠藤宗生

ForbesBrandVoice

人気記事