2018.06.04 17:00

スマートスピーカー元年から1年、音声テクノロジーの現在地

Forbes JAPAN 編集部

著者フォロー

記事を保存

著者フォロー

記事を保存

音声 x テクノロジーの現在地

音声テクノロジーがクリアすべき課題

Justin Sullivan / getty images

それでは、音声テクノロジーの未来はどうなるのか。企業向けスマートスピーカーを手がけるフェアリーデバイセズ代表の藤野真人氏は、より高度な音声アシスタントの実現ために越えるべき技術的な壁を2点挙げる。

1つ目は、一問一答形式の応答しかできないこと。「現在の音声アシスタントは、単一目的的な言語理解しかできません。『OK, Google』で起動、『今日の天気は？』と聞かれて天気を答えるだけで、そこから会話は広がらない。音声認識技術が搭載されたチャットボットはたくさん登場しているのに、どれも満足な顧客体験を生み出せていないのは主にこれが原因です」と藤野氏。

2つ目は、発話時の微妙なニュアンスを捉えることができないこと。例えば、『今日は雨が降る』という言葉でも、語尾を高くし「今日は雨が降る？」と言えば疑問文になり、“今日は”を強調して言えば前日や翌日との比較を意味する。

我々は無意識のうちに、こうした微妙なニュアンスを常に処理している。音声アシスタントがより我々の生活を豊かに、便利にするためには、話し言葉に込められた感情や意図の理解ができるようになることが大きなカギになるだろう。

これらの課題解決の先にあるのが、スマート・タウンのような音声アシスタントがあらゆる場所で使用される世界だ。「理想形は、AIと人間が日常会話でコミュニケーションをとり、人々が機械にアシストされていることを意識しなくなる状態です」と藤野氏は語る。

そのカギとなるのが「日常の会話データをいかに集められるか」である。藤野氏いわく、一般的なデータの収集場所は「構造↔非構造（二元論的なデータで表せるか）」「定点↔非定点（物理的な位置が一定かどうか）」をかけ合わせたマトリクスで分類できるという。　

主なデータの収集場所は、上記のように4象限のマトリクスで分類される

「GPSによって得られる移動データをはじめとする、定点的・構造的な要素を含むデータは活用に結びつけやすい。しかし日常会話は特定の目的を持たず、語感やその場のニュアンスなど非常に曖昧な要素で意味が決定される非構造的なデータのため、収集や処理が難しい領域です。その曖昧さを音声アシスタントが理解できるようになれば、より日常生活に溶け込み、私達の生活を便利にしてくれるでしょう」と、藤野氏。

スマートスピーカーをはじめとした音声テクノロジーが様々な部分で我々の生活を変えようとしているいま、市場全体の動きにも今後より一層注目が集まるだろう。