──文字検索の世界で発展してきた「SEO対策」が、音声検索世界でも求められるようになるということですね。では、サービス開発についてはどうでしょう。
シュリラ:まず、企業は「そもそも音声認識サービスに参入すべきか?」を判断しなければなりません。例えば、ある自動車メーカーが試運転の日程を予約するためにオリジナルキャラクターを用いた予約ボットをつくりました。
ですが、多くの人にとって頻繁に参加するものではない自動車の試運転を、手軽で親しみやすくしてもメリットが薄い。利用者数は増えず、サービスは取りやめになりました。
渡辺:サービスをつくるのなら、「ユーザー最適化」が欠かせません。これはそれぞれのユーザーにマッチした情報を提供するために個人情報を預けてもいいと思ってもらえるよう「信頼性」を獲得するのはもちろん、ユーザーが自然に使いたくなるUXにすることも大切です。
例えば、レストランの予約などを自動で代行してくれるグーグルの音声アシスタント「Google Duplex」は喋り方があまりに自然だったので、「逆に怖い」という意見がたくさん出ました。なので通話の初めに「これは音声アシスタントです」と注釈を加えたそうです。人間にそっくりすぎる図像に否定的な感情が生まれる「不気味の谷」現象は、音声についても当てはまるのかもしれませんね。
パーソナルアシスタント実現に向けて、まずは「声」が大きく進化する
──最後に、これから音声認識がどのように発展すると予想していますか。
渡辺:最終的な到達点は、多くの人が思い描いているように、個人ごとにアバターのようなパーソナルアシスタントがつく状態でしょう。ですが、それは少し先の話ですね。
そのためにまず大きく進化するのは、「声」でしょう。グーグルは2018年中に、R&B歌手ジョン・レジェンドの声をモデル化して、彼が発言したことがない言葉でも自由に喋らせることができる機能を実現すると発表していました。
実現は少し遅れましたが、2019年4月に限定的な質問に対してジョン・レジェンドの声で答えてくれるようになりました。今後は「好きなキャラクターの声で喋ってくれるアシスタント」が現れる確率はとても高いでしょう。その頃には、複数の画像データからの抽出結果をもとに、「自分好みの顔」をつくることもできるようになっているはずです。
シュリラ:次の段階として数年後に実現しそうなのは、「キャラクターの性格」ですね。アニマル浜口さんの性格をモデリングしたアシスタントが、元気よく服をコーディネートしてくれる日は近いかもしれません。
iProspect Global Director of Voiceのネイト・シュリラ
アメリカのアレクサには、すでにどちらの服が似合っているかを選んでくれる機能もあるんですよ。人間のコーディネーターのチョイスを学習することで、精度やアドバイスの幅はさらに広がるはずです。
渡辺:音声認識が素晴らしいのは、利用の敷居がとても低い点です。いまはまだテクノロジーへの感度が高い人ばかりが利用していますが、普及が進めばこれまでスマホをあまり使いこなせなかった年配の方でも使用できるようになる。
文字での検索は難しくても、音声なら検索できる人も出てくるはず。音声認識が、たくさんの人がテクノロジーに触れるきっかけになるように、たくさんの企業と協力していけたらいいですね。