スマートスピーカーの国内上陸やボイスチャットなど、近年盛り上がりを見せる音声×テクノロジーの領域。集中連載の第2回では、EmpathのCEO下地貴明とCSO(Chief Sustainability Officer)の山崎はずむに、「音声×感情」の可能性を聞いた。(第1回はこちら)
声の「物理的な特徴」から感情を解析する
──Empathでは音声テクノロジーの中でも、感情認識の領域に特化しています。感情認識技術とは、どのような技術なのでしょうか。
下地:発話の波長やピッチから、話者の感情を判断する技術です。グーグルドキュメントなどの音声入力をイメージするとわかりやすいですが、一般的に、音声認識とは発話を「言葉」として機械で読み取る技術のことを指します。だから入力した音声を文字としてPCに表示したり、その意味を把握したりできるわけです。
それに対して、感情認識で扱うのは、速さやボリューム、ピッチといった声の物理的な特徴。言葉の内容に左右されないので、外国語での発話から感情を分析することも可能です。
Empathでは「喜び」「落ち着き」「怒り」「悲しみ」の4つの感情指標と「元気かどうか」について、数万人の音声データベースをもとに構築したアルゴリズムによって判別しています。
──既に実用化は進んでいるのでしょうか。
Empath CSO 山崎はずむ
山崎:はい。最初に実践したのは、ドコモと共同で行った東日本大震災での被災地のメンタルヘルス支援です。現地で支援を行っている方々の音声から体調を察知し、優れない場合は早めに休みを取ってもらうことで支援者の方々の健康面をサポートするものです。他にも、従業員の気分や天気に応じた体調の変化を予測するセルフケアアプリ「じぶん予報」をリリースしています。
さらにこの技術をWeb APIにして、主にマーケティングやIoTを扱う企業やサービスに提供しています。既に、マーケティング分野では、営業用のコールセンターに導入したことで約20%の成約率を上昇させた実績も出ています。営業トークに対するお客様の反応(=声色)から購買意欲を解析し、今プッシュすれば購買につながる、またはここで一旦引いたほうがいいなどのタイミングをAIで判断しています。
下地:変わった事例としては、アラブ首長国連邦(UAE)の内務省と業務提携し、ドバイ政府にEmpathの技術を提供しています。UAEは国民の幸福度向上を国家課題に掲げており、その一環として、Empathの活用によって得られる客観的なデータを獲得したいとの狙いがあるようですね。
──ヘルスケアに限らず、幅広い分野で活用されているのですね。
下地:医療分野は、人の命に関わる領域であると同時に規制のハードルも高いため、導入することが難しく、短期的な収益を獲得しづらい。そのため、いまはマーケティングやロボティクス、ゲーム分野などで収益を上げながら医療分野での活用法を模索しつつ、さらに精度を高めている状況です。