2018.06.04 17:00

スマートスピーカー元年から1年、音声テクノロジーの現在地

音声 x テクノロジーの現在地

Apple Home PodやAmazon Echo、Google Homeが日本に上陸し、スマートスピーカー元年と言われた2017年。その市場規模は2015年の3.6億ドル（約390億円）から2020年には21億ドル（約2275億円）になると予測されている。（米ガートナー調べ）

「音声テクノロジー」と聞いて、何を思い浮かべるだろうか。多くの人が、上述のようなスマートスピーカーを想像するかもしれない。しかし、「音声テクノロジー」と一言で言っても、その領域は多岐にわたる。

今回は4日間に渡り、音声×テクノロジーにまつわる記事を集中連載。本記事ではその前段として、音声テクノロジー領域の全体像を、我々の生活に最も身近なスマートスピーカーと中心に整理し、その現在地、そして未来を探っていく。

日本が海外より遅れている理由

音声テクノロジーの領域は、おおよそ下記に分類される。

・音声認識：発話者の言葉を認識する。(活用例) スマートスピーカー

・話者認識：複数人が話している中で話者を判別する。 (活用例) 議事録記録

・環境音認識：空間内で通常とは異なる音を検知する。(活用例) 工場機器の異常音検知

・感情解析：声色や抑揚から発話者の感情を導き出す。 (活用例) メンタルヘルスケア

スマートスピーカーに搭載される「音声認識技術」は、AIが話し言葉から意味内容を認識する技術。ビッグデータによるパターン解析や会話ログの収集とセットで語られることが多い。国内ではLINEの「CLOVA」やドコモの「しゃべってコンシェル」、スタートアップではJEITAベンチャー賞を受賞したHmcommなどがある。

その他に、「話者認識」「環境音認識」などの認識技術や、音の波形や速さといった物理データから発話者のストレスを測定する「感情解析」も存在。さらに最近は、文字起こしや議事録作成などのビジネス支援ツール、「Voicy」や「Anchor」といった音声を用いたコミュニケーションサービスも目立ち始めている。

次ページ＞海外と日本の「タイムラグ」