「音声テクノロジー」と聞いて、何を思い浮かべるだろうか。多くの人が、上述のようなスマートスピーカーを想像するかもしれない。しかし、「音声テクノロジー」と一言で言っても、その領域は多岐にわたる。
今回は4日間に渡り、音声×テクノロジーにまつわる記事を集中連載。本記事ではその前段として、音声テクノロジー領域の全体像を、我々の生活に最も身近なスマートスピーカーと中心に整理し、その現在地、そして未来を探っていく。
日本が海外より遅れている理由
音声テクノロジーの領域は、おおよそ下記に分類される。
・音声認識:発話者の言葉を認識する。(活用例) スマートスピーカー
・話者認識:複数人が話している中で話者を判別する。 (活用例) 議事録記録
・環境音認識:空間内で通常とは異なる音を検知する。(活用例) 工場機器の異常音検知
・感情解析:声色や抑揚から発話者の感情を導き出す。 (活用例) メンタルヘルスケア
スマートスピーカーに搭載される「音声認識技術」は、AIが話し言葉から意味内容を認識する技術。ビッグデータによるパターン解析や会話ログの収集とセットで語られることが多い。国内ではLINEの「CLOVA」やドコモの「しゃべってコンシェル」、スタートアップではJEITAベンチャー賞を受賞したHmcommなどがある。
その他に、「話者認識」「環境音認識」などの認識技術や、音の波形や速さといった物理データから発話者のストレスを測定する「感情解析」も存在。さらに最近は、文字起こしや議事録作成などのビジネス支援ツール、「Voicy」や「Anchor」といった音声を用いたコミュニケーションサービスも目立ち始めている。