Wispr Flowの共同創業者兼CEO、タナイ・コタリ氏。
長年にわたり、Siri、Alexaなどの音声アシスタントは何千もの機能を提供すると約束してきた。しかし実際には、ほんの一握りの機能しか提供できず、その中でもうまく機能したのはわずかだった。多くの人々はこれらを試し、失望し、以前の習慣に戻っていった。
アイデアは正しかったが、実行が伴わなかった。初期の製品は理解するためではなく、文字起こしするために作られていた。言葉を捉えることはできても、その意図を理解することはできなかった—字幕には適しているが、コミュニケーションの手段としては最悪だった。精度の低さと扱いにくいハードウェアが相まって、その体験は定着するほど良いものではなかった。
しかし、それが今、ついに変わりつつある。人々は目新しさからではなく、実際に仕事を楽にしてくれるから音声ツールを使うようになっている。2024年のTELUSのレポートでは、調査対象のアメリカ人の81%が週に1回以上音声技術を使用し、68%が前年より使用頻度を増やしていることが分かった。このような実際の行動変化が、今や実質的な投資を引き寄せている。2024年だけでも、音声AI関連のスタートアップは約4億ドルのベンチャー資金を調達した。
今回は何が違うのか?これほど多くの失敗を経て、なぜ音声技術がついに定着し始めているのか?
AIの進歩により、文字起こしから意図理解へと進化した。
これまで、音声ツールは発話を機械的な入力として扱い、言葉を捉えてそのまま逐語的に返していた。しかし、私たちの話し方は書き方とは全く異なる。人は断片的に話す。途中で一時停止したり、戻ったり、文の途中で考えを変えたりする。問題は音声ツールが私たちの声を聞き取れないことではなく、私たちを理解できないことだった。
現在、大規模言語モデルの進歩のおかげで、ユーザーが何をしているかという文脈の中で、何を言っているのかを理解するシステムを構築できるようになった。これらは余分な言葉を取り除き、乱雑な思考を整理し、話し手の意図を人間のように反映したクリーンで構造化された出力を生成できる。さらに、メールやメッセージを書いているかによって、適切にテキストをフォーマットすることもできる。
友人にテキストメッセージを送り、ミーティングの時間を変更することを決めたとしよう。従来の音声ツールなら「ねえアーロン、5時に会おう、いや、違う、午後6時に」と出力するだろう。新しいツールなら意図を捉えて「ねえアーロン、午後6時に会おう」とすっきりさせることができる。
このような小さいながらも意味のある変化こそが、音声ツールを迅速で自然、そして本当に役立つものに感じさせる鍵となる。
行動変化ではあるが、自然に感じられるものだ。
音声技術は常に行動の変化を必要としてきた。しかし過去には、その変化が不自然で不便に感じられた。スマートスピーカーに話しかけたり、複雑なコマンドを覚えたり、公共の場でヘッドセットを着用したりすることは、得られるメリットに対して摩擦が大きすぎた。
一方、かつては究極の生産性ツールだったキーボードは、静かにボトルネックになりつつある。Typing.comの調査によると、調査対象の従業員は1日約5時間をタイピングに費やしているという。かつては仕事を加速させていたものが、今では仕事を遅らせている。この増大する不満が、音声などの代替手段への扉を開きつつある。
今回の違いは、その変化が直感的に感じられることだ。話すことは私たちが考え、コミュニケーションを取る方法だ。音声を使って物事を達成することは、より簡単で馴染みのある選択肢のように感じられる。
行動変化の鍵は、新しいことを簡単に感じさせることだ。Wisprでは、音声の使用を親しい友人との会話のように自然に感じさせることをミッションとしている。すでにその効果が見えている:6ヶ月後には、平均的なユーザーは約70のアプリやサイト全体で、手動で入力する言葉が3分の1未満になっている。
人々は画面を見る時間を減らしたいと考えている。
この変化は技術的なものだけでなく、心理的なものでもある。何年もの絶え間ない接続の後、私たちは転換点に達した。Natureに掲載されたあるメタ分析によると、高いスクリーンメディア使用は、成人のうつ病発症リスクを28%増加させることが分かった。
音声はより現実に存在感を持つ方法を提供できる。画面に釘付けになることなく仕事をこなすことができる。集中力と柔軟性をサポートできる。多くの人々が日常的なタスクに音声を活用するようになり、テクノロジーがついにユーザーの期待に追いついてきていることを示している。
音声技術が次に正しく取り組むべきことは何か?
音声が主流になるにつれ、業界の次なる課題は高まるユーザーの期待に応えることだ。精度とスピードは今や最低限の要件となった。人々が本当に求めているのは、信頼性、適応性、そしてツール間の連続性だ。
その信頼構築はプライバシーから始まる。音声データは私たちが生成する最も個人的な情報の一つであり、企業はそれを認識し、録音の匿名化、保存の最小化、データの使用方法についてユーザーに明示的な制御を与えることで対応すべきだ。より明確な基準と共有フレームワークは、長期的な信頼を獲得するために大きく貢献するだろう。
適応性と連続性も同様に重要だ。音声ツールはサイロ(孤立した環境)の中に存在することはできない。アプリ、デバイス、さらには時間の経過に伴う文脈を理解する必要がある。それはまた、人々が実際に話す方法の全スペクトル—異なる言語、アクセント、方言、発話パターンなど—をサポートすることも意味する。そこに到達するためには、企業はトレーニングデータを多様化し、より幅広いユーザーグループでテストし、包括的なデザインに投資する必要がある。
オープンな統合とAPIの開発、単一のコマンドを超えた意図を解釈するためのモデルのトレーニング、ユーザーがデバイスや時間を超えて自然にタスクを継続できるようにコンテキストを維持する体験の設計は、音声を単なる機能ではなく、私たちが行うすべてのことのインターフェースレイヤーのように感じさせるだろう。
結論
音声の真の目標は、テクノロジーとの対話を人との対話のように感じさせることだ。何十年もの間、そのビジョンは手の届かないところにあった。より賢いAI、拡大する採用率、そして画面から離れる文化的シフトにより、私たちはついに必要な要素を手に入れた。
今回こそ、音声技術は定着するだろう。



