AI

2026.04.17 00:17

「バイブコーディング」は始まりにすぎない 音声AIがワークフローを変革する

stock.adobe.com

stock.adobe.com

OpenClawの開発者であるピーター・スタインバーガーは先月、レックス・フリードマンと共演したポッドキャストで、音声プロンプトをあまりにも多用して実際に声を失ったと語った。スタインバーガーはいま、ワークフローの一部として音声AIを試す数多くの開発者のうちの1人にすぎない。

advertisement

だが、音声AIが変えつつあるのはバイブコーディングだけではない。企業のワークフローの根幹そのものが変わりつつある。2025年にThoughtlyが、中小企業からフォーチュン500企業まで500社超を対象に行った調査では、調査対象企業の78%がすでに音声AIソリューションを導入済み、もしくは積極的にパイロット運用中であることがわかった。2年前の45%から大幅に増加している。

音声アシスタントやエージェントは、手作業でのテキスト入力を必要とせずに、質問への回答、社内データの検索、タスクの自動化を行える可能性がある。加えて、コールセンター環境のような重要機能における反復プロセスを効率化する能力も持つ。オペレーターが電話応対をしつつ顧客体験(CX)をよりスムーズにできるからだ。

音声AI革命

SiriやAlexaのような音声AIツールは長年にわたり消費者市場で広く関心を集めてきたが、信頼性の欠如が普及を妨げることが多かった。流れが変わり始めたのは2024年で、ChatGPTの高度な音声モードが登場し、市場で最も一貫性のある音声主導の体験の1つを提供するとして高い評価を得た。

advertisement

現在も音声主導のユーザー体験への需要は伸び続けている。OpenAIの担当者はメールで、同社では過去1年で音声およびディクテーションの利用が大幅に増加していると私に語った。とはいえ、企業における音声入力(speech-to-text)ツールの利用は、ChatGPTの高度な音声機能の登場よりはるか以前にさかのぼる。

「音声技術は『ChatGPTの瞬間』より前から存在する」と、Info-Tech Research Groupの主席リサーチディレクターであるシャシ・ベラマンコンダはメールで私に語った。「金融機関やコールセンターはこれを長い間使ってきた」

「消費者は一般にカスタマーケアへ電話するのが嫌いで、やむを得ず電話する場合でも、保留音やオペレーターにつながるまでの時間が嫌いだ。だからこそ、大量の着信を扱う企業は、顧客の満足度を保ち、保留時間と解決までの時間を短縮するための技術的解決策を見つける必要があった」とベラマンコンダは述べた。

ChatGPTのような消費者向けツールも企業環境で利用できる一方、ベラマンコンダは、最も成功している音声プラットフォームは、電話機能とコンプライアンス機能を統合することを目的に作られた専用ツールだと指摘する。大企業向けに会話型AIプラットフォームの領域を提供する主要プレイヤーとして、Avaamo、OpenStream AI、Poly AIを挙げた。企業にはLLMネイティブなフルスタックのソリューションを自社で構築する選択肢もあるが、より高コストで保守が難しくなる場合がある。

音声AIがバイブコーディングをどう作り変えているのか

コールセンター自動化以外で、音声の最大級のユースケースの1つがバイブコーディングである。音声入力ツールは、コーダーがキーボード入力だけの場合よりもはるかに速いペースで、話し言葉を通じて新しいプロダクトを構築するための手段を提供する。

「テキスト入力があるものは何でも、通常ならタイプしていたものは何でも、クリックしたり読んだり見たりできるボタンがあるものは何でも。プロダクトデザイナーはいま、それらに対する第一級の入力として音声を見ている。理由は、すべての環境ではないが、多くの環境では話すほうが簡単で、しかも速いからだ」と、リアルタイム音声AIベンダーDeepgramの共同創業者兼CEOであるスコット・スティーブンソンは、インタビューで私に語った。

いまや、より多くの開発者がワークフローの一部として音声AIツールを使っている。スティーブンソンは、自宅で何かをバイブコーディングしたいなら「音声でやって、より流れるように話しながら進めるほうが単純に速い」と主張する。

現在評価額が13億ドルのDeepgramは、音声エージェントを展開できるプラットフォームにより、クリスピー・クリームやポパイズを含む多くの企業で採用を獲得している。同社の技術は、2000超のサードパーティ製音声エージェントの基盤にもなっている。

Deepgram社内の開発慣行について問われると、スティーブンソンは、同社のトップエンジニアは単に音声入力を使っているだけではなく、音声でエージェントのチームを制御しており、Claude CodeやDeepgram Sagaのようなツールがワークフローの合理化に使われていると述べた。

IBMの音声AI導入への道

より広い視点で見れば、企業における音声AIの潜在的ユースケースはバイブコーディングをはるかに超える。IBMは近年、AIへの投資を大幅に進めている。IBMでAI技術パートナーシップ担当バイスプレジデントを務めるニック・ホルダによれば、同社はAIと自動化によって約70のワークフローを再構築し、その変革の一環として年間およそ45億ドルの生産性向上を生み出したという。いま同社は、音声技術の採用に照準を合わせている。

「音声AI技術は、その変革の旅の一部になり始めた段階にすぎないが、より大きな意味を持つ。人々が企業向けテクノロジーとどう関わるか、その在り方が変わるということだ。社内の例を1つ挙げれば、パスワードリセットや機器の申請など、電話で寄せられる一般的なIT・サポート依頼を社員が処理できるよう、AI音声アシスタントを導入した。これをグローバルな従業員規模で展開すると、こうしたやり取りは瞬く間に積み上がり、音声AIは従業員体験の向上と、より迅速で直感的なインタラクションの実現に寄与している」とホルダはメールで述べた。

IBMは最近、Deepgramを含むサードパーティの音声AIプロバイダーとの戦略的パートナーシップも発表した。これにより、ヘルスケアや金融サービスなどの業界で、自動カスタマーケア、通話分析、音声主導のデータ入力といったユースケースを支援している。

同社はまた、テキスト読み上げプロバイダーElevenLabsとも提携し、高品質な音声をIBM Watsonに統合した。IBMはこれにより、企業が地域ごとのアクセントや声質を含む70言語で会話できるAI搭載の音声エージェントを展開できるようになることを期待している。

過熱する期待には注意が必要だ

音声領域の進展は急速だが、導入への道のりには依然として障害がある。たとえば、これらのツールはユーザーの入力を誤って解釈することがなおあり、エンドユーザーや従業員の双方に不満を生む可能性がある。音声AIベンダーPoly AIの共同創業者兼CEOであるニコラ・ムルクシッチも、音声AIでコーディングすることが単なる目新しさ以上のものなのか疑問を呈した。なお、同氏の企業VocallQは以前Appleに買収されている。

「私は開発者で、バイブコーディングに夜の時間を完全に吸い取られている」とムルクシッチは語った。「でも、音声でコーディングするというのは、いまのところ少し虚栄的なユースケースだと思う。というのも、私の知る開発者は皆、ターミナルやCLIを愛していて、そこで、あるいはIDEの中で物事を進める力を重視しているからだ。Claude Codeには音声が有効になっているが、少しギミックだと思う。つまり、ノートPC上のSiriみたいなものだ」

ムルクシッチの立場はスティーブンソンのそれとは大きく異なる。このことは、音声アシスタントが提供する価値が、開発者がどのように働くことを好むかによって、チームごとに大きく変わり得ることを示している。万能の解はない。ムルクシッチはまた、音声AIの現状の限界についても懸念を共有した。「ハードウェアと私たちの想像力の間にはギャップがあり、どこで本当に役に立つのかという点で、まだ隔たりがあると思う」とムルクシッチは述べた。「その『キラーユースケース』をいくつか、まだ見つけられていない」

とはいえ、AIがカスタマーサポートの強化に非常に有用であり得ることは認めている。サポート業務の30〜40%を自動化できれば、待ち時間がゼロになり、全体としてサービス提供コストが大幅に低下し得ると指摘した。音声の導入は、CXを継続的に最適化するための基盤にもなる。

Poly AIは2017年の創業以来、評価額が7億5000万ドルに達し、市場における主要な音声エージェント提供企業の1社としての地位を確立してきた。主力製品のAgent Studioは、組織が自社の音声エージェントを構築するためのプラットフォームを提供する。顧客にはマリオット、シーザーズ、オールステート、ウニクレディト、ナットウエストなどが含まれる。

forbes.com 原文

タグ:

advertisement

ForbesBrandVoice

人気記事