日曜日の夜、バッド・バニーが第68回グラミー賞で、スペイン語のみで制作されたアルバムとして初めて「アルバム・オブ・ザ・イヤー」を受賞し歴史を刻んだその時、音楽業界の水面下では、それに匹敵する革命的な出来事が静かに進行していた。その2週間前、79歳のライザ・ミネリ氏が13年ぶりに新曲をリリースしたのだ。しかし、それは従来のスタジオを通じたものではなく、音そのものの作られ方を静かに再構築しているAIプラットフォームを通じてのことだった。
そのプラットフォームこそ、ElevenLabs(イレブンラボ)である。そして同社の野望は、音楽をはるかに超えて広がっている。
音声の力
Eleven Album(イレブン・アルバム)は、伝説的なアーティストの声とAI支援による作曲を組み合わせた、ジャンルを横断するコレクションだ。このプロジェクトには、ミネリ氏からバイラルプロデューサーのウィロニアス氏(「BBL Drizzy」の制作者)まで、13組のアーティストが参加し、それぞれがElevenLabsのEleven Musicジェネレーターを使用してオリジナル楽曲を制作している。ミネリ氏の楽曲「Kids Wait Till You Hear This」は、彼女の独特な声が脈打つ電子ビートに乗せられた、意表を突くEDMトラックだ。アート・ガーファンクル氏の「Authorship」は瞑想的な方向性を示す。穏やかなピアノと降る雨の音を背景にしたスポークンワード作品である。アルバムはラップ、ポップ、R&B、エレクトロニック・ミュージックにまたがり、参加アーティストは合計で10億回以上のストリーミング再生と複数のグラミー賞を誇る。このプロジェクトを際立たせているのは、その所有権構造だ。すべてのアーティストが完全な著作権、商業的権利、そしてストリーミング収益の100%を保持している。ミネリ氏は声明の中で次のように述べた。「私は両親が素晴らしい夢を創造するのを見て育ちましたが、それらは他人に所有されていました。ElevenLabsは、誰もがクリエイターであり所有者になることを可能にします」。アルバムはSpotify(スポティファイ)とElevenLabsのウェブサイトで配信されており、AIツールがアーティストの経済的利益を守りながら人間の創造性を増幅できることの証明として位置づけられている。
これは単なるPRスタントではない。音声の力と、音声がAI時代の新たなUIになりうることを示す、ElevenLabsによる最新のイノベーションなのだ。
同社が11月に立ち上げたIconic Marketplace(アイコニック・マーケットプレイス)では、マイケル・ケイン卿、マヤ・アンジェロウ博士をはじめ、CMG Worldwideとの提携を通じてジュディ・ガーランド、ジェームズ・ディーン、ローレンス・オリヴィエといった故人を含む25人以上の文化的アイコンの音声を企業がライセンス利用できる。「ElevenLabsはテクノロジーの最前線にあり、人間性を置き換えるのではなく、それを称えるためにイノベーションを活用しています」とケイン氏はローンチ時に語った。
11月に開催されたElevenLabs初のサミットで、同社はマシュー・マコノヒー氏が数年前から投資家であったことを明らかにした。同氏は現在、自身のAIクローン音声を使用して、ニュースレター「Lyrics of Livin'」のスペイン語版を制作するためにプラットフォームを活用している。「変わらないのは、ElevenLabsが解き放つ並外れたストーリーテリング能力と創造的可能性です」とマコノヒー氏は述べた。「それは最初から私の目を引き、プロのストーリーテラーとしての私に訴えかけるものでした」。
2025年12月、ElevenLabsはEleven Musicを立ち上げた。自然言語プロンプトからスタジオグレードの音楽を生成し、映画、テレビ、ポッドキャスト、ゲームでの商用利用が認められている。無許可のカタログで訓練するのではなく、レーベルやパブリッシャーと協力して作成されたこのサービスは、倫理的なAI開発が「素早く動いて破壊する」アプローチの法的リスクを上回るという同社の賭けを表している。
新たなUIとしての音声
現在、世界中で84億台の音声対応デバイスが使用されている。これは世界人口を上回る数字で、2020年の42億台から倍増した。米国だけでも音声アシスタントユーザーは2026年までに1億5700万人に達すると予測されており、2024年に120億ドルと評価された会話型AI市場は、年率23.7%で成長し、2030年までに410億ドルに達すると予測されている。
これが私たちが経験してきた他のすべての「パラダイムシフト」と異なる点は次の通りだ。音声は学習を必要としない。あなたの祖母はすでにそのインターフェースを知っている。外科医が手術中にメモを口述したり、営業担当者が通話の合間の運転中にSalesforce(セールスフォース)を更新したりする時、それはテクノロジーの採用ではない。それは摩擦の消失なのだ。
50年間、私たちは人間にコンピューター語を話すよう訓練してきた。クリック、タップ、スクロールといったグラフィカルインターフェースを通じて。アップルがそれをあまりにも直感的にしたため、私たちはそれが比喩であることに気づかなくなった。音声AIはその方程式を逆転させる。コンピューターに人間語を話すよう訓練するのだ。OpenAI(オープンAI)が2026年に向けて新しいオーディオモデルを開発し、元アップルのデザイン責任者ジョニー・アイブ氏がハードウェア開発を指揮していることは、シリコンバレーの大手企業が音声を次のコンピューティングのフロンティアと見なしていることを示している。すべての顧客接点、すべてのブランドインタラクション、すべての購買決定への影響は深遠だが、ほとんどの役員会議室ではまだ十分に検討されていない。
音声をテクノロジーの中心に据える
幼なじみのマティ・スタニシェフスキ氏とピョートル・ダブコフスキ氏によって2022年に設立されたElevenLabsは、オーディオがビッグテックが想定する以上に重要になると賭けた。OpenAI、グーグル、メタが音声をより大きなプラットフォーム内の機能として扱う中、ElevenLabsはそれを中心に据えた企業全体を構築した。2026年1月時点で、このスタートアップは年間経常収益(ARR)3億3000万ドルを突破しており、2026年は消費者と企業の両方にとってAI音声のブレイクアウトイヤーになる可能性がある。
このプラットフォームは、32言語にわたる1000以上の合成音声をサポートしている。音声クローニングに必要なのはわずか30秒のサンプル音声だ。応答時間は75ミリ秒に達し、会話がロボット的ではなく自然に感じられるほど高速だ。この技術には「ソニック・フィンガープリント」が含まれている。これはデジタル透かしのように機能する独自の音周波数で、ElevenLabsが生成したコンテンツを検証する。フォーチュン500企業の41%がこのプラットフォームを使用しており、企業は月間5万件以上の顧客電話を処理している。
2025年1月、同社はアンドリーセン・ホロウィッツとICONIQ Growthが共同主導する1億8000万ドルのシリーズC資金調達ラウンドを、33億ドルの企業価値評価で実施した。当時の新規投資家には、NEA、Endeavor Catalyst、アブダビのLunateに加え、ドイツテレコム、LG、HubSpot(ハブスポット)、NTTドコモ、RingCentral(リングセントラル)、エヌビディアなどの戦略的支援者が含まれていた。2025年9月までに、ICONIQとセコイアが従業員株式1億ドルを購入し、企業価値評価を66億ドルに倍増させた。
「私たちは常に、オーディオは非常に重要なモダリティであり、このカテゴリーで非常に大きな企業が構築されるだろうと感じていました」と、取締役会に加わったICONIQのパートナー、セス・ピエールポン氏はTechCrunchに語った。「私たちは、技術の質、マインドシェアと勢いの面でいかに急速に上昇したか、そして創業者のドメイン専門知識の深さに感銘を受けました」。
企業におけるAI音声の成長
企業におけるAI音声ツールの採用を示す多くの事例がある。
トヨタの北カリフォルニアのディーラーは、49ersのクォーターバック、ブロック・パーディ氏をフィーチャーした音声体験を立ち上げた。その結果は従来のメディア指標を圧倒した。最初の数週間で1万2000件以上の音声インタラクションがあり、ユーザーあたりの平均エンゲージメント時間は約2分で、テレビの15〜30秒、ソーシャルメディアの3〜6秒と比較して大幅に長かった。会話の25%以上が、リードフォームの送信や製品探索といった意味のあるアクションに転換した。トヨタがマーケティングスタックにAI駆動の音声体験を実装したのはこれが初めてだった。これは単なるギミックではなく、視覚的広告では不可能な規模で音声が真のインタラクションを生み出すことの証明だった。
エリート法律事務所や企業が使用するAI法務プラットフォームのHarvey(ハーヴェイ)は、ElevenLabsと提携して、法曹界初のグローバルで多言語対応の音声を作成した。「このパートナーシップは、法務AIをよりグローバルで、アクセスしやすく、人間的なものにします」とCEOのウィンストン・ワインバーグ氏は述べた。「ElevenLabsとともに、私たちはすべての弁護士が自分の言語と文脈でHarveyと関わることができるようにしています」。将来の機能には、音声による裁判シミュレーション、多言語音声翻訳、トーンのカスタマイズが含まれる。音声AIが専門サービス(専門知識とニュアンスが重要な分野)に参入する時、知識労働への影響は無視できなくなる。
そしてウクライナがある。ElevenLabsは、デジタル変革大臣ミハイロ・フェドロフ氏と覚書を締結し、「世界初のエージェント型政府」の構築を支援している。これは、省庁を横断して市民のために働くAIエージェントだ。教育省は、パーソナライズされたAIチューターのためのアプリ、Mriiaを開発している。経済省は、企業を支援するプラットフォームObriyに音声エージェントを統合している。ウクライナはすでに公共サービスエージェントアプリDiia.AIを立ち上げている。ElevenLabsはキーウにエンジニアを配置している。「ウクライナの仕事のペースは、イノベーションが平和の贅沢ではなく、前進するための静かな仕事であることを思い出させてくれます」とスタニシェフスキ氏は書いた。
すべての機会について、リスクとのバランスも取らなければならない。AI音声ツールを使用した詐欺、なりすまし、選挙干渉の可能性は現実のものであり、増大している。
同社は無許可のなりすましを禁止し、機械と人間によるモデレーションを使用し、音声が自社のプラットフォームを通じて生成されたかどうかを検証するための公開ツールを維持している。「AIオーディオ作業の最前線にいる企業の1つとして、私たちは適切な安全メカニズムを構築することを責任と考えています」とスタニシェフスキ氏はTechCrunchに語った。「私たちは、展開のスピードや商業的利益よりも安全性を優先する選択を頻繁に行います」。
それで十分かどうかは未解決の問題だ。しかし、リスクが収まるのを待ちたいと考えている経営者にとって、不都合な現実がある。あなたの競合他社は待っていない。そして、音声ファーストの能力が当たり前になる前にそれを構築する機会の窓は、ほとんどの企業が認識しているよりも速く閉じつつある。
消費者向け戦略
ElevenLabsは主にB2Bパートナーシップを通じて成長してきた。Perplexity(パープレキシティ)、Chess.com、ESPN、The Atlantic、Lex Fridmanポッドキャストのオーディオを支えている。しかし、スタニシェフスキ氏は消費者への野望も明確にしている。
同社初の消費者向け製品ElevenLabs Readerは、2024年にAI音声を使用して記事、文書、書籍を音読するアプリとして立ち上げられた。その後、文書からポッドキャストを生成する機能が登場した。これはグーグルのNotebookLMの直接的な競合だ。現在、同社は著者がAI生成のオーディオブックをReader上で直接出版できるようにしており、アマゾンのAudible(オーディブル)に対抗している。著者へのピッチはシンプルだ。ElevenLabsはより良いロイヤリティ率を主張しており、リスナーが11分以上エンゲージすると約1.10ドルを支払う。テスト中、平均ユーザーはセッションあたり19分を費やした。このプラットフォームは、サポートされている32言語すべてで支払いを拡大し、AI朗読コンテンツのグローバル市場を創出する計画だ。セルフパブリッシングを発表する数日前、ElevenLabsはSpotifyとAI朗読オーディオブックで提携した。同社はツールを構築しているだけでなく、流通網も構築している。
あなたは音声への旅を始めたか
音声の採用は、予測可能なテクノロジー採用の軌跡をたどる。第1波(2024〜2026年)は効率性を向上させる。既存のワークフローが高速化される。第2波(2026〜2028年)は、音声でのみ可能な新しいワークフローを創出する。第3波(2028〜2030年)はアンビエント・インテリジェンスを提供する。音声がデフォルトのインターフェースになり、区別は完全に消失する。
私たちは第1波にいる。第3波が到来するまで、あなたには約1000日ある。
新しいテクノロジーと破壊について読むのは簡単だ。それについて何かをするのは難しい。音声を始めるためにできる3つのことを以下に示す。
- 1つの顧客接点で30日間の音声パイロットを実施する。最も摩擦の大きいインタラクション(サポート電話、予約スケジューリング、リード審査)を選び、現在の指標に対して音声AIをテストする。トヨタはテレビの15秒に対して2分のエンゲージメントを記録した。戦略を構築する前に、自社のベースラインが必要だ。
- 音声のためにブランドを監査する。ロゴ、色、パッケージング、ウェブサイトを取り除く。何が残るか。競争優位性が視覚的な不動産に依存している場合、顧客がスクロールではなく話すようになった時に生き残る資産の構築を始めよう。また、独自データ、ワークフロー統合、そしてもちろん、すべてのインタラクションにおける信頼を創出する方法を考えよう。
- 社内に音声責任者を任命する。あなたの会社で「音声」を所有しているのは誰か。音声インターフェースを通じて会社がどのように聞こえ、応答し、インタラクションするかについて、部門横断的な権限を持つのは誰か。音声AIで勝利している企業(トヨタ、Harvey、Spotify)は、コンセンサスを待たなかった。彼らは動いた。
ElevenLabsの軌跡は、同社が音声のAWSを構築していることを示唆している。他のすべての企業が構築する基盤となるインフラ層だ。倫理的開発とクリエイターパートナーシップへの賭けが、競合他社の「素早く動いて破壊する」アプローチよりも持続可能であることが証明されるかどうかは、私たちがどのような音声ファーストの未来を手に入れるかを決定する一助となるだろう。
しかし、すでに明らかなことが1つある。顧客がクリックではなく話すことができるようになり、AIエージェントが彼らに代わって交渉し、音声がインターフェースを必要としないインターフェースになる時、視覚的なブランドの堀は一夜にして水没する。パッケージング、棚の配置、ロゴ認識を中心に競争優位性を構築してきた企業は、それらの優位性が通用しないことに気づくだろう。カスタマージャーニーは、新しいブランドタッチポイントの機会とともに再発明されるだろう。
「私の声とテクノロジーが組み合わさることで、単に別の扉が開くのです」とガーファンクル氏は語った。この記事を読んでいるすべての経営者への質問は次の通りだ。競合他社よりも先に、その扉をくぐるだろうか。



