スポティファイは、ポッドキャストをオリジナルの話者の声やスタイルに合わせて他言語に変換する「音声翻訳」機能の試験運用を開始する。
OpenAIは同日、同社の生成AI「ChatGPT」の新たな「音声と画像」機能の一環として、「テキストと数秒間のサンプル音声から人間のようなオーディオ」を生成してユーザーと会話する機能を搭載すると発表した。
スポティファイの新機能は、英語の音声を書き起こしたり、他の言語を英語に翻訳したりできるOpenAIのツール「ウィスパー」を使用している。試験として、英語のポッドキャスト3話がスペイン語に翻訳されており、有料会員登録の有無に関係なく利用できる。また、フランス語とドイツ語でも「数日から数週間のうちに」提供される予定だ。
翻訳されたポッドキャストは「音声翻訳ハブ」ページに集められる。同ページには、「今後数週間から数カ月かけて」新たなエピソードやポッドキャストが追加されるという。
スポティファイのポッドキャスト定期利用者数は1億人に上るとされる。
ここ数カ月で、自社製品に生成AIを使い始める企業が相次いでいる。メタは、ユーザーがAIを使って音楽やサウンドを生成できるツール「オーディオクラフト」をリリースすると発表。英紙フィナンシャル・タイムズは8月、グーグルとユニバーサル・ミュージック・グループが、AI生成音楽にアーティストのメロディーやボーカルの利用権を付与する可能性を協議していると報じた。またグーグルは今月、AIチャットボット「Bard(バード)」をYouTube、Gmail、Googleドライブなど他のアプリケーションに統合したと発表した。
生成AIについては、プライバシーと安全性に対する懸念も浮上している。OpenAIは、ChatGPTの「音声と画像」機能について、「悪意のある人が、著名人になりすましたり、詐欺を働いたりする可能性」などがあるとし、リスク緩和のため徐々に導入する方針だとしている。
(forbes.com 原文)