OpenAIのブログ投稿によれば、このツールは2022年に初めて作成され、それ以降、読書支援、コンテンツの翻訳、非言語的な人々のサポート、話すことに問題を持つ人々が自分の声を取り戻すのを助けるなどの、潜在的な用途を特定した少数のパートナーとテストを行ってきたという。
Voice Engineが「感情的でリアルな声を作成」するためには、わずか15秒間のオーディオサンプルとテキストサンプルがあればいい。またユーザー自身の言語以外の言語でも声の作成が可能だ。
OpenAIによれば、ツールのテストにアクセスした人はみな「同意なしに個人や組織をなりすますことを禁じ、元の話者から『明示的かつ情報に基づいた同意』を得るという使用ポリシーに同意した」という。
また、OpenAIは「人々の声に似た音声を生成することには深刻なリスクがある」ことを理解しており、そのリスクが「選挙年には最も考慮すべき事項である」と述べ、政府などからのフィードバックを製品開発に取り入れているとも述べた。
この音声生成ツールの発表は、テキストから動画を作成することができるツールSoraの発表のやり方に似ている。すなわち、プレビューは公開されたものの、現在実際に触れることができるのは一部のグループに限られている。
Voice Engineの公開予定日は不明で、そもそも一般公開されるかどうかも不明だ。OpenAIのブログ記事では「合成音声の責任ある展開」について、さらなるテストと議論を経た後に「このテクノロジーを大規模に展開するかどうか、そしてどのように展開するかについて、より情報に基づいた決定を下す」としている。
OpenAIは3月29日のブログ投稿で「私たちは、このVoice Engineのプレビューがその潜在能力を示すと同時に、高性能な生成モデルによってもたらされる課題も示し、社会の対応力を高める必要性を促すことを願っています」と述べている。
他にも、ElevenLabs(イレブンラボ)のような小企業から、グーグルのようなテック大手まで、各社が音声を模倣するツールをリリースしており、テキスト読み上げAIサービスの開発に取り組んでいる。しかし、最近では、これらのツールの使用に関する懸念が高まっている。
今年初め、ニューハンプシャー州で、ジョー・バイデン大統領になりすまして、民主党予備選挙で投票しないよう呼びかけるロボコールが出回った。最終的に、ニューオリンズを拠点とするマジシャンが、民主党の政治コンサルタントに雇われてAI生成の通話を作成したことが判明した。これらのコールの後、連邦通信委員会(FCC)はAI生成音声の使用を事実上違法とする決定を全会一致で採択した。
(forbes.com 原文)