2023.08.07 15:00

メタのAudioCraftがあなたの言葉を「音楽に変える」

Janakiram MSV | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Getty Images

オーディオ生成において、AudioCraftは二段階の先進アプローチを採用している。まず、EnCodecのニューラル・オーディオ・コーデックを採用し、生の信号から個別のオーディオ・トークンを学習することで、音楽サンプル用の新しい固定「語彙」を作成する。次に、これらの離散音声トークンに自己回帰言語モデルを使用して、新しいトークン、音、音楽を生成する。任意のオーディオを圧縮し、高忠実度で元の信号を再構築する訓練が施されたEnCodecは、残差ベクトル量子化ボトルネックを持つオートエンコーダを使用して、可能な限り高品質なオーディオトークンストリームを生成する。これにより、すべてのストリームからの高品質オーディオの再構築が可能になる。

AudioCraftの基本モデルの1つであるMusicGenは、音楽生成に特化している。MusicGenは、テキスト記述とメタデータを含む約40万件の録音（2万時間分の音楽に相当）を使ったトレーニングにより、斬新な音楽作品を創作する上で重要な長時間の首尾一貫したサンプルを生成することに優れている。

AudioCraftは大きな進歩を遂げたが、メタの研究チームはさらに上を目指し続けている。今後の研究の焦点は、モデルのスピードと効率の向上、そしてモデル制御の改善だ。これは新たなシナリオや可能性を開くだけでなく、さらなる条件付け方法の探求、モデルがさらに長い範囲の依存性を捉える能力の拡大、オーディオで訓練されたモデルの限界とバイアスの理解にも役立つ。

メタは、その研究における責任と透明性に対する強いコミットメントを持っていると主張している。モデルの訓練に使用されるデータセットの多様性が欠如していることを認識し、この問題の是正に努めている。メタはAudioCraftのコードを共有することで、他の研究者が新たなアプローチをより容易にテストすることを可能にし、生成モデルの潜在的なバイアスや誤用を軽減することを目指しているのだ。

オープンソースの重要性を強調する同社は、研究やモデルへの平等なアクセスを保証している。メタは「責任あるAI」の原則に基づき、AudioGenとMusicGenがどのように構築されたかを詳述したモデルカードを公開した。このオープンソース基盤は、イノベーションを促進し、将来的にオーディオと音楽がどのように制作され、どのように聴かれるかを補完するものとなる。

音楽ベースのモデルをリリースしているのはメタだけではない。2023年1月には、グーグルはテキスト記述から忠実度の高い音楽を生成できる基盤モデル、MusicLMを発表した。このモデルにアクセスするには、グーグルのAI Test Kitchenでウェイティングリストに登録する必要がある。

AudioCraftフレームワークは、生成AIの分野の有望な未来を秘めている。頑健で首尾一貫した高品質のオーディオサンプルを生成する能力は、生成AI研究における重要な一歩を意味しているのだ。この進歩は、聴覚やマルチモーダルインターフェースを考慮した高度なヒューマンコンピュータインタラクションモデルの開発に大きな影響を与える。AudioCraftが進化し続ければ、映画のバックグラウンドミュージックを生成するほどに成熟する可能性もあるだろう。

（forbes.com 原文）