AudioCraftは、テキストベースのユーザー入力から高品質でリアルな音声と音楽を生成できるダイナミックフレームワークを基盤としている。プロのミュージシャンが新しい作曲を探求したり、インディーズゲーム開発者がバーチャル世界をサウンドエフェクトで盛り上げたり、中小企業の経営者がインスタグラムの投稿にサウンドトラックを簡単に追加したりできるようにすることで、音楽生成に革命を起こすことを目指す。
AudioCraftは、MusicGen、AudioGen、EnCodecと呼ばれる3つの強力なモデルの集合体だ。MusicGenはテキストベースのユーザー入力を使って音楽を生成し、AudioGenは同様の入力からアンビエントサウンドを生成する。両者とも、それぞれメタ所有の音楽と、特別にライセンスされたサウンドエフェクトを使って訓練されている。最近のリリースでは、EnCodecの改良版が加わった。このデコーダーは、事前に訓練されたAudioGenとすべてのAudioCraftモデルの重みとコードに基づいて、不自然さの少ない高品質の音楽生成を可能にする。
メタがAudioCraftでこのブレークスルーを達成できたのは、言語モデルを含む生成AIモデルが近年大きな進歩を遂げたからだ。これらのモデルはユーザーの説明からさまざまな画像、動画、テキストを生成し、先進的な空間理解を示してきた。しかし、その複雑さから、これまでオーディオ生成は遅れ気味だった。そんな中でAudioCraftが大きな違いを生み出した。
AudioCraftのソースコードはGitHubで公開されており、研究者や実務家がこれらのモデルにアクセスし、データセットでトレーニングすることができる。
AudioCraftは、これまでは信号とパターンの複雑なモデリングが必要だった高品質オーディオ生成を簡素化する。特に音楽においては、局所的かつ長距離的なパターンが含まれるため、生成AIはMIDIやピアノロールのような記号表現に大きく依存してきた。しかし、こうした方法では、音楽に見られる複雑な表現ニュアンスや様式的要素を捉えることはできない。それに比べて、AudioCraftのモデルは、よりユーザーフレンドリーなインターフェイスによって、高品質なオーディオを長時間安定して再生することができる。