Meta が音楽やサウンドを作成するための生成 AI をリリース • The Register
ホームページホームページ > ニュース > Meta が音楽やサウンドを作成するための生成 AI をリリース • The Register

Meta が音楽やサウンドを作成するための生成 AI をリリース • The Register

Apr 29, 2024

Metaは水曜日、テキストの説明から音声を自動的に作成できる3つのAIモデルのセットであるAudioCraftをリリースした。

書かれたプロンプトを受け取り、それを画像やその他のテキストに変換する生成 AI モデルが成熟し続ける中、コンピューター科学者は機械学習を使用して他の形式のメディアを作成することを検討しています。

AI システムにとってオーディオ、特に音楽は困難です。なぜなら、ソフトウェアは数分間にわたって一貫したパターンを生成することを学習し、キャッチーで聞き心地の良いものを生成するのに十分な創造性を備えている必要があるからです。

「44.1 kHz (音楽録音の標準品質) でサンプリングされた数分の典型的な音楽トラックは、数百万のタイムステップで構成されています」とチーム メタは説明しました。 つまり、オーディオ生成モデルは人間に優しいトラックを構築するために大量のデータを出力する必要があります。

「それに比べて、Llama や Llama 2 のようなテキストベースの生成モデルには、サンプルあたりわずか数千のタイムステップを表すサブワードとして処理されたテキストが供給されます。」

Facebook の巨人は、人々が AudioCraft を使用して、楽器の演奏を学ばなくてもコンピュータ生成サウンドの作成を実験できるようにすることを構想しています。 このツールキットは、MusicGen、AudioGen、EnCodec の 3 つのモデルで構成されています。

MusicGen は、Meta が所有またはライセンスを取得した 20,000 時間の録音と、それに対応するテキストの説明を使用してトレーニングされました。 AudioGen は音楽よりも効果音の生成に重点を置いており、公開データに基づいてトレーニングされています。 最後に、EnCodec は、高忠実度でオーディオ信号を圧縮および解凍できる非可逆ニューラル コーデックとして説明されています。

Meta氏は、AudioCraftを「オープンソース化」していると述べたが、それはある程度のことだ。 モデルの作成とトレーニング、および推論の実行に必要なソフトウェアは、オープンソースの MIT ライセンスの下で入手できます。 このコードは、研究プロジェクトだけでなく、無料 (フリーダムや無料ビールなど) および商用アプリケーションでも使用できます。

とはいえ、モデルの重みはオープンソースではありません。 これらは、商業利用を特に禁止するクリエイティブ コモンズ ライセンスに基づいて共有されます。 Llama 2 で見たように、Meta がオープンソース関連について話すときは必ず、細かい部分を確認してください。

MusicGen と AudioGen は、入力テキスト プロンプトが与えられるとサウンドを生成します。 ここで、Meta の AudioCraft ランディング ページで、「風が吹いて口笛が吹く」および「キャッチーなメロディー、トロピカルなパーカッション、陽気なリズムを備えたビーチに最適なポップ ダンス トラック」という説明から作成された短いクリップを聞くことができます。

短い効果音はリアルですが、音楽っぽい効果音はあまり良くないと思います。 それらは、ヒットシングルというよりは、悪いホールドミュージックやエレベーターソングの繰り返しの一般的なジングルのように聞こえます。

Meta の研究者らによると、AudioGen は、生の音声を一連のトークンに変換し、これらを高忠実度の音声に戻すことで入力を再構築することによってトレーニングされています。 言語モデルは、入力テキスト プロンプトのスニペットを音声トークンにマッピングして、単語と音の相関関係を学習します。 MusicGen は、効果音ではなく音楽サンプルに対して同様のプロセスを使用してトレーニングされました。

「研究を不可解なブラックボックスとして保持するのではなく、これらのモデルをどのように開発するかをオープンにして、研究者であろうと音楽コミュニティ全体であろうと、人々がこれらのモデルが何をできるのかを理解するのに役立ちます。実行し、何ができないかを理解し、実際にそれらを使用する権限を与えてください」とチーム・メタは主張した。

「将来的には、メタバース用の世界を構築する大規模な開発者であれ、ミュージシャン (アマチュア、プロ、またはそれ以外の場合は、次の作品に取り組んでいる人、または創造的な資産のレベルを上げたいと考えている中小企業の経営者です。」

ここで AudioCraft コードを取得し、ここで MusicGen を試して試してみることができます。 ®

ニュースを送ってください