Meta、音楽のStable Diffusionとなりうる「MusicGen」をオープンソースでリリース

MetaのAudiocraft研究チームは、テキストプロンプトに基づいて新しい音楽を生成し、既存の曲に合わせることもできるディープラーニング言語モデル「MusicGen」をオープンソースでリリースした。

現在の多くの言語モデルと同様に、MusicGenはトランスフォーマーモデルをベースにしています。言語モデルが文中の次の文字を予測するように、MusicGenは楽曲の次のセクションを予測する。

トレーニングに使用するオーディオデータは、Meta社のEnCodecオーディオトークナイザーを使用して、より小さなコンポーネントに分解される。このアプローチにより、モデルはトークンを並列に処理することができ、効率的かつ高速に音楽を生成することができるという。

トレーニングプロセスでは、社内データセットにある10,000曲の高品質な音楽トラックと、ShutterstockやPond5の音楽データを含む、20,000時間のライセンス音楽のデータセットを利用した。この豊富なトレーニングデータセットにより、MusicGenは多様な音楽スタイルと楽曲を利用することが出来る様になっている。

MusicGenの主な特徴の1つは、テキストと音楽の両方のプロンプトを扱うことができることだ。テキストプロンプトは基本的なスタイルを設定し、それをオーディオファイルのメロディとマッチングさせる。例えば、特定の音楽スタイルを記述したテキストプロンプトと有名な楽曲のメロディを組み合わせることで、MusicGenは希望するスタイルを反映した新しい音楽を生成することが出来るのだ。

ただし、MusicGenは特定のプロンプトに基づいて音楽を生成するための大まかなガイドラインを提供することは出来るが、メロディに対する方向性や異なるスタイルのメロディを聞く能力に関する正確な制御を提供するものではないことには注意が必要だ。生成された出力は、正確な複製ではなく、創造的な解釈として機能する。

性能面では、3億から33億のパラメータを持つモデルの大きさを変えて実験した。その結果、一般的に大きなモデルの方が高品質な音声が得られることが分かったが、人間の評価では15億パラメータのモデルが最も優れていると評価された。また、33億パラメータのモデルは、テキスト入力と音声出力の正確なマッチングに優れていた。

Riffusion、Mousai、MusicLM、Noise2Musicなどの他の音楽モデルと比較すると、MusicGenは、音楽と歌詞の一致度や作曲の妥当性を評価する客観的・主観的指標で優れた性能を示している。MusicGenは、GoogleのMusicLMよりも上位に位置し、まさにStable Diffusionの登場が画像生成AI業界にもたらした様な大きな衝撃を、音楽業界においてももたらすような存在になるかも知れない。

Metaは、MusicGenのコードとモデルをオープンソースとしてGitHubに公開し、研究者や商用ユーザーがこの技術にアクセスし利用できるようにした。これにより、AIが生成する音楽の分野でのさらなる開発、コラボレーション、イノベーションが促進されるだろう。MusicGenのデモはHuggingfaceプラットフォーム上でも公開されており、その機能を実際に体験することが出来る。

Source