Metaは、アーティストやサウンドデザイナーがAIだけでオーディオを制作することを可能にしようとしている。今回同社が発表した「AudioCraft」は、テキスト記述からサウンドを作成するための3つの既存の精製AIモデルをバンドルしたオープンソースキットだ。既に発表されているAudioGenとMusicGenはそれぞれ効果音と音楽を生成し、EnCodecはサウンドを圧縮してより高品質な結果を生成する。ミュージシャンやサウンドデザイナーは、作曲に必要なものをすべて手に入れることができるかもしれない。ただし、Audiocraftはまだ商用利用を認めていないのでその点は注意が必要だ。
このリリースには、すぐに始めたい人のために事前に訓練されたAudioGenモデルが含まれており、カスタマイズしたい人向けにはAudioCraftのコード全体とモデルの重みにアクセスできる。「オープンソースのデビューは、プロや研究者が自分のデータを使ってモデルを訓練する機会を与える」、とMetaは述べている。トレーニング済みのモデルはすべて、公開されている素材かMetaが所有する素材を使用しているため、著作権面での心配はいらない。
Metaは、AudioCraftを、生成AIオーディオをよりシンプルで利用しやすくする方法として位置づけている。AIが生成する画像やテキストは人気があるが、同社はサウンドは「少し遅れている」と考えている。既存のプロジェクトは複雑で、しばしば閉鎖的になりがちだ。理論的には、新しいキットは、クリエイターが独自のモデルを形成し、可能性を広げる機会を提供する。
市場にあるオープンなテキスト音声AIはこれだけではない。Googleは5月にMusicLMモデルを公開した。Metaのシステムもまた、日常的なユーザー向けに設計されていない。AudioCraftを適切に使用するには、やはり技術的な知識が必要だ。開発者たちはまた、これらのモデルの性能と制御方法を改善し、その可能性を広げようとしている。
リリース後、Metaはオープンソースモデルの重要性を改めて強調する:「責任あるイノベーションは単独では起こりえません。責任あるイノベーションは単独では起こりえません。私たちの研究とその結果のモデルをオープンソース化することで、誰もが平等にアクセスできるようになるのです」。
Sources
コメントを残す