Stable Diffusionを用いてテキストから“音楽”を生成するツール「Riffusion」が公開

AIが音楽を生成するというサービス自体は、Soundrawに代表されるように、既に一般的なものであるが、今回TechCrunchで紹介されていた「Riffusion」という音楽生成AIは、その奇抜なアプローチから、AIの利用に関する人々の想像力の素晴らしさを感じずにはいられない非常に興味深いものだ。

Source

Riffusion: Riffusion – About
TechCrunch: Try ‘Riffusion,’ an AI model that composes music by visualizing it

今年リリースされた深層機械学習モデル「Stable Diffusion」は、テキストから高品質な画像を生成することで大きな話題を呼んだ。

このモデルが優れている点は、オープンソースであることから、この優れたAIを自身のアプリに実装させたりすることが出来ることだろう。既に、Lensa AIなどに実装され、開発者自身が、新たなAIの楽しみ方を提案することや、そもそも画像を生成するのではなく、画像の圧縮率を上げることに利用されるなど、有用性を示すことにも繋がっている。

そしてまた1つ、Seth ForsgrenとHayk Martirosという2人の研究者が、Stable Diffusionの大きな可能性を示した。彼らは、スペクトログラム（音の強さを時間と周波数の関数として表したグラフィック表現）の生成にStable Diffusionを用いたのだ。

astronaut — Stable Diffusionを用いて馬に乗った宇宙飛行士の画像を生成

そして、楽器を組み合わせて音楽の抜粋を生成し、興味深い結果を生み出すツール、Riffusionを作り出したのだ。

スペクトログラムは、サウンドクリップの周波数コンテンツを視覚的に表現する方法だ。X軸は時間、Y軸は周波数を表す。各ピクセルの色は、その行と列で与えられた周波数と時間におけるオーディオの振幅を表す。

スペクトグラムは、短時間フーリエ変換（STFT）を用いて音声から計算することができる。STFTは、音声を振幅と位相の異なる正弦波の組み合わせとして近似するものだ。

STFTは反転可能であるため、ForsgrenとMartirosはStable Diffusionで作られたスペクトログラムを使って音声を作成したようだ。この過程で、スペクトログラムにはそもそも正弦波の振幅しか含まれていなかったため、Griffin-Limアルゴリズムを用いて位相を近似し、オーディオクリップの再構成を行っている。

また、オーディオ処理の効率化のためにはGPUを用いているが、そのためにTorchaudioライブラリを使用している。

2人の研究者による成果は、RiffusionプロジェクトのWebサイトで聴くことができる。Text-to-ImageモデルであるStable Diffusionを用いているため、生成したい音楽の種類を文書で記述すれば、自分で音楽を生成することも可能だ。Riffusionの詳細な技術情報は、専用ページで解説されている。

GitHubリポジトリへのリンクは、同ページの下部に公開されている。興味がある場合は、コードをダウンロードして、自分のシステムでRiffusionを使用することも可能だ。

Stable Diffusionを用いてテキストから“音楽”を生成するツール「Riffusion」が公開

「宇宙人は地球に知的生命体がいることに気付いていない」フェルミのパラドックスに新たな解釈

Stable Diffusion3.0では、アーティストが自分の作品をAIのトレーニングに利用されないようにする事が出来るかも知れない

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

Stable Diffusionを用いてテキストから“音楽”を生成するツール「Riffusion」が公開

「宇宙人は地球に知的生命体がいることに気付いていない」フェルミのパラドックスに新たな解釈

Stable Diffusion3.0では、アーティストが自分の作品をAIのトレーニングに利用されないようにする事が出来るかも知れない

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル