Stable Diffusionを用いてテキストから“音楽”を生成するツール「Riffusion」が公開

masapoco
投稿日 2022年12月16日 17:51
riffusion webpage

AIが音楽を生成するというサービス自体は、Soundrawに代表されるように、既に一般的なものであるが、今回TechCrunchで紹介されていた「Riffusion」という音楽生成AIは、その奇抜なアプローチから、AIの利用に関する人々の想像力の素晴らしさを感じずにはいられない非常に興味深いものだ。

今年リリースされた深層機械学習モデル「Stable Diffusion」は、テキストから高品質な画像を生成することで大きな話題を呼んだ。

このモデルが優れている点は、オープンソースであることから、この優れたAIを自身のアプリに実装させたりすることが出来ることだろう。既に、Lensa AIなどに実装され、開発者自身が、新たなAIの楽しみ方を提案することや、そもそも画像を生成するのではなく、画像の圧縮率を上げることに利用されるなど、有用性を示すことにも繋がっている。

そしてまた1つ、Seth ForsgrenとHayk Martirosという2人の研究者が、Stable Diffusionの大きな可能性を示した。彼らは、スペクトログラム(音の強さを時間と周波数の関数として表したグラフィック表現)の生成にStable Diffusionを用いたのだ。

そして、楽器を組み合わせて音楽の抜粋を生成し、興味深い結果を生み出すツール、Riffusionを作り出したのだ。

スペクトログラムは、サウンドクリップの周波数コンテンツを視覚的に表現する方法だ。X軸は時間、Y軸は周波数を表す。各ピクセルの色は、その行と列で与えられた周波数と時間におけるオーディオの振幅を表す。

スペクトグラムは、短時間フーリエ変換(STFT)を用いて音声から計算することができる。STFTは、音声を振幅と位相の異なる正弦波の組み合わせとして近似するものだ。

STFTは反転可能であるため、ForsgrenとMartirosはStable Diffusionで作られたスペクトログラムを使って音声を作成したようだ。この過程で、スペクトログラムにはそもそも正弦波の振幅しか含まれていなかったため、Griffin-Limアルゴリズムを用いて位相を近似し、オーディオクリップの再構成を行っている。

また、オーディオ処理の効率化のためにはGPUを用いているが、そのためにTorchaudioライブラリを使用している。

2人の研究者による成果は、RiffusionプロジェクトのWebサイトで聴くことができる。Text-to-ImageモデルであるStable Diffusionを用いているため、生成したい音楽の種類を文書で記述すれば、自分で音楽を生成することも可能だ。Riffusionの詳細な技術情報は、専用ページで解説されている。

GitHubリポジトリへのリンクは、同ページの下部に公開されている。興味がある場合は、コードをダウンロードして、自分のシステムでRiffusionを使用することも可能だ。



この記事が面白かったら是非シェアをお願いします!


  • telescope
    次の記事

    「宇宙人は地球に知的生命体がいることに気付いていない」フェルミのパラドックスに新たな解釈

    2022年12月17日 6:15
  • 前の記事

    Stable Diffusion3.0では、アーティストが自分の作品をAIのトレーニングに利用されないようにする事が出来るかも知れない

    2022年12月16日 13:47
    stable diffusion v2 sample

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事