従来の拡散モデルとは異なり“ゼロ”から画像を生成する「Blackout-Diffusion」が発表

アメリカのロスアラモス国立研究所の研究チームは、「Blackout-Diffusion」と名付けられた革新的な人工知能フレームワークを発表した。このフレームワークは、Stable DiffusionやDALL-E、Midjourneyといった現在多くの画像生成AIが用いている従来の生成拡散モデルとは異なり、生成を開始するための「ランダムシード」を必要とせず、完全に空の画像から画像を生成することが可能だという。

ロスアラモス国立研究所のAI研究者であり、Blackout-Diffusionに関する論文の共著者であるJavier Santos氏は、「生成モデリングは、ソフトウェアコード、法的文書、さらには芸術作品の生成など、多くのタスクを支援する能力を持つ次の産業革命をもたらしています。生成モデリングは科学的発見をするために活用することができ、私たちのチームの研究は、生成拡散モデリングを、本質的に連続的でない科学的問題に適用するための基礎と実用的なアルゴリズムを確立したのです」と述べている。

「Diffusion model（拡散モデル）」は、データの拡散過程（ノイズが付与されて破壊される過程）を学習したモデルのことだ。拡散モデルには、元の画像データにノイズ（Gaussian Noise）を加えていくForward processと、ノイズ分布の状態からノイズを除去することで画像データを作成するReverse Processの2つのプロセスがある。Forward processでは、モデルは元の画像データにランダムノイズを加えていき、最終的にはノイズだけに変換するプロセス（拡散過程）を行うことで、データが破壊される過程を学習する。Reverse Processでは、ガウス分布からノイズを取り除いていき、画像を作成するプロセス（逆拡散過程）を行う。この際に、Forward processで学習した「データが破壊される過程」を参考にして、データを修復し、意味のある画像を生成する。

そのため、現行のモデルは入力ノイズを必要とし、画像を生成するために何らかの形のデータが必要だ。だが、Blackout-Diffusionではこれを必要としないのだ。

「Blackout-Diffusionによって生成されたサンプルの品質は、より小さな計算空間を使用して現行モデルと比較しても同等であることを示しました」と、Blackout-Diffusionのコラボレーションを率いたロスアラモスの物理学者、Yen Ting Lin氏は述べている。DALL-E や Midjourney などの現在の普及モデルに匹敵するサンプルを生成するが、必要な計算リソースはこれらのモデルよりも少なくなるというのだ。

Blackout-Diffusionのもう一つのユニークな側面は、それが動作する空間だ。既存の生成拡散モデルは連続空間で動作し、その空間は密で無限だ。しかし、連続空間での作業は、科学的応用の可能性を制限します。

「既存の生成拡散モデルを実行するためには、数学的に言えば、拡散は連続領域に存在しなければならない。これは離散的であってはならないのです」とLin氏は述べている。

一方、チームが開発した理論フレームワークは、離散空間（つまり、空間内の各点がある距離で互いに隔てられている）で動作し、テキストや科学的応用など、さまざまな応用の機会を開くことができるという。

チームは、Blackout-Diffusionを標準化されたデータセットの数々でテストした。これには、改良された国立標準技術研究所のデータベース、10種類の異なるクラスのオブジェクトの画像が含まれるCIFAR-10データセット、20万枚以上の人間の顔の画像が含まれるCelebFaces属性データセットが含まれる。さらに、チームはBlackout-Diffusionの離散的な性質を利用して、拡散モデルが内部的にどのように機能するかについての広く誤解されている概念をいくつか明確にし、生成拡散モデルに関する重要な理解を提供した。

彼らはまた、将来の科学的応用のための設計原則を提供する。「これは離散状態の拡散モデリングに関する最初の基礎的な研究を示し、離散データを持つ将来の科学的応用に向けた道を示しています」とLin氏は述べています。チームは、生成拡散モデリングが、スーパーコンピューター上で多くの科学的シミュレーションを実行するのに費やされる時間を劇的に短縮する可能性があると説明している。これは、科学的進歩を支援するとともに、計算科学の二酸化炭素排出量を削減することにもつながると説明している。彼らが挙げる多様な例には、地下貯水池のダイナミクス、薬物発見のための化学モデル、生物体内の生化学的メカニズムを理解するための単一分子および単一細胞の遺伝子発現などがある。

論文

arXiv: Blackout Diffusion: Generative Diffusion Models in Discrete-State Spaces

参考文献

Los Alamos National Laboratory: Novel AI framework generates images from nothing
GitHub: lanl/Blackout-Diffusion

研究の要旨

一般的な生成拡散モデルは、後方変換を学習するためにガウス拡散過程に依存しており、その後、ガウスノイズからサンプルを生成するために使用することができる。しかし、実世界のデータは、多くの科学的応用を含め、離散状態空間で行われることが多い。ここでは、（変分解析ではなく）厳密解析を用いて、前方拡散過程における任意の離散状態マルコフ過程の理論的定式化を行う。この理論を既存の連続状態ガウス拡散や他の離散拡散へのアプローチと関連づけ、連続時間設定では対応する逆時間確率過程とスコア関数を、離散時間設定では逆時間マッピングを同定する。この枠組みの例として、ノイズからではなく空の画像からサンプルを生成することを学習する「Blackout-Diffusion」を紹介する。CIFAR-10、二値化MNIST、CelebAデータセットを用いた数値実験により、本アプローチの実現可能性を確認する。特定の(ガウス)順方向過程から、変分近似を用いない離散状態過程への一般化は、拡散モデルの解釈方法に光を与える。