MIT、Stable Diffusionを元に超高速に高品質な画像生成を行う手法を開発 | TEXAL

MIT、Stable Diffusionを元に超高速に高品質な画像生成を行う手法を開発

masapoco

投稿日 2024年3月25日 18:41

テクノロジー

FireShot Capture 273 One step Diffusion with Distribution Matching Distillation tianweiy.github.io

本記事は広告およびアフィリエイトプログラムによる収益を得ています。

Stable DiffusionやMidjourneyなどのAI画像ジェネレーターに用いられているDiffusionモデルは何度も繰り返し、複数のステップを踏むことでしか高品質の画像を生成できなかった。だが、マサチューセッツ工科大学（MIT）の研究チームは、このプロセスを1ステップに圧縮することに成功したという。

MITのコンピュータ科学・人工知能研究所（CSAIL）の研究者らが開発し、「One-step Diffusion」と名付けられたプロジェクトは、従来のDiffusionモデルを使った画像生成を劇的に高速化できる画期的なものだ。

このOne-step Diffusionは、分布マッチング蒸留（Distribution Matching Distillation：DMD）と呼ばれる新手法に基づいている。これを用いることで、従来必要だった20以上の反復ステップの代わりに、たった1ステップで生成が完了するのだ。

同様の実験は、Stable Diffusionを開発したStability AI社が直接行ったものも含め、すでに実施されている。しかし、MITの手法で生成された画像の品質は、品質の面で、計算量の多い手法に匹敵するとのことだ。

「この進歩により、計算時間が大幅に短縮されただけでなく、生成されたビジュアルコンテンツの品質も維持されています」と、筆頭著者でMITの電気光学とコンピューターサイエンスの博士課程に所属するTianwei Yin氏は述べている。

Diffusionモデルは、鮮明な画像が現れるまで、ノイズの多い初期状態に徐々に構造を加えることで画像を生成する。このプロセスは通常、画像を完成させるために数百回の反復を必要とする。

MITの新しいアプローチは、「教師と生徒」モデルに基づいている：新しいAIモデルは、画像生成のために、より複雑な元のモデルの動作を模倣するように学習する。DMDは、Generative Adversarial Networks（GAN）のスコアリング原理（本物、偽物）とDiffusionモデルのそれを組み合わせたものである。

新しい生徒モデルには、研究者たちは事前に訓練されたネットワークを使用し、プロセスを簡素化した。元のモデルのパラメーターをコピーして改良することで、新しいモデルの高速な学習収束を実現した。アーキテクチャーの基礎は維持されている。

「これによって、元のアーキテクチャに基づく他のシステム最適化と組み合わせることで、作成プロセスをさらに加速させることができます」とYin氏は言う。

テストにおいて、DMDは一貫して良好な結果を示した。ImageNetデータセットの特定のクラスから画像を生成する場合、DMDは、より複雑なオリジナルモデルの画像とほぼ同等の画像を生成する最初の1ステップDiffusion技術である。

Fréchet Inception Distance (FID)はわずか0.3であった。これは、生成画像の色、テクスチャ、形状などの特徴の統計的分布に基づいて、生成画像の品質と多様性を実画像と比較して測定する。FIDの値が低いほど、生成画像の品質が高く、実画像との類似性が高いことを示す。

teaser2 Page 1 Image 0010 — SD (50ステップ） 2,590ミリ秒

teaser2 Page 1 Image 0004 — SD (50ステップ） 2,590ミリ秒

DMDはまた、1ステップ生成により、工業規模のテキスト画像生成における最先端技術を達成している。だが、より要求の厳しいテキスト画像生成アプリケーションには、まだわずかな品質格差と改善の余地がある、と研究者らは述べている。

DMDで生成される画像の性能は、蒸留プロセスで使用される教師モデルの能力にも依存する。Stable Diffusion v1.5を教師モデルとする現在の形態では、生徒は、詳細なテキストを生成できなかったり、「小さな顔」しか生成できなかったりといった制限を受け継いでいる。

論文

arXiv: One-step Diffusion with Distribution Matching Distillation

参考文献

MIT:
- AI generates high-quality images 30 times faster in a single step
- One-step Diffusion with Distribution Matching Distillation

研究の要旨

Diffusionモデルは高品質の画像を生成するが、何十回ものフォワードパスを必要とする。我々は分布マッチング蒸留（Distribution Matching Distillation: DMD）を導入する。DMDはDiffusionモデルを画質への影響を最小限に抑えながらワンステップ画像ジェネレータに変換する手順である。DMDは、2つのスコア関数（1つはターゲット分布のスコア関数、もう1つはDMDによって生成される合成分布のスコア関数）の差として勾配を表すことができる近似KLダイバージェンスを最小化することによって、1ステップ画像ジェネレータを分布レベルでDiffusionモデルと一致させる。スコア関数は、それぞれの分布に対して別々に訓練された2つのDiffusionモデルとしてパラメータ化されます。多段階拡散出力の大規模構造にマッチする単純な回帰損失と組み合わせることで、我々の手法は、公表されているすべての数段階拡散アプローチを凌駕し、ImageNet 64×64で2.62 FID、ゼロショットCOCO-30kで11.49 FIDを達成し、Stable Diffusionと同等であるが、桁違いに高速である。FP16推論を利用することで、我々のモデルは最新のハードウェアで20 FPSで画像を生成します。

AI, MIT, Stable Diffusion, 生成AI, 画像生成AI

この記事が面白かったら是非シェアをお願いします！

次の記事
Apple、Google、Metaが欧州デジタル市場法違反により調査を受け、高額な罰金の可能性
2024年3月26日 6:29

前の記事
中国、政府機関のコンピュータにIntelとAMDのプロセッサー使用を禁止へ
2024年3月25日 18:10

スポンサーリンク

この記事を書いた人

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

コメントを残すコメントをキャンセル

おすすめ記事

今読まれている記事