MIT、Stable Diffusionを元に超高速に高品質な画像生成を行う手法を開発

masapoco
投稿日
2024年3月25日 18:41
FireShot Capture 273 One step Diffusion with Distribution Matching Distillation tianweiy.github.io

Stable DiffusionやMidjourneyなどのAI画像ジェネレーターに用いられているDiffusionモデルは何度も繰り返し、複数のステップを踏むことでしか高品質の画像を生成できなかった。だが、マサチューセッツ工科大学(MIT)の研究チームは、このプロセスを1ステップに圧縮することに成功したという。

MITのコンピュータ科学・人工知能研究所(CSAIL)の研究者らが開発し、「One-step Diffusion」と名付けられたプロジェクトは、従来のDiffusionモデルを使った画像生成を劇的に高速化できる画期的なものだ。

このOne-step Diffusionは、分布マッチング蒸留(Distribution Matching Distillation:DMD)と呼ばれる新手法に基づいている。これを用いることで、従来必要だった20以上の反復ステップの代わりに、たった1ステップで生成が完了するのだ。

同様の実験は、Stable Diffusionを開発したStability AI社が直接行ったものも含め、すでに実施されている。しかし、MITの手法で生成された画像の品質は、品質の面で、計算量の多い手法に匹敵するとのことだ。

「この進歩により、計算時間が大幅に短縮されただけでなく、生成されたビジュアルコンテンツの品質も維持されています」と、筆頭著者でMITの電気光学とコンピューターサイエンスの博士課程に所属するTianwei Yin氏は述べている。

Diffusionモデルは、鮮明な画像が現れるまで、ノイズの多い初期状態に徐々に構造を加えることで画像を生成する。このプロセスは通常、画像を完成させるために数百回の反復を必要とする。

MITの新しいアプローチは、「教師と生徒」モデルに基づいている:新しいAIモデルは、画像生成のために、より複雑な元のモデルの動作を模倣するように学習する。DMDは、Generative Adversarial Networks(GAN)のスコアリング原理(本物、偽物)とDiffusionモデルのそれを組み合わせたものである。

新しい生徒モデルには、研究者たちは事前に訓練されたネットワークを使用し、プロセスを簡素化した。元のモデルのパラメーターをコピーして改良することで、新しいモデルの高速な学習収束を実現した。アーキテクチャーの基礎は維持されている。

「これによって、元のアーキテクチャに基づく他のシステム最適化と組み合わせることで、作成プロセスをさらに加速させることができます」とYin氏は言う。

テストにおいて、DMDは一貫して良好な結果を示した。ImageNetデータセットの特定のクラスから画像を生成する場合、DMDは、より複雑なオリジナルモデルの画像とほぼ同等の画像を生成する最初の1ステップDiffusion技術である。

Fréchet Inception Distance (FID)はわずか0.3であった。これは、生成画像の色、テクスチャ、形状などの特徴の統計的分布に基づいて、生成画像の品質と多様性を実画像と比較して測定する。FIDの値が低いほど、生成画像の品質が高く、実画像との類似性が高いことを示す。

DMDはまた、1ステップ生成により、工業規模のテキスト画像生成における最先端技術を達成している。だが、より要求の厳しいテキスト画像生成アプリケーションには、まだわずかな品質格差と改善の余地がある、と研究者らは述べている。

DMDで生成される画像の性能は、蒸留プロセスで使用される教師モデルの能力にも依存する。Stable Diffusion v1.5を教師モデルとする現在の形態では、生徒は、詳細なテキストを生成できなかったり、「小さな顔」しか生成できなかったりといった制限を受け継いでいる。


論文

参考文献

研究の要旨

Diffusionモデルは高品質の画像を生成するが、何十回ものフォワードパスを必要とする。我々は分布マッチング蒸留(Distribution Matching Distillation: DMD)を導入する。DMDはDiffusionモデルを画質への影響を最小限に抑えながらワンステップ画像ジェネレータに変換する手順である。DMDは、2つのスコア関数(1つはターゲット分布のスコア関数、もう1つはDMDによって生成される合成分布のスコア関数)の差として勾配を表すことができる近似KLダイバージェンスを最小化することによって、1ステップ画像ジェネレータを分布レベルでDiffusionモデルと一致させる。スコア関数は、それぞれの分布に対して別々に訓練された2つのDiffusionモデルとしてパラメータ化されます。多段階拡散出力の大規模構造にマッチする単純な回帰損失と組み合わせることで、我々の手法は、公表されているすべての数段階拡散アプローチを凌駕し、ImageNet 64×64で2.62 FID、ゼロショットCOCO-30kで11.49 FIDを達成し、Stable Diffusionと同等であるが、桁違いに高速である。FP16推論を利用することで、我々のモデルは最新のハードウェアで20 FPSで画像を生成します。



この記事が面白かったら是非シェアをお願いします!


  • eu flags
    次の記事

    Apple、Google、Metaが欧州デジタル市場法違反により調査を受け、高額な罰金の可能性

    2024年3月26日 6:29
  • 前の記事

    中国、政府機関のコンピュータにIntelとAMDのプロセッサー使用を禁止へ

    2024年3月25日 18:10
    us china
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事