Stability AIは、高品質のAI画像をリアルタイムで生成できる新しいテキスト画像変換モデル、「SDXL Turbo」を発表した。
SDXL Turboは、SDXL 1.0の基盤の上に構築され、テキスト画像モデルのための新しい蒸留技術「Adversarial Diffusion Distillation(ADD)」を実装している。この技術により、高い画質を維持しながら、画像生成ステップ数をこれまでの50ステップから1ステップに減らすことに成功している。
他の蒸留技術と同様に、ADDは教師ネットワークとして、事前にトレーニングされた大規模な拡散画像モデルを使用する。
ADDを統合することで、SDXL Turboは、シングルステップの画像出力など、Generative Adversarial Networks(GAN)の利点の多くを提供する一方で、他の蒸留手法でよく見られるアーチファクトやぼかしを回避することができる、とStability AIは述べている。
同時に、より高品質なシングルステップ生成を提供する。わずか4ステップで、SDXL Turboは50ステップのSDXLと同等の画質を実現するという。
わずか4ステップでSDXL TurboがSDXLを上回る
Stability AIは、同じプロンプトで画像を生成することで、複数のモデルバリエーション(StyleGAN-T++、OpenMUSE、IF-XL、SDXL、LCM-XL)を比較した。
その後、人間の評価者が2つのランダムな出力を見せられ、プロンプトに最も近い出力を選択するよう求められた。その後、画質についても同じ方法でテストを行った。
これらのブラインドテストにおいて、SDXL Turboは、4ステップ構成のLCM-XLを1ステップだけ、50ステップ構成のSDXLを4ステップだけ上回っている。
特に50ステップのSDXLとの比較では、SDXL Turboは、処理オーバーヘッドがはるかに少ない計算集約的なマルチステップモデルを速度面で大幅に上回り、画質面でもわずかに上回ることができる。
さらに、SDXL Turboでは推論速度が大幅に向上している。NVIDIA A100では、SDXL Turboは512×512の画像をわずか207ミリ秒で生成する(プロンプトエンコーディング+1回のノイズ除去ステップ+デコーディング、fp16)。
Stable Diffusion XL Turboの無料デモを試したい場合は、Clipdropで試すことが可能だ。ただし、このデモは商用利用を意図したものではないので、その点は注意が必要だ。
論文
参考文献
研究の要旨
本論文では、高画質を維持しながら、大規模な画像拡散モデルをわずか1〜4ステップで効率的にサンプリングする、新しい学習アプローチである逆数的拡散蒸留(Adversarial Diffusion Distillation: ADD)を紹介する。スコア蒸留を用いて、大規模な画像拡散モデルを教師信号として活用し、敵対的損失と組み合わせることで、1~2ステップの低ステップ領域においても高い画像忠実度を確保する。
コメントを残す