オープンソースの画像ジェネレーターではStable Diffusionが有名ではあるが、「PixArt」が近いうちに有力な競争相手になるかも知れないになるかもしれない。オープンソースの画像ジェネレーターPixArtは最新のバージョンで、比較的高い解像度を維持しながら、より速く、より正確にな画像作成が可能になっている。
HuaweiのNoah’s Ark Lab、大連理工大学、清華大学、Hugging Faceの研究者は、論文で、Stable Diffusionファミリーと競合するように設計された高度なテキストから画像への合成フレームワークである「PixArt-δ(Delta)」を発表した。
このモデルの前身となる「PixArt-α(Alpha)」は、既に1024×1024ピクセルの解像度の画像を迅速に生成することが可能であったが、PixArt-δはそれを大幅に改良したものである。
高解像度の画像を0.5秒で生成
PixArt-δは、画像生成の効率を大幅に向上させたLCM(Latent Consistency Model)とControlNetをPixArt-αモデルに統合し、推論速度を大幅に高速化している。1,024×1,024ピクセルの高解像度画像を、わずか2~4ステップで、PixArt-αの7倍となる0.5秒で生成できる。
2023年11月にStability AIが発表したSDXL Turboは、わずか1ステップ、つまり約0.2秒で512×512ピクセルの画像を生成できる。
PixArt-δも同様に高速に画像を生成出来るが、その結果は、SDXL TurboやLCMを備えたSDXLの4ステップのバリエーションと比較しても更に高解像度で、画像はエラーが少なく、正確に指示に従っており、一貫性があるように見える。
新しいPixArtモデルは、32GBのVRAMを搭載したV100 GPUで1日以内に効率的に学習できるように設計されている。また、8ビットの推論機能により、8GBのGPUでも1024ピクセルの画像を合成できるようになり、使いやすさとアクセシビリティが大幅に向上している。
さらに、PixArt-δにControlNetモジュールを統合することで、参照画像を用いたテキストから画像への拡散モデルをより細かく制御できるようになった。研究者は、高品質の画像生成を維持しながら明示的な制御性を提供する、Transformerベースのモデル用に特別に設計された新しいControlNetアーキテクチャを導入した。
研究者は、PixArt-δのControlNetバリアントの重みをHugging Faceで公開している。しかし、オンラインデモは、LCMを使用したPixArt-αと使用しないPixArt-αにのみ用意されているようだ。
論文
参考文献
研究の要旨
この技術レポートは、潜在一貫性モデル(LCM)とControlNetを高度なPIXART-{alpha}モデルに統合したテキスト画像合成フレームワークであるPIXART-{δ}を紹介する。PIXART-{alpha}は、非常に効率的な学習プロセスにより、解像度1024pxの高品質な画像を生成する能力が認められています。PIXART-{delta}にLCMを統合することで、推論速度が大幅に加速し、わずか2~4ステップで高品質な画像を生成することができます。特に、PIXART-{delta}は1024×1024ピクセルの画像を生成するのに0.5秒という画期的な時間を達成し、PIXART-{alpha}の7倍の改善を示しています。さらに、PIXART-{delta}は32GBのV100 GPUで1日以内に効率的に学習できるように設計されています。その8ビット推論能力(von Platen et al., 2023)により、PIXART-{delta}は8GB GPUメモリ制約内で1024px画像を合成することができ、その使いやすさとアクセシビリティを大幅に向上させる。さらに、ControlNetのようなモジュールを組み込むことで、テキストから画像への拡散モデルをきめ細かく制御することができます。我々は、Transformerのために特別に調整された新しいControlNet-Transformerアーキテクチャを導入し、高品質の画像生成と同時に明示的な制御性を実現します。最先端のオープンソース画像生成モデルとして、PIXART-{delta}は、Stable Diffusionモデル・ファミリーの有望な代替を提供し、テキストから画像への合成に大きく貢献する。
コメントを残す