高解像度のAI画像を0.5秒で出力できるオープンソース画像ジェネレーター「PixArt-δ」が登場

masapoco
投稿日 2024年1月23日 5:54
PIXART Delta Header Image

オープンソースの画像ジェネレーターではStable Diffusionが有名ではあるが、「PixArt」が近いうちに有力な競争相手になるかも知れないになるかもしれない。オープンソースの画像ジェネレーターPixArtは最新のバージョンで、比較的高い解像度を維持しながら、より速く、より正確にな画像作成が可能になっている。

HuaweiのNoah’s Ark Lab、大連理工大学、清華大学、Hugging Faceの研究者は、論文で、Stable Diffusionファミリーと競合するように設計された高度なテキストから画像への合成フレームワークである「PixArt-δ(Delta)」を発表した。

このモデルの前身となる「PixArt-α(Alpha)」は、既に1024×1024ピクセルの解像度の画像を迅速に生成することが可能であったが、PixArt-δはそれを大幅に改良したものである。

高解像度の画像を0.5秒で生成

PixArt-δは、画像生成の効率を大幅に向上させたLCM(Latent Consistency Model)とControlNetをPixArt-αモデルに統合し、推論速度を大幅に高速化している。1,024×1,024ピクセルの高解像度画像を、わずか2~4ステップで、PixArt-αの7倍となる0.5秒で生成できる。

2023年11月にStability AIが発表したSDXL Turboは、わずか1ステップ、つまり約0.2秒で512×512ピクセルの画像を生成できる。

PixArt-δも同様に高速に画像を生成出来るが、その結果は、SDXL TurboやLCMを備えたSDXLの4ステップのバリエーションと比較しても更に高解像度で、画像はエラーが少なく、正確に指示に従っており、一貫性があるように見える。

新しいPixArtモデルは、32GBのVRAMを搭載したV100 GPUで1日以内に効率的に学習できるように設計されている。また、8ビットの推論機能により、8GBのGPUでも1024ピクセルの画像を合成できるようになり、使いやすさとアクセシビリティが大幅に向上している。

さらに、PixArt-δにControlNetモジュールを統合することで、参照画像を用いたテキストから画像への拡散モデルをより細かく制御できるようになった。研究者は、高品質の画像生成を維持しながら明示的な制御性を提供する、Transformerベースのモデル用に特別に設計された新しいControlNetアーキテクチャを導入した。

研究者は、PixArt-δのControlNetバリアントの重みをHugging Faceで公開している。しかし、オンラインデモは、LCMを使用したPixArt-αと使用しないPixArt-αにのみ用意されているようだ。


論文

参考文献

研究の要旨

この技術レポートは、潜在一貫性モデル(LCM)とControlNetを高度なPIXART-{alpha}モデルに統合したテキスト画像合成フレームワークであるPIXART-{δ}を紹介する。PIXART-{alpha}は、非常に効率的な学習プロセスにより、解像度1024pxの高品質な画像を生成する能力が認められています。PIXART-{delta}にLCMを統合することで、推論速度が大幅に加速し、わずか2~4ステップで高品質な画像を生成することができます。特に、PIXART-{delta}は1024×1024ピクセルの画像を生成するのに0.5秒という画期的な時間を達成し、PIXART-{alpha}の7倍の改善を示しています。さらに、PIXART-{delta}は32GBのV100 GPUで1日以内に効率的に学習できるように設計されています。その8ビット推論能力(von Platen et al., 2023)により、PIXART-{delta}は8GB GPUメモリ制約内で1024px画像を合成することができ、その使いやすさとアクセシビリティを大幅に向上させる。さらに、ControlNetのようなモジュールを組み込むことで、テキストから画像への拡散モデルをきめ細かく制御することができます。我々は、Transformerのために特別に調整された新しいControlNet-Transformerアーキテクチャを導入し、高品質の画像生成と同時に明示的な制御性を実現します。最先端のオープンソース画像生成モデルとして、PIXART-{delta}は、Stable Diffusionモデル・ファミリーの有望な代替を提供し、テキストから画像への合成に大きく貢献する。



この記事が面白かったら是非シェアをお願いします!


  • liquid metal ram
    次の記事

    液体金属を使った世界初の“完全にフレキシブル”なメモリの開発に成功

    2024年1月23日 6:22
  • 前の記事

    OpenAI、選挙候補者をシミュレートした“公認”のチャットボットをポリシー違反で停止

    2024年1月22日 18:28
    openai

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事