テキストから画像を生成するAIモデル「Stable Diffusion」を開発したStability AIは、更に強力な最新モデル「Stable Cascade」を公開した。この新しいモデルはGitHubで研究者向けに公開されているが、今のところリサーチプレビューでの提供となる。
Stable Cascadeのリサーチプレビューは、非商業的な使用に限定される。最終的なモデルがオープンソースとして提供されるかどうか、またどのような形で提供されるかは、今回の発表からは明らかではない。Stability AIはまた、商用利用のためにAPIを介してモデルを提供しているが、Stable Cascadeはまだその一部ではない。
Stable Cascadeは、画像バリエーション、画像間生成、インペイント・アウトペイント、Canny Edge生成、2倍超解像に対応している。テキスト生成も大幅に改善されたようだ。
ユーザーは、与えられた画像のバリエーションを生成したり、既存の画像に基づいて新しい画像を作成したり、画像のマスクされた部分を塗りつぶしたり、入力画像のエッジに沿った画像を生成したり、画像を高解像度に拡大縮小したりすることができる。
Stability AIによると、Stable Cascadeは、ほとんどのモデル比較において、プロンプトの追従性と美的品質の点で先行製品を上回っている。Stability AIの測定によると、2023年12月にリリースされた商用利用無料のオープンソースモデルであるPlayground v2は、美的品質でわずかに上回り、プロンプトの追従性でわずかに遅れをとっている。
Stability AI社のフラッグシップモデルであるStable Diffusionモデルとは異なり、Stable Cascadeは1つの大きな言語モデルではなく、2024年1月に導入された “Würstchen”アーキテクチャに基づいている。これは、拡散プロセス(ステージB)を駆動する、高度に圧縮された、しかし詳細な意味的「画像レシピ」(ステージC)を学習する、3段階の拡散ベースのテキスト画像合成だ。
最初のステージであるステージCは、テキストプロンプトをレイテント(またはコードの小さな断片)に圧縮し、それをステージAとBに渡してリクエストをデコードする。
リクエストをより小さなビットに分割することで、より少ないメモリで(そして見つけにくいGPUでトレーニングする時間を減らし)、より高速に実行できる。Stability AIは、Stable Cascadeは、現在のトップモデルであるStable Diffusion XLよりもパラメータが多いにもかかわらず、生成時間が大幅に速いと主張している。Stable Cascadeは30ステップで約10秒で完成画像を生成するが、SDXLは50ステップで22秒かかる。ちなみに、SDXL Turboはさらに速く、1ステップと0.5秒しかかからないが、その分、画質が犠牲になる。
また、Würstchenは、少ないトレーニングリソース(Stable Diffusion 2.1の200,000 GPU時間に対し、A100 GPU 24,602時間)と少ないトレーニングデータで済むとのことだ。
Source
- Stability AI: Stable Cascade のご紹介
コメントを残す