Stability AI、「飛躍的進歩」を遂げたSDXL 0.9をリリース

Stability AIは、前モデルより飛躍的な進歩を遂げ、画像生成において、ディテールや構図の大幅な改善が見られる高度な画像生成モデル「SDXL 0.9」を発表した。4月にリリースされ好評を博したStable Diffusion XLベータ版に続き、同社は、この改善は、「映画、テレビ、音楽、教育ビデオ向けに超リアルな作品を生成する機能だけでなく、デザインや産業用途向けの進化も提供する」ものであり、画像生成AIの最前線に位置する物と述べている。

SDXL 0.9はClipDropから研究目的でのアクセスが可能で、APIは近日公開予定であり、7月中旬には1.0のオープンリリースも予定されているという。

画像生成以外の機能

SDXL 0.9では、基本的なテキストプロンプトに加えて、イメージ間のプロンプト（イメージを入力してバリエーションを取得）、インペインティング（イメージの欠落部分を再構築）、アウトペインティング（既存のイメージをシームレスに拡張）など、多くの機能が提供されている。

SDXL 0.9での合成機能の強化は、以前のベータバージョンと比較してパラメータ数が大幅に増加したことに起因している。パラメータはニューラルネットワークのすべての重みとバイアスの合計を表し、このモデルには35億パラメータのベースモデルと66億パラメータのモデルアンサンブルパイプラインがある。対照的に、ベータ版では31億のパラメータ・モデル1つだけを使用していた。

SDXL 0.9では、1024×1024の高解像度でより奥行きのあるリアルな画像を生成するために、これまでで最大のOpenCLIPモデル（OpenCLIP ViT-G/14）を含む2つのCLIPモデルを使用している。

民生用ハードウェアでのアクセシビリティとパフォーマンス

SDXL 0.9は高度な機能とモデルアーキテクチャを備えているが、Windows 10、11、またはLinuxオペレーティングシステム、16GBのRAM、および8GB以上のVRAMを搭載したNVIDIA GeForce RTX 20XX以上のグラフィックボードがあれば、最新のコンシューマー向けGPUで実行できる。Linuxユーザーは、16GBのVRAMを搭載した互換性のあるAMDカードを使用出来る。

4月13日のベータ版開始以来、SDXLは70万枚以上の画像を生成し、「約7,000人」のDiscordコミュニティ・ユーザーから「素晴らしい反応」を得ている。このプラットフォームでは定期的に「対決」が開催され、54,000枚の画像が投稿され、3,521枚のSDXL画像が優勝候補にノミネートされるなど、良好なパフォーマンスを発揮している。

入手方法と今後の計画

SDXL 0.9はStability AI社のClipDropプラットフォームで利用可能で、APIおよびDreamStudioユーザー向けのアクセスは6月26日に予定されている。オープンソース版を実行するためのコードは、後日GitHubを通じて公開される予定だ。SDXL 1.0フルモデルのオープンソースリリースは7月中旬を予定している。