Stability AIは、前モデルより飛躍的な進歩を遂げ、画像生成において、ディテールや構図の大幅な改善が見られる高度な画像生成モデル「SDXL 0.9」を発表した。4月にリリースされ好評を博したStable Diffusion XLベータ版に続き、同社は、この改善は、「映画、テレビ、音楽、教育ビデオ向けに超リアルな作品を生成する機能だけでなく、デザインや産業用途向けの進化も提供する」ものであり、画像生成AIの最前線に位置する物と述べている。
SDXL 0.9はClipDropから研究目的でのアクセスが可能で、APIは近日公開予定であり、7月中旬には1.0のオープンリリースも予定されているという。
画像生成以外の機能
SDXL 0.9では、基本的なテキストプロンプトに加えて、イメージ間のプロンプト(イメージを入力してバリエーションを取得)、インペインティング(イメージの欠落部分を再構築)、アウトペインティング(既存のイメージをシームレスに拡張)など、多くの機能が提供されている。
SDXL 0.9での合成機能の強化は、以前のベータバージョンと比較してパラメータ数が大幅に増加したことに起因している。パラメータはニューラルネットワークのすべての重みとバイアスの合計を表し、このモデルには35億パラメータのベースモデルと66億パラメータのモデルアンサンブルパイプラインがある。対照的に、ベータ版では31億のパラメータ・モデル1つだけを使用していた。
SDXL 0.9では、1024×1024の高解像度でより奥行きのあるリアルな画像を生成するために、これまでで最大のOpenCLIPモデル(OpenCLIP ViT-G/14)を含む2つのCLIPモデルを使用している。
民生用ハードウェアでのアクセシビリティとパフォーマンス
SDXL 0.9は高度な機能とモデルアーキテクチャを備えているが、Windows 10、11、またはLinuxオペレーティングシステム、16GBのRAM、および8GB以上のVRAMを搭載したNVIDIA GeForce RTX 20XX以上のグラフィックボードがあれば、最新のコンシューマー向けGPUで実行できる。Linuxユーザーは、16GBのVRAMを搭載した互換性のあるAMDカードを使用出来る。
4月13日のベータ版開始以来、SDXLは70万枚以上の画像を生成し、「約7,000人」のDiscordコミュニティ・ユーザーから「素晴らしい反応」を得ている。このプラットフォームでは定期的に「対決」が開催され、54,000枚の画像が投稿され、3,521枚のSDXL画像が優勝候補にノミネートされるなど、良好なパフォーマンスを発揮している。
入手方法と今後の計画
SDXL 0.9はStability AI社のClipDropプラットフォームで利用可能で、APIおよびDreamStudioユーザー向けのアクセスは6月26日に予定されている。オープンソース版を実行するためのコードは、後日GitHubを通じて公開される予定だ。SDXL 1.0フルモデルのオープンソースリリースは7月中旬を予定している。
現在、SDXL 0.9は非商用の研究専用ライセンスでリリースされており、研究者はモデルへのアクセスをリクエストすることが可能だ。
Sources
コメントを残す