画像生成AI「Stable Diffusion 2.0」が登場、生成画像の品質が大幅に向上

人々を熱狂と興奮、それと落胆の渦に巻き込んだ画像生成AI「Sbatle Diffusion」がメジャーバージョンアップを果たした。開発元のStability AI社は、この度、同社のWebサイト上で「Stable Diffusion 2.0」をリリースすることを発表したのだ。

「Stable Diffusion 2.0」ではOpenCLIPと呼ばれる新しいエンコーダーで学習させた新しいテキストから画像への変換モデルなど、1.0リリースに比べ新機能や改良点を提供し、生成画像の品質を向上させている。

Source

Stability AI: Stable Diffusion 2.0 Release

Stable Diffusionとは何か

Stability AIは、Amazon Web Services（AWS）で4,000台以上のNvidia A100 GPUのクラスターを稼働させている。これらを使って、Stable DiffusionのようなAIシステムを訓練し、テキストプロンプトだけで印象的なAIアートを生成するのだ。Stable Diffusionは、Open AIによるDALL-E 2やMicrosoftによるDesignerなど、多くの画像生成AIと同様の動作をする。

同社のサーバーは膨大な電力を必要とする。Business Insiderによると、Stability AIの運用とクラウドの支出は5000万ドル以上だという。それでも、同社のCEOであるEmad Mostaque氏は、これらのモデルの効率を継続的に向上させ、支出を減らすと主張している。同社は最近、シード資金調達ラウンドで1億100万ドルを調達した。

その資金調達ラウンドの際、Mostaque氏は「AIは人類最大の課題を解決することを約束します。しかし、この可能性を実現するのは、技術がオープンで誰にでもアクセス可能である場合に限られます。」と述べている。

しかし、オープンソースの公開により、暴力やポルノ画像など、AIが生成したグラフィックコンテンツが伝播し、時には実在の人物が巻き込まれるなど、反発も出てきている。Stable Diffusionの新システムは、「創造的なアプリケーションのための全く新しい可能性」で、フォーカスを移すことを目的としている。

Stable Diffusion 2.0の新機能

Stable Diffusion 2.0では、非営利の機械学習企業LAIONと共同開発したOpenCLIPという新しいエンコーダを使用している。これにより、Stable Diffusionの生成する画像の品質が向上し、デフォルトの解像度である512×512ピクセルと768×768ピクセルに対応することができるようになった。

また、バージョン2.0では、画像の解像度を4倍に向上させる「アップスケーラー拡散モデル」を搭載している。下の画像では、128×128の解像度の画像にこのモデルを使用し、512×512の高解像度にアップスケールしている。Stable AIは、このモデルにより、2048×2048以上の解像度の画像を生成することが可能になると述べている。

また、Stability AIはプレスリリースで、「新しい深度誘導型安定拡散モデル『depth2img』が、V1からの従来の画像間機能を拡張し、創造的なアプリケーションのための全く新しい可能性を持っており、入力画像の深度を推測し（既存のモデルを使用）、テキストと深度情報の両方を使用して新しい画像を生成する」と説明している。

オリジナルのStable Diffusion V1は、オープンソースのジェネレーティブAIアートにとって画期的なものだった。Stability AIが指摘するように、前バージョンはオープンソースソフトウェアのGitHubスター10,000個への到達が最も速いものの1つで、2ヶ月未満で33,000スターを獲得している。新バージョンでは、新たにNSFWフィルターが搭載され、Stability AIは、そのシステムを取り巻く論争を減らし、機械学習システムの創造的な可能性を開花させることを目指している。