あなたの好奇心を刺激する、テックと科学の総合ニュースサイト

画像生成AI「Stable Diffusion 2.0」が登場、生成画像の品質が大幅に向上

人々を熱狂と興奮、それと落胆の渦に巻き込んだ画像生成AISbatle Diffusion」がメジャーバージョンアップを果たした。開発元のStability AI社は、この度、同社のWebサイト上で「Stable Diffusion 2.0」をリリースすることを発表したのだ。

「Stable Diffusion 2.0」ではOpenCLIPと呼ばれる新しいエンコーダーで学習させた新しいテキストから画像への変換モデルなど、1.0リリースに比べ新機能や改良点を提供し、生成画像の品質を向上させている。

Source

Stable Diffusionとは何か

Stability AIは、Amazon Web Services(AWS)で4,000台以上のNvidia A100 GPUのクラスターを稼働させている。これらを使って、Stable DiffusionのようなAIシステムを訓練し、テキストプロンプトだけで印象的なAIアートを生成するのだ。Stable Diffusionは、Open AIによるDALL-E 2やMicrosoftによるDesignerなど、多くの画像生成AIと同様の動作をする。

同社のサーバーは膨大な電力を必要とする。Business Insiderによると、Stability AIの運用とクラウドの支出は5000万ドル以上だという。それでも、同社のCEOであるEmad Mostaque氏は、これらのモデルの効率を継続的に向上させ、支出を減らすと主張している。同社は最近、シード資金調達ラウンドで1億100万ドルを調達した。

その資金調達ラウンドの際、Mostaque氏は「AIは人類最大の課題を解決することを約束します。しかし、この可能性を実現するのは、技術がオープンで誰にでもアクセス可能である場合に限られます。」と述べている。

しかし、オープンソースの公開により、暴力やポルノ画像など、AIが生成したグラフィックコンテンツが伝播し、時には実在の人物が巻き込まれるなど、反発も出てきている。Stable Diffusionの新システムは、「創造的なアプリケーションのための全く新しい可能性」で、フォーカスを移すことを目的としている。

Stable Diffusion 2.0の新機能

Stable Diffusion 2.0では、非営利の機械学習企業LAIONと共同開発したOpenCLIPという新しいエンコーダを使用している。これにより、Stable Diffusionの生成する画像の品質が向上し、デフォルトの解像度である512×512ピクセルと768×768ピクセルに対応することができるようになった。

sd2
Stable Diffusion 2.0 を使用して 768×768 の画像解像度で生成された画像の例。(Credit: Stability AI)

また、バージョン2.0では、画像の解像度を4倍に向上させる「アップスケーラー拡散モデル」を搭載している。下の画像では、128×128の解像度の画像にこのモデルを使用し、512×512の高解像度にアップスケールしている。Stable AIは、このモデルにより、2048×2048以上の解像度の画像を生成することが可能になると述べている。

stable diffusion v2 01
128×128の低解像度画像(左)と、512×512の解像度画像(右)(Credit: Stability AI)

また、Stability AIはプレスリリースで、「新しい深度誘導型安定拡散モデル『depth2img』が、V1からの従来の画像間機能を拡張し、創造的なアプリケーションのための全く新しい可能性を持っており、入力画像の深度を推測し(既存のモデルを使用)、テキストと深度情報の両方を使用して新しい画像を生成する」と説明している。

StableDiffusionV2 Depth2Img
左側の入力画像から、複数の新しい画像(右側)を生成することができる。この新しいモデルは、構造を保存した画像間合成や形状条件付き画像合成に用いることができる。(Credit: Stability AI)

オリジナルのStable Diffusion V1は、オープンソースのジェネレーティブAIアートにとって画期的なものだった。Stability AIが指摘するように、前バージョンはオープンソースソフトウェアのGitHubスター10,000個への到達が最も速いものの1つで、2ヶ月未満で33,000スターを獲得している。新バージョンでは、新たにNSFWフィルターが搭載され、Stability AIは、そのシステムを取り巻く論争を減らし、機械学習システムの創造的な可能性を開花させることを目指している。

SD dev adoption 768

Follow Me !

この記事が気に入ったら是非フォローを!

Share!!

スポンサーリンク

執筆者
Photo of author

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

記事一覧を見る

コメントする

CAPTCHA