画像生成AI「Stable Diffusion 2.0」が登場、生成画像の品質が大幅に向上

masapoco
投稿日
2022年11月25日 10:01
stable diffusion v2 sample

人々を熱狂と興奮、それと落胆の渦に巻き込んだ画像生成AISbatle Diffusion」がメジャーバージョンアップを果たした。開発元のStability AI社は、この度、同社のWebサイト上で「Stable Diffusion 2.0」をリリースすることを発表したのだ。

「Stable Diffusion 2.0」ではOpenCLIPと呼ばれる新しいエンコーダーで学習させた新しいテキストから画像への変換モデルなど、1.0リリースに比べ新機能や改良点を提供し、生成画像の品質を向上させている。

Source

Stable Diffusionとは何か

Stability AIは、Amazon Web Services(AWS)で4,000台以上のNvidia A100 GPUのクラスターを稼働させている。これらを使って、Stable DiffusionのようなAIシステムを訓練し、テキストプロンプトだけで印象的なAIアートを生成するのだ。Stable Diffusionは、Open AIによるDALL-E 2やMicrosoftによるDesignerなど、多くの画像生成AIと同様の動作をする。

同社のサーバーは膨大な電力を必要とする。Business Insiderによると、Stability AIの運用とクラウドの支出は5000万ドル以上だという。それでも、同社のCEOであるEmad Mostaque氏は、これらのモデルの効率を継続的に向上させ、支出を減らすと主張している。同社は最近、シード資金調達ラウンドで1億100万ドルを調達した。

その資金調達ラウンドの際、Mostaque氏は「AIは人類最大の課題を解決することを約束します。しかし、この可能性を実現するのは、技術がオープンで誰にでもアクセス可能である場合に限られます。」と述べている。

しかし、オープンソースの公開により、暴力やポルノ画像など、AIが生成したグラフィックコンテンツが伝播し、時には実在の人物が巻き込まれるなど、反発も出てきている。Stable Diffusionの新システムは、「創造的なアプリケーションのための全く新しい可能性」で、フォーカスを移すことを目的としている。

Stable Diffusion 2.0の新機能

Stable Diffusion 2.0では、非営利の機械学習企業LAIONと共同開発したOpenCLIPという新しいエンコーダを使用している。これにより、Stable Diffusionの生成する画像の品質が向上し、デフォルトの解像度である512×512ピクセルと768×768ピクセルに対応することができるようになった。

また、バージョン2.0では、画像の解像度を4倍に向上させる「アップスケーラー拡散モデル」を搭載している。下の画像では、128×128の解像度の画像にこのモデルを使用し、512×512の高解像度にアップスケールしている。Stable AIは、このモデルにより、2048×2048以上の解像度の画像を生成することが可能になると述べている。

また、Stability AIはプレスリリースで、「新しい深度誘導型安定拡散モデル『depth2img』が、V1からの従来の画像間機能を拡張し、創造的なアプリケーションのための全く新しい可能性を持っており、入力画像の深度を推測し(既存のモデルを使用)、テキストと深度情報の両方を使用して新しい画像を生成する」と説明している。

オリジナルのStable Diffusion V1は、オープンソースのジェネレーティブAIアートにとって画期的なものだった。Stability AIが指摘するように、前バージョンはオープンソースソフトウェアのGitHubスター10,000個への到達が最も速いものの1つで、2ヶ月未満で33,000スターを獲得している。新バージョンでは、新たにNSFWフィルターが搭載され、Stability AIは、そのシステムを取り巻く論争を減らし、機械学習システムの創造的な可能性を開花させることを目指している。



この記事が面白かったら是非シェアをお願いします!


  • obs studio
    次の記事

    OBS Studio 29 ベータ版でIntelとAMDのGPUでもAV1サポートに対応

    2022年11月25日 11:49
  • 前の記事

    LG、UltraGear 45型曲面ウルトラワイド&27型平面240Hz有機ELゲーミングディスプレイを発表

    2022年11月24日 18:36
    img d c0042 MonitorOLEDGaming 45GR95QE
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事