画像生成ジェネレーター「Stable Diffusion」によって優れた画像圧縮が出来る可能性が示される

masapoco
投稿日
2022年9月28日 11:05
AI Image

スイスのソフトウェアエンジニアMatthias Bühlmann氏は、最近人気の画像合成モデルStable Diffusionが、注意点はあるものの、既存のビットマップ画像を高い圧縮率でJPEGやWebPよりも圧縮することが出来る事を発見し、自身のサイトで公開している。

Stable Diffusionは、テキスト記述(「プロンプト」と呼ばれる)に基づき画像を生成するAI画像合成モデルだ。このAIモデルは、インターネットから取得した数百万枚の画像を学習することで、テキストから画像を生成する術を身につけた。学習過程で、画像と関連する単語の統計的な関連付けを行い、各画像の重要な情報をかなり小さくまとめ、「重み」として保存する。これは、いわばAI画像モデルが得た知識を表す数学的な値だ。

Stable Diffusionが画像を解析し、重みの形に「圧縮」するとき、画像は研究者が「潜在空間」と呼ぶ場所に存在する。これは、画像が解読されると画像として実現できるファジーな潜在能力のようなものであると言い換えることができる。Stable Diffusion 1.4では、この「重み(weights)」に当たるデータは約4GBだが、これは何億枚もの画像に関する知識を表している。

多くの人はStable Diffusionをテキストプロンプトと共に使用するが、Bühlmann氏はテキストエンコーダーを省き、代わりにStable Diffusionの画像エンコーダー処理によって画像を強制的に取得した。この処理は、低精度の512×512画像を、より高精度の64×64潜像空間表現に変換する。このとき、画像は元の画像よりもずっと小さなデータサイズで存在するが、それでも512×512の画像に展開(デコード)することは可能で、かなり良好な結果を得ることができるのだという。

Bühlmann氏はテストを行う中で、Stable Diffusionで圧縮された新しい画像は、JPEGやWebPよりも圧縮率が高く(ファイルサイズが小さく)、主観的によく見えることを発見した。例えば、ラマを撮影した写真(元は768KB)をJPEGで5.68KB、WebPで5.71KB、そしてStable Diffusionでは4.98KBに圧縮する事が可能だったという。Stable Diffusionの画像は、他のフォーマットで圧縮された画像よりも細部が分解され、明らかな圧縮による劣化が少なくなっているように見えるようだ。

ただし、顔や文字が苦手で、場合によっては、元画像にはないような要素を作り出してしまうこともあるという重大な注意点もあるようだ。また、デコードには4GBのStable Diffusion weightsファイルが必要で、デコード時間も余分にかかるという。

このStable Diffusionの使用は型破りなもので、実用的なソリューションとは言えない物だが、画像合成モデルの新しい未来の使い方を指し示す可能性がありそうだ。Bühlmann氏のコードはGoogle Colabで見ることができる



この記事が面白かったら是非シェアをお願いします!


  • INTEL XESS TOMB RAIDER HERO BANNER 1200x328 1
    次の記事

    Intelのアップスケーリングテクノロジー「XeSS」がサプライズ発表 – 既に一部ゲームで利用可能に

    2022年9月28日 11:21
  • 前の記事

    GoogleがPixel 7 Proのカラーバリエーションを紹介する動画を公開

    2022年9月28日 10:31
    pixel 7 colors 1

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事