MENU
  • TECHテクノロジー
  • SCIENCEサイエンス
  • ENTERTAINMENTエンターテインメント
  • REVIEWSレビュー
あなたの好奇心を刺激する、テック・サイエンスニュース情報が満載! | TEXAL
TEXAL
  • TECHテクノロジー
  • SCIENCEサイエンス
  • ENTERTAINMENTエンターテインメント
  • REVIEWSレビュー
  • テクノロジー
  • サイエンス
  • モバイル
  • エンタメ
  • ゲーム
TEXAL
  • TECHテクノロジー
  • SCIENCEサイエンス
  • ENTERTAINMENTエンターテインメント
  • REVIEWSレビュー
  1. ホーム
  2. テクノロジー
  3. Google、新たな画像生成AI「Muse」を発表 – Stable DiffusionやDALL・E 2より高速に動作

Google、新たな画像生成AI「Muse」を発表 – Stable DiffusionやDALL・E 2より高速に動作

2023 1/04
テクノロジー
2023年1月4日

スポンサーリンク

Googleは、2022年のテック業界を席巻した「Text-to-Image」AIツールに新たに並ぶ物として、画像生成モデル「Muse」を発表した。この新しいAIモデルは、並列デコーディングとコンパクトで離散的な潜在空間を使用した最先端の画像生成性能により、競合するStable DiffusionやDALL-Eよりも高速であるとのことだ。

拡散モデルや自己回帰モデルよりも大幅に効率的でありながら、最先端の画像生成性能を達成するテキストから画像への変換モデルであるMuseを発表する。

Google Muse AIは、ImagenやDALL-E 2のような、それ以前のText-to-Imageへの変換モデルの改良版と言われている。 Museは、事前に学習された大規模言語モデル(LLM)から取得したテキスト埋め込みを用いて、離散トークン空間のマスク付きモデル化タスクで学習される。

Google Muse AI explained How does it work 1
(Credit: Google)

Museは、任意に隠蔽された画像中のトークンを識別するために訓練されている。Museは、離散トークンを使用し、必要なサンプルサイズが小さいため、Googleによると、ImagenやDALL-E 2などのピクセル空間拡散モデルより性能が優れているとのことだ。テキストプロンプトに基づいて画像トークンを繰り返し再サンプリングすることで、このモデルはゼロショット、マスクフリーの自由な編集を実現する。

また、他のモデルと比較した場合、Museは推論時間も早いとのことだ。

モデル解像度推論時間
Stable Diffusion 1.4512×5123.7s
Parti-3B256×2566.4s
Imagen256×2569.1s
Imagen1024×102413.3s
Muse-3B256×2560.5s
Muse-3B512×5121.3s

MuseはPartiなどの自己回帰モデルにはない並列デコードを採用している。すでに学習されたLLMを用いることで、粒度の細かい言語把握が可能となり、それが高品質な画像の生成や、物体やその空間関係、スタンス、カーディナリティなどの視覚概念の認識にもつながっているのだ。さらに、Museでは、モデルを反転させたりすることなく、インペイント、アウトペイント、マスクフリー編集が可能である。

また、Googleチームは、低画質写真用と高画質画像用の2つの別々のVQGANトークナイザーネットワークを使用している。マスクされていないトークンとT5テキスト埋め込みは、マスクされたトークンを予測するために、低解像度(「ベース」)と高解像度(「スーパーレス」)の変換器をトレーニングするために使用される。

Google Muse AI explained How does it work 3
(Credit: Google)

Museの詳細は公式サイトからご覧頂ける。


Source

  • Muse
  • arXiv.org: Muse: Text-To-Image Generation via Masked Generative Transformers

研究の要旨

我々は、拡散モデルや自己回帰モデルよりも大幅に効率的でありながら、最先端の画像生成性能を達成するテキストから画像への変換モデルであるMuseを発表する。Museは離散トークン空間におけるマスクされたモデリングタスクで学習する。事前に学習したラージランゲージモデル(LLM)から抽出したテキスト埋め込みが与えられると、Museはランダムにマスクされた画像トークンを予測するように学習する。Museは、ImagenやDALL-E 2などのピクセル空間拡散モデルと比較して、離散トークンを使用し、サンプリングの反復回数が少ないため、大幅に効率的です。また、Partiなどの自己回帰モデルと比較して、Museは並列デコードを使用するため、より効率的です。事前に学習されたLLMを使用することで、きめ細かい言語理解が可能となり、高忠実度の画像生成や、オブジェクト、その空間的関係、姿勢、基数などの視覚的概念の理解ができるようになります。当社の900Mパラメータモデルは、CC3MにおいてFIDスコア6.06という新たなSOTAを達成しました。Muse 3Bのパラメータモデルは、ゼロショットCOCO評価でFID7.88、CLIPスコア0.32を達成しました。また、Museは、モデルの微調整や反転を行うことなく、インペインティング、アウトペインティング、マスクフリー編集など、多くの画像編集アプリケーションを直接実現します。その他の結果は、こちらのhttpsのURLでご覧いただけます。

TEXALでは、テクノロジー、サイエンス、ゲーム、エンターテインメントなどからその日の話題のニュースや、噂、リーク情報、レビューなど、毎日配信しています。最新のニュースはホームページで確認出来ます。Googleニュース、Twitter、FacebookでTEXALをフォローして、最新情報を入手する事も出来ます。記事の感想や、お問い合わせなども随時受け付けています。よろしくお願いいたします。

スポンサーリンク

テクノロジー
AI Google 大規模言語モデル 機械学習
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする コメントをキャンセル

CAPTCHA


スポンサーリンク
今読まれている記事
人気のタグ
AI Amazon AMD Android Apple CPU DJI Google GPU Intel iOS iPadOS iPhone iPhone 14 Pro Mac Meta Microsoft NASA Nintendo Switch NVIDIA PCゲーム PS5 Qualcomm Samsung SNS Sony The Conversation TSMC Twitter VR Windows XR アップデート ガジェット ゲーム サブスクリプション スマートフォン ドローン ベータテスト 乗り物 半導体 噂 天文学 宇宙 自動車
PVアクセスランキング にほんブログ村
スポンサーリンク
  • テクノロジー
  • サイエンス
  • モバイル
  • エンタメ
  • ゲーム