Google、“典型的なAI画像の欠点を解消した”最先端の画像生成AI「Imagen 2」を発表

Google DeepMindは、AIによる画像生成で広く使われている拡散技術をベースにした最新のAI画像ジェネレーター「Imagen 2」を発表した。Imagen 2は、ユーザーのプロンプトに厳密に従いながら、これまでのGoogleモデルの中で最も高品質で写実的な画像を生成するという。

Imagen 2はプロンプトにより正確に従う

Google DeepMindは、トレーニングデータセットのキャプションに追加説明を含めることで、Imagen 2のプロンプトの理解力を向上させた。その結果、Imagen 2はさまざまなラベリングスタイルを学習し、さまざまなプロンプトをより深く理解できるようになったという。

画像とテキストの関係が改善されたことで、プロンプトの文脈やニュアンスをより深く理解できるようになるはずだ。この方法は、OpenAIが、DALL-E 3でプロンプトの追従性を向上させるために用いており、実際に優れた結果を残している。

また、Imagen 2の多言語理解も強化され、ある言語のプロンプトを別の言語の出力（ロゴなど）に翻訳できるようになっているとのことだ。

Googleによればデータセットとモデルの進歩により、Imagen 2はテキストから画像への変換システムがしばしば苦戦する多くの分野で改善が見られるとのことだ。例えば、リアルな人間の手や顔などが含まれる。Googleによれば、典型的なAI画像の欠点はこれでほぼ解消されたという。

Imagen 2では画質を向上させるために、良好な照明、構図、露出、シャープネスなどの画質属性に対する人間の嗜好に基づいて、美的モデルが開発された。各画像には美的スコアが与えられ、モデルが人間の嗜好に合ったトレーニングデータセットの画像をより重視するのに役立った。

Imagen 2は柔軟なスタイルコントロールが可能

Googleによると、Imagen 2の拡散テクノロジーは高い柔軟性を備えており、例えばテキストに加えて参照画像を使用するなど、画像のスタイルを簡単に制御・カスタマイズできる。

Imagen 2には、インペインティングやアウトペインティングといった画像編集機能が搭載されている。これらのテクニックにより、ユーザーはオリジナル画像に直接新しいコンテンツを挿入したり、オリジナル画像をその境界を越えて拡張したりすることができる。

GoogleのImagen 2は当初、Google Cloud Vertex AI内のImagen APIを通じて、開発者やクラウド顧客が利用できる。Google Arts and Cultureチームはこの技術をCultural Icons実験に使用している。

Imagen 2は個人利用にはまだ安全ではない

Imagen 2は今のところ個人ユーザーでの利用はできないが、将来的にアクセスできるようになるはずだ。しかしその前に、Googleは潜在的なリスクと課題を最小限に抑えたいと考えている。設計から実装に至るまで、Googleは安全対策を講じているが、より多くのテストを行いたいと述べている。

安全対策のひとつは、AIが生成したコンテンツにタグを付け、識別するためのツールキット「SynthID」だ。Google Cloudの正規ユーザーは、画質に影響を与えることなく、目に見えないデジタル透かしを画像ピクセルに直接挿入することができる。SynthIDは、保存中に画像がフィルタリング、トリミング、圧縮されても透かしを保持する。

さらにGoogleは、暴力的、攻撃的、性的なコンテンツなど、問題のある出力を制限する技術的なセーフガードを実装しているという。セキュリティテストは、トレーニングデータと、生成中にシステムによって生成されたプロンプトと出力に対して行われた。

Imagen 2は、OpenAIの最新画像モデルであるDALL-E 3に対抗する物だが、DALL-E 3はその画質だけでなく、ChatGPTを介したアクセスのしやすさでもポイントを獲得している。Googleは、Imagen 2をどのようにエンドユーザーに提供するつもりなのかまだ発表していないが、Bardとの統合が最も有効な手段だろう。

Sources

Google DeepMind: Imagen 2
Google Cloud: Imagen 2 on Vertex AI is now generally available