Google がテキストからHD画質の動画を作製するAIジェネレーター「Imagen Video」を発表 | TEXAL

Google がテキストからHD画質の動画を作製するAIジェネレーター「Imagen Video」を発表

masapoco

投稿日 2022年10月7日 18:21

テクノロジー

imagen teddy bear 1 980x588 1

本記事は広告およびアフィリエイトプログラムによる収益を得ています。

Googleが、文章によるプロンプトから1280×768の動画を毎秒24フレームで生成できる「Text-to-Video」AIの「Imagen Video」の開発を発表した。現在は研究段階だが、Google Imagenから5ヶ月での登場は、動画合成モデルの急速な発展の現れだろう。

Source

論文

Google: IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS (PDF)

参考文献

Google: Imagine Video
Venture Beat: Google’s Imagen takes on Meta’s Make-A-Video as text-to-video AI models ramp up

OpenAIのテキストから画像への生成ツールDALLE-2の発表からわずか半年、AI 拡散モデルの分野における進歩は急速に加熱している。GoogleのImagen Videoの発表は、Metaがテキストから動画へのAIツール「Make-A-Video」を発表してから1週間も経たないうちに行われた。

Googleの研究論文によると、Imagen Videoには、有名画家の作品（例えばフィンセント・ファン・ゴッホの絵画）に基づく動画の生成、オブジェクト構造を保持したままの3D回転オブジェクトの生成、さまざまなアニメーションスタイルでのテキストレンダリングなど、注目すべき様式的能力がいくつか含まれているとのことだ。Googleは、汎用的な映像合成モデルによって、「高品質なコンテンツ生成の難易度を大幅に下げることができる」と期待している。

Imagen Videoの能力の鍵は、7つの拡散モデルの「カスケード」であり、最初のテキストプロンプト（「皿洗いをする熊」など）を低解像度ビデオ（16フレーム、24×48ピクセル、3fps）に変換し、ステップごとに徐々に高解像度、高フレームレートにアップスケールしていくものである。最終的に出力される映像は5.3秒になります。

Imagen Videoのウェブサイトに掲載されている動画の例は、ありふれたもの(「コーンに滴る溶けたアイスクリーム」)から幻想的なもの(「嵐の海で海賊船同士の激しい戦闘を飛ぶ」)まで様々だ。

Googleの発表と時を同じくして、一つのText-to-Videoモデルも本日正式にデビューした。Phenakiと呼ばれるこのモデルは、詳細なプロンプトから長い動画を作成することができる。このように、テキストプロンプトから3Dモデルを作成できるDreamFusionとともに、拡散モデルに関する競争的な開発は急速に進んでおり、arXivに掲載されるAI論文の数は、一部の研究者にとって最新動向を把握することが困難なほど指数関数的に増加している。

Google Imagen Videoの学習データは、Googleによると、一般に公開されているLAION-400M image-text datasetと「1400万のビデオ-テキストペアと6000万のイメージ-テキストペア」から得ている。その結果、Googleによってフィルタリングされた「問題のあるデータ」で学習させたが、それでも性的に露骨な内容や暴力的な内容、さらには社会的ステレオタイプや文化的バイアスが含まれる可能性がある。同社はまた、そのツールが「偽の、憎悪に満ちた、露骨な、または有害なコンテンツを生成する」ために使用される可能性があることを懸念している。

そのため、すぐに一般公開されることはなさそうだ。「我々はこれらの懸念が軽減されるまで、Imagen Videoモデルまたはそのソースコードを解放しないことを決定した」とGoogleは述べている。

論文の概要

我々は、ビデオ拡散モデルのカスケードに基づいて、テキスト条件付きビデオ生成システムであるイマージェンビデオを発表する。テキストプロンプトが与えられると、Imagen Videoはベースビデオ生成モデルと、インターリーブされた空間および時間ビデオ超解像モデルのシーケンスを用いて高解像度ビデオを生成する。我々は、特定の解像度における完全畳み込み時間的・空間的超解像モデルの選択、拡散モデルのvパラメータ化の選択などの設計上の決定を含む、高解像度テキスト-ビデオモデルとしてシステムをスケールアップする方法について説明する。さらに、拡散に基づく画像生成に関する先行研究の知見を確認し、ビデオ生成の設定に移行する。最後に、高速かつ高品質なサンプリングのために、分類器不要のガイダンスとともに、ビデオモデルに漸進的蒸留を適用します。我々は、Imagen Videoが忠実度の高いビデオを生成できるだけでなく、様々な芸術的スタイルの多様なビデオやテキストアニメーションを生成し、3Dオブジェクトを理解する能力を含む、高度な制御性と世界知識を持つことを発見しました。

この記事が面白かったら是非シェアをお願いします！

次の記事
TSMCの2022年第3四半期売上高は、半導体需要の低迷にもかかわらず過去最高を記録
2022年10月8日 2:29

前の記事
シュレーディンガーの猫は現実に存在するのだろうか？私たちの研究がその答えになるかもしれない
2022年10月7日 17:50

スポンサーリンク

この記事を書いた人

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

コメントを残すコメントをキャンセル

おすすめ記事

今読まれている記事