Google がテキストからHD画質の動画を作製するAIジェネレーター「Imagen Video」を発表

masapoco
投稿日 2022年10月7日 18:21
imagen teddy bear 1 980x588 1

Googleが、文章によるプロンプトから1280×768の動画を毎秒24フレームで生成できる「Text-to-Video」AIの「Imagen Video」の開発を発表した。現在は研究段階だが、Google Imagenから5ヶ月での登場は、動画合成モデルの急速な発展の現れだろう。

OpenAIのテキストから画像への生成ツールDALLE-2の発表からわずか半年、AI 拡散モデルの分野における進歩は急速に加熱している。GoogleのImagen Videoの発表は、Metaがテキストから動画へのAIツール「Make-A-Video」を発表してから1週間も経たないうちに行われた。

Googleの研究論文によると、Imagen Videoには、有名画家の作品(例えばフィンセント・ファン・ゴッホの絵画)に基づく動画の生成、オブジェクト構造を保持したままの3D回転オブジェクトの生成、さまざまなアニメーションスタイルでのテキストレンダリングなど、注目すべき様式的能力がいくつか含まれているとのことだ。Googleは、汎用的な映像合成モデルによって、「高品質なコンテンツ生成の難易度を大幅に下げることができる」と期待している。

Imagen Videoの能力の鍵は、7つの拡散モデルの「カスケード」であり、最初のテキストプロンプト(「皿洗いをする熊」など)を低解像度ビデオ(16フレーム、24×48ピクセル、3fps)に変換し、ステップごとに徐々に高解像度、高フレームレートにアップスケールしていくものである。最終的に出力される映像は5.3秒になります。

Imagen Videoのウェブサイトに掲載されている動画の例は、ありふれたもの(「コーンに滴る溶けたアイスクリーム」)から幻想的なもの(「嵐の海で海賊船同士の激しい戦闘を飛ぶ」)まで様々だ。

Googleの発表と時を同じくして、一つのText-to-Videoモデルも本日正式にデビューした。Phenakiと呼ばれるこのモデルは、詳細なプロンプトから長い動画を作成することができる。このように、テキストプロンプトから3Dモデルを作成できるDreamFusionとともに、拡散モデルに関する競争的な開発は急速に進んでおり、arXivに掲載されるAI論文の数は、一部の研究者にとって最新動向を把握することが困難なほど指数関数的に増加している。

Google Imagen Videoの学習データは、Googleによると、一般に公開されているLAION-400M image-text datasetと「1400万のビデオ-テキストペアと6000万のイメージ-テキストペア」から得ている。その結果、Googleによってフィルタリングされた「問題のあるデータ」で学習させたが、それでも性的に露骨な内容や暴力的な内容、さらには社会的ステレオタイプや文化的バイアスが含まれる可能性がある。同社はまた、そのツールが 「偽の、憎悪に満ちた、露骨な、または有害なコンテンツを生成する」ために使用される可能性があることを懸念している。

そのため、すぐに一般公開されることはなさそうだ。「我々はこれらの懸念が軽減されるまで、Imagen Videoモデルまたはそのソースコードを解放しないことを決定した」とGoogleは述べている。

論文の概要

我々は、ビデオ拡散モデルのカスケードに基づいて、テキスト条件付きビデオ生成システムであるイマージェン ビデオを発表する。テキストプロンプトが与えられると、Imagen Videoはベースビデオ生成モデルと、インターリーブされた空間および時間ビデオ超解像モデルのシーケンスを用いて高解像度ビデオを生成する。我々は、特定の解像度における完全畳み込み時間的・空間的超解像モデルの選択、拡散モデルのvパラメータ化の選択などの設計上の決定を含む、高解像度テキスト-ビデオモデルとしてシステムをスケールアップする方法について説明する。さらに、拡散に基づく画像生成に関する先行研究の知見を確認し、ビデオ生成の設定に移行する。最後に、高速かつ高品質なサンプリングのために、分類器不要のガイダンスとともに、ビデオモデルに漸進的蒸留を適用します。我々は、Imagen Videoが忠実度の高いビデオを生成できるだけでなく、様々な芸術的スタイルの多様なビデオやテキストアニメーションを生成し、3Dオブジェクトを理解する能力を含む、高度な制御性と世界知識を持つことを発見しました。



この記事が面白かったら是非シェアをお願いします!


  • tsmc company entrance
    次の記事

    TSMCの2022年第3四半期売上高は、半導体需要の低迷にもかかわらず過去最高を記録

    2022年10月8日 2:29
  • 前の記事

    シュレーディンガーの猫は現実に存在するのだろうか?私たちの研究がその答えになるかもしれない

    2022年10月7日 17:50
    Schrodingers cat

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事