Microsoft、記述を組み合わせて最大11分の動画を生成する「NUWA-XL」を公開

masapoco
投稿日 2023年4月20日 15:30
17.f461fc5f
17.f461fc5f

Microsoftは、マルチモーダル自動生成AIモデル「NUWA-XL」を発表し、16セットの記述子で最大11分の動画コンテンツを生成する能力を持っている。

NUWAは、Microsoftが2021年に発表したマルチモーダル自動生成AIモデルであり、自然言語のテキスト記述により、画像、動画コンテンツを生成する物だ。その後に公開されたこのアップグレード版「NUWA-Infinity」では、生成された画像や動画の解像度をさらに向上させていた。

今回Microsoftが提案したNUWA-XLは、Diffusion over Diffusionアーキテクチャを採用しており、Global Diffusionモデルで映画の全時間軸のキーフレームを生成し、Local Diffusionモデルでキーフレーム近辺のコンテンツを埋めていく。これにより、コンテンツ全体の生成効率を加速させ、生成されたコンテンツの連続性と整合性を確保することが出来るのだ。

全体的な流れとしては、入力された記述子に従ってキーフレームを生成し、キーフレームに対応する動画を順次生成していく。 また、拡散モデルは動画コンテンツの長さを長くすることで、最初のスケッチが完全なストーリーとなるような動画にすることができる。デモンストレーションでは、Microsoftが「The Flintstones」のアニメーションをベースに、新しいアニメーションのコンテンツを自動生成している。

Microsoftの技術では、1,024枚の画像を生成するのに平均7.55分かかっていた推論時間が、わずか26秒で生成できるようになり、全体のスピードが94.26%向上したという。

提案する「NUWA-XL」は、キーフレームを作成し、キーフレームから派生するコンテンツを連続的に生成して完全なアニメーション映像を形成するというプロのアニメーションコンテンツ制作プロセスに基づき、コンテンツの連続性と品質を確保し、コンテンツ生成のスピードアップを実現している。


論文

参考文献

研究の要旨

本論文では、eXtremely Longビデオ生成のための新しいDiffusion over DiffusionアーキテクチャであるNUWA-XLを提案する。現在の研究では、長い動画をセグメントごとに順次生成しているが、これは通常、短い動画での学習と長い動画の推論の間にギャップが生じ、順次生成は非効率的である。その代わりに、本アプローチでは、同じ粒度で並列に動画を生成できる”粗から細へ”のプロセスを採用する。大域的な拡散モデルを適用して全時間範囲にわたるキーフレームを生成し、局所的な拡散モデルによって近接するフレーム間のコンテンツを再帰的に埋めていく。このシンプルかつ効果的な戦略により、長い動画(3376フレーム)を直接学習して、学習と推論のギャップを減らし、すべてのセグメントを並行して生成することが可能になった。本モデルを評価するために、長尺動画生成の新しいベンチマークであるFlintstonesHDデータセットを構築した。実験によると、本モデルは、大域的・局所的なコヒーレンスを持つ高品質な長尺動画を生成するだけでなく、同じハードウェア設定で1024フレームを生成した場合の平均推論時間を7.55minから26s(94.26%減)短縮することができた。



この記事が面白かったら是非シェアをお願いします!


  • free
    次の記事

    テック企業の社員達は、一日中何もすることがないのに給料をもらっていた

    2023年4月20日 17:06
  • 前の記事

    Googleが来月のI/Oで折りたたみ式のPixel Phoneを発表すると報じられる

    2023年4月20日 9:46
    pixel fold 5k1
この記事を書いた人
masapoco

スポンサーリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

  • microsoft edge chromium

    Microsoft EdgeブラウザでRAMの消費量を制御出来る機能がテスト中

  • what is ai pc

    Intel、「AI PC」の要件は40TOPS以上の性能を持つNPUが必要と述べる、ただしMeteor Lakeはこれを満たさず

  • amazon anthropic

    Amazon、AIスタートアップのAnthropicに“現金”27億5千万ドルを投資

  • 854f82b63ec3ff5c24f3787df5d0afc3

    GPT-4がついに王座陥落、AnthropicのClaude 3がベンチマークで1位に輝く

今読まれている記事