Microsoft、記述を組み合わせて最大11分の動画を生成する「NUWA-XL」を公開

masapoco
投稿日 2023年4月20日 15:30
17.f461fc5f

Microsoftは、マルチモーダル自動生成AIモデル「NUWA-XL」を発表し、16セットの記述子で最大11分の動画コンテンツを生成する能力を持っている。

NUWAは、Microsoftが2021年に発表したマルチモーダル自動生成AIモデルであり、自然言語のテキスト記述により、画像、動画コンテンツを生成する物だ。その後に公開されたこのアップグレード版「NUWA-Infinity」では、生成された画像や動画の解像度をさらに向上させていた。

今回Microsoftが提案したNUWA-XLは、Diffusion over Diffusionアーキテクチャを採用しており、Global Diffusionモデルで映画の全時間軸のキーフレームを生成し、Local Diffusionモデルでキーフレーム近辺のコンテンツを埋めていく。これにより、コンテンツ全体の生成効率を加速させ、生成されたコンテンツの連続性と整合性を確保することが出来るのだ。

全体的な流れとしては、入力された記述子に従ってキーフレームを生成し、キーフレームに対応する動画を順次生成していく。 また、拡散モデルは動画コンテンツの長さを長くすることで、最初のスケッチが完全なストーリーとなるような動画にすることができる。デモンストレーションでは、Microsoftが「The Flintstones」のアニメーションをベースに、新しいアニメーションのコンテンツを自動生成している。

Microsoftの技術では、1,024枚の画像を生成するのに平均7.55分かかっていた推論時間が、わずか26秒で生成できるようになり、全体のスピードが94.26%向上したという。

提案する「NUWA-XL」は、キーフレームを作成し、キーフレームから派生するコンテンツを連続的に生成して完全なアニメーション映像を形成するというプロのアニメーションコンテンツ制作プロセスに基づき、コンテンツの連続性と品質を確保し、コンテンツ生成のスピードアップを実現している。


論文

参考文献

研究の要旨

本論文では、eXtremely Longビデオ生成のための新しいDiffusion over DiffusionアーキテクチャであるNUWA-XLを提案する。現在の研究では、長い動画をセグメントごとに順次生成しているが、これは通常、短い動画での学習と長い動画の推論の間にギャップが生じ、順次生成は非効率的である。その代わりに、本アプローチでは、同じ粒度で並列に動画を生成できる”粗から細へ”のプロセスを採用する。大域的な拡散モデルを適用して全時間範囲にわたるキーフレームを生成し、局所的な拡散モデルによって近接するフレーム間のコンテンツを再帰的に埋めていく。このシンプルかつ効果的な戦略により、長い動画(3376フレーム)を直接学習して、学習と推論のギャップを減らし、すべてのセグメントを並行して生成することが可能になった。本モデルを評価するために、長尺動画生成の新しいベンチマークであるFlintstonesHDデータセットを構築した。実験によると、本モデルは、大域的・局所的なコヒーレンスを持つ高品質な長尺動画を生成するだけでなく、同じハードウェア設定で1024フレームを生成した場合の平均推論時間を7.55minから26s(94.26%減)短縮することができた。



この記事が面白かったら是非シェアをお願いします!


  • gray hair
    次の記事

    白髪の原因となる生体細胞のメカニズムが解明された

    2023年4月20日 16:06
  • 前の記事

    Googleが来月のI/Oで折りたたみ式のPixel Phoneを発表すると報じられる

    2023年4月20日 9:46
    pixel fold 5k1

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • Babylon 7

    Microsoft、Webゲーム用のグローバルイルミネーションサポートを追加したBabylon.js 7.0を公開

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

今読まれている記事