Microsoft、記述を組み合わせて最大11分の動画を生成する「NUWA-XL」を公開

Microsoftは、マルチモーダル自動生成AIモデル「NUWA-XL」を発表し、16セットの記述子で最大11分の動画コンテンツを生成する能力を持っている。

NUWAは、Microsoftが2021年に発表したマルチモーダル自動生成AIモデルであり、自然言語のテキスト記述により、画像、動画コンテンツを生成する物だ。その後に公開されたこのアップグレード版「NUWA-Infinity」では、生成された画像や動画の解像度をさらに向上させていた。

今回Microsoftが提案したNUWA-XLは、Diffusion over Diffusionアーキテクチャを採用しており、Global Diffusionモデルで映画の全時間軸のキーフレームを生成し、Local Diffusionモデルでキーフレーム近辺のコンテンツを埋めていく。これにより、コンテンツ全体の生成効率を加速させ、生成されたコンテンツの連続性と整合性を確保することが出来るのだ。

全体的な流れとしては、入力された記述子に従ってキーフレームを生成し、キーフレームに対応する動画を順次生成していく。また、拡散モデルは動画コンテンツの長さを長くすることで、最初のスケッチが完全なストーリーとなるような動画にすることができる。デモンストレーションでは、Microsoftが「The Flintstones」のアニメーションをベースに、新しいアニメーションのコンテンツを自動生成している。

Microsoftの技術では、1,024枚の画像を生成するのに平均7.55分かかっていた推論時間が、わずか26秒で生成できるようになり、全体のスピードが94.26％向上したという。

提案する「NUWA-XL」は、キーフレームを作成し、キーフレームから派生するコンテンツを連続的に生成して完全なアニメーション映像を形成するというプロのアニメーションコンテンツ制作プロセスに基づき、コンテンツの連続性と品質を確保し、コンテンツ生成のスピードアップを実現している。

論文

arXiv: NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation

参考文献

Microsoft: NUWA-XL

研究の要旨

本論文では、eXtremely Longビデオ生成のための新しいDiffusion over DiffusionアーキテクチャであるNUWA-XLを提案する。現在の研究では、長い動画をセグメントごとに順次生成しているが、これは通常、短い動画での学習と長い動画の推論の間にギャップが生じ、順次生成は非効率的である。その代わりに、本アプローチでは、同じ粒度で並列に動画を生成できる”粗から細へ”のプロセスを採用する。大域的な拡散モデルを適用して全時間範囲にわたるキーフレームを生成し、局所的な拡散モデルによって近接するフレーム間のコンテンツを再帰的に埋めていく。このシンプルかつ効果的な戦略により、長い動画（3376フレーム）を直接学習して、学習と推論のギャップを減らし、すべてのセグメントを並行して生成することが可能になった。本モデルを評価するために、長尺動画生成の新しいベンチマークであるFlintstonesHDデータセットを構築した。実験によると、本モデルは、大域的・局所的なコヒーレンスを持つ高品質な長尺動画を生成するだけでなく、同じハードウェア設定で1024フレームを生成した場合の平均推論時間を7.55minから26s（94.26%減）短縮することができた。