Google、テキストや画像から動画を生成出来る「VideoPoet」を発表

masapoco
投稿日
2023年12月20日 17:53
videopoet monalisa

Google、動画生成のための新しい大規模言語モデル(LLM)である「VideoPoet」を発表した。このモデルは、テキストから動画、画像から動画、動画のスタイル化、動画のインペインティングとアウトペインティング、動画から音声への変換など、さまざまなタスクを実行できるように設計されている。

VideoPoetは、映像の中で首尾一貫した大きな動きを作り出すという課題に対処するもので、現在の映像生成技術における限界に挑戦するものだ。

この新しいモデルは、単一のLLMフレームワーク内に複数の動画生成機能を統合することで、既存モデルの分割アプローチとは対照的に差別化を図っている。様々なモダリティを使用し、ビデオと画像にはMAGVIT V2、音声にはSoundStreamといった複数のトークナイザーを用いて学習される。これにより、VideoPoetは、画像のアニメーションから、テキスト入力に基づく動画の編集やスタイリングまで、多様なタスクを実行できる。

VideoPoetは、既存のビデオの編集にも使用出来る。例えば、このツールを使って、静止画像にアニメーションを追加したり、ビデオのスタイルを変更したりすることが可能だ。このため、VideoPoetは、経験があまりない人でも、ビデオ編集のための強力なツールとなりえる。

VideoPoetが使用できる具体的な作業は以下の通りだ:

  • テキストからビデオへ:テキストからビデオへ:テキストの説明からビデオを生成する。
  • 画像から動画へ:静止画像をアニメーション化する。
  • 動画のスタイル設定:動画にスタイル効果を適用する。
  • 動画のインペイントとアウトペイント:動画の欠落部分を埋めたり、動画を元の境界を超えて拡張。
  • ビデオからオーディオへ:ビデオクリップからオーディオを生成。

他社との比較

VideoPoetは、テキスト忠実度とモーションの面白さにおいて強化された能力によって、Imagen Video、RunwayML、Stable Video Diffusion、Pika、AlibabaのAnimate Anyoneのような既存のモデルとは一線を画し、AI生成ビデオ技術の進化する状況の中で、他社とは一線を画す。VideoPoetは、より正確にテキストプロンプトに従い、より魅力的なモーションを持つビデオを生成することで、他のモデルを圧倒しているのだ。

比較のポイントは以下の通り:ゼロショット機能、VideoPoetは、他の最新モデルと同様に、1つのテキストプロンプトや画像などの最小限の入力からコンテンツを生成することに優れており、そのコンテンツに関する特別なトレーニングを必要としない。

大きな動きの一貫性に苦労する他のモデルとは異なり、VideoPoetは、テキストプロンプトをビデオに変換する精度の高さを示し、ユーザーエクスペリエンスを向上させている。他のモデルでは、大きな、アーティファクトのないモーションを作成する際にしばしば問題に直面するが、VideoPoetは、よりダイナミックで流動的なビデオを作成し、顕著な改善を示しているのだ。

生成された動画のプロンプトへの忠実度に関しては、調査で過半数のユーザーが「どちらも変わらない」と回答した一方で、動画の面白さという観点では、5割のユーザーが「VideoPoet」に高評価を与えている。

将来の方向性として、「any-to-any」生成をサポートすることができるはずであると、Google Researchは考えており、例えば、テキストからオーディオ、オーディオからビデオ、ビデオキャプションへの拡張を進めるようだ。


Sources



この記事が面白かったら是非シェアをお願いします!


  • child
    次の記事

    Stable Diffusionなどの画像生成AIが児童性的虐待画像を用いてトレーニングされていたことが判明

    2023年12月21日 6:24
  • 前の記事

    OpenAIがAIによる破滅を防ぐ為に取り始めた戦略とは

    2023年12月20日 15:54
    5d3960e99b2b813696fb6241acb9a2da

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事