テキストから動画を作成する「Runway」の第2世代が公開

masapoco
投稿日 2023年3月21日 6:45

昨年、テキストプロンプトから画像を生成するAIアートが登場し大きな話題を呼んだ。ユーザーがシーンを説明するテキストプロンプトを入力すると、ツールは現実世界の「種」や芸術的スタイルなどについて知っていることを利用して、画像の作成を試みる。Midjourneyのようなサービスは、クラウドサーバー上でこれらのタスクを実行し、Stable Diffusionは、家庭用PC上で動作する同様のAIモデルを利用している。

しかし、テキストからビデオの生成は次のステップと目されている。既にGoogleやMeta、OpenAI等が続々とこの分野での成果を発表しているが、まだまだ実用的とは言いがたい。

テキストからビデオへの変換を実現する方法はさまざまで、Pollinations.aiでは、関連するシーンをいくつか集めて、それをつなぎ合わせたアニメーションを作るモデルをいくつか用意している。また、画像の3Dモデルを作って、その周りをズームできるようにしたものもある。

Runwayは、異なるアプローチを取る。同社はすでに、(画像ではなく)動画からオブジェクトを除去するインペインティング、AIを利用したボケ、トランスクリプトと字幕など、AIを利用した動画ツールを提供している。そのtext-to-videoツールの第一世代では、現実世界のシーンを構築し、それをモデルとして、その上にテキストで生成されたビデオを重ねることが出来た。これは通常、画像として扱われ、例えばゴールデンレトリバーの写真を撮影し、AIを使ってその写真をドーベルマンの写真に変換することが出来る。

それが第1世代のRunwayだった。第2世代は、会社がツイートしたように、既存の画像やテキストプロンプトの構図やスタイルをソースビデオの構造に適用して新しいビデオを作る事が出来る(video-to-videoとRunwayは呼ぶ)。しかし、それに加えてテキストプロンプトから短いビデオクリップを完全に自動生成することも出来るのだ。ただし、クリップはいずれも短く(せいぜい数秒)、ひどく粗く、低いフレームレートが悩みどころだ。また、Runwayがこのモデルを早期アクセスや一般公開する時期も明らかではない。

しかし、Runway Gen 2のページにある例では、「純粋なテキストからビデオの生成」、「テキスト+画像からビデオを生成」など、さまざまなビデオプロンプトが紹介されている。どうやら、モデルに与える入力が多ければ多いほど、良い出力が得られる確率が上がるようだ。既存のオブジェクトやシーンの上にビデオ「オーバーレイ」を適用すると、最もスムーズなビデオと高い解像度を提供できるという。

「山脈の空中ドローン撮影動画」というプロンプトから出力された動画 (Credit: Runway)

Runwayではすでに、動画プロジェクトが無制限に利用できる月額12ドルの「スタンダード」プランを提供している。しかし、実際に自分のポートレートや動物ジェネレーターをトレーニングするなどの特定のツールは、10ドルの追加料金が必要だ。Runwayが新モデルの料金をいくらにするかは不明だ。

しかし、それ以上に重要なことを「Runway」は示している。最も衝撃的なのは、わずか数ヶ月の間に、テキストから画像へのAIアートから、テキストから映像へのAIアートへと移行したことであり、また、その短期間に改善された品質についても驚かされる。


Source



この記事が面白かったら是非シェアをお願いします!


  • ai computer future
    次の記事

    スタンフォード大学がChatGPTレベルのAIを600ドル未満で構築

    2023年3月21日 10:28
  • 前の記事

    Google、チャットボット「Bard」への早期アクセスを限定ユーザーに提供開始へ

    2023年3月21日 5:40
    Bard Padding

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事