昨年、テキストプロンプトから画像を生成するAIアートが登場し大きな話題を呼んだ。ユーザーがシーンを説明するテキストプロンプトを入力すると、ツールは現実世界の「種」や芸術的スタイルなどについて知っていることを利用して、画像の作成を試みる。Midjourneyのようなサービスは、クラウドサーバー上でこれらのタスクを実行し、Stable Diffusionは、家庭用PC上で動作する同様のAIモデルを利用している。
しかし、テキストからビデオの生成は次のステップと目されている。既にGoogleやMeta、OpenAI等が続々とこの分野での成果を発表しているが、まだまだ実用的とは言いがたい。
テキストからビデオへの変換を実現する方法はさまざまで、Pollinations.aiでは、関連するシーンをいくつか集めて、それをつなぎ合わせたアニメーションを作るモデルをいくつか用意している。また、画像の3Dモデルを作って、その周りをズームできるようにしたものもある。
Runwayは、異なるアプローチを取る。同社はすでに、(画像ではなく)動画からオブジェクトを除去するインペインティング、AIを利用したボケ、トランスクリプトと字幕など、AIを利用した動画ツールを提供している。そのtext-to-videoツールの第一世代では、現実世界のシーンを構築し、それをモデルとして、その上にテキストで生成されたビデオを重ねることが出来た。これは通常、画像として扱われ、例えばゴールデンレトリバーの写真を撮影し、AIを使ってその写真をドーベルマンの写真に変換することが出来る。
それが第1世代のRunwayだった。第2世代は、会社がツイートしたように、既存の画像やテキストプロンプトの構図やスタイルをソースビデオの構造に適用して新しいビデオを作る事が出来る(video-to-videoとRunwayは呼ぶ)。しかし、それに加えてテキストプロンプトから短いビデオクリップを完全に自動生成することも出来るのだ。ただし、クリップはいずれも短く(せいぜい数秒)、ひどく粗く、低いフレームレートが悩みどころだ。また、Runwayがこのモデルを早期アクセスや一般公開する時期も明らかではない。
しかし、Runway Gen 2のページにある例では、「純粋なテキストからビデオの生成」、「テキスト+画像からビデオを生成」など、さまざまなビデオプロンプトが紹介されている。どうやら、モデルに与える入力が多ければ多いほど、良い出力が得られる確率が上がるようだ。既存のオブジェクトやシーンの上にビデオ「オーバーレイ」を適用すると、最もスムーズなビデオと高い解像度を提供できるという。
Runwayではすでに、動画プロジェクトが無制限に利用できる月額12ドルの「スタンダード」プランを提供している。しかし、実際に自分のポートレートや動物ジェネレーターをトレーニングするなどの特定のツールは、10ドルの追加料金が必要だ。Runwayが新モデルの料金をいくらにするかは不明だ。
しかし、それ以上に重要なことを「Runway」は示している。最も衝撃的なのは、わずか数ヶ月の間に、テキストから画像へのAIアートから、テキストから映像へのAIアートへと移行したことであり、また、その短期間に改善された品質についても驚かされる。
Source
- Runway Research: Gen-2: The Next Step Forward for Generative AI
コメントを残す