OpenAIの新しいAIモデル「Sora」は、破綻が多く、お世辞にも実用的とは言いがたかったテキストから動画を生成する従来のモデルから大きな飛躍を遂げたもので、メディアでも大きく取り上げられるなど、世界に再び衝撃を与える物だった。だが、OpenAIは、このSoraの可能性は、それだけに留まらない大きな物であると述べている。彼らは、これが世界シミュレーターの実現に繋がるような、まるでSFの世界を実現する物になるきっかけになると考えているようだ。
Soraは、GPTなどの言語モデルで使用されるのと同様のTransformerアーキテクチャをベースにしており、画像生成の拡散技術と組み合わせたものだ。このモデルは、トレーニング中にビデオや画像を取り込み、それらをより単純な形や小さな断片に分解する。そして、Soraはこれらの断片から新しいビジュアル・コンテンツを生成することができる。
ビジュアルデータの特定のカテゴリ、短い動画、または一定のサイズの動画に焦点を当てた多くの先行研究とは異なり、Soraはビジュアルデータの取り扱いに多方面でのスキルを示す。例えば、異なる長さ、アスペクト比、解像度の動画や画像を生成することができる。しかし、それだけではない。
Soraはインタラクティブな3D世界を生成できる
OpenAIは、使用しているトレーニングデータについてコメントしていない。しかし、OpenAIがこれまでに示したシーンには、OpenAIが実際の映像の代わりに、あるいはそれに加えて、ゲームエンジンによって生成されたフォトリアリスティックなシーンという、非常に質の高い合成トレーニングデータを使用していることを示す視覚的なヒントが含まれている。
これにより、OpenAIは、テキストや画像などの生成AIで知られる潜在的な著作権問題を回避または軽減することができる。NVIDIAのJim Fan氏らは、このAIはUnreal Engine 5によって生成された合成データで訓練されたと推測している。
例えば、下のビデオでは、車の動きや周囲の誇りの描写がどこかゲームの映像のようにも見える。特に、埃は車の後ろにだけ現れ、現実のように車の周りには現れないからだ。
以下の動画でも、2人の主人公の動きはごまかされている。リアルに見えるが、その画一性はビデオゲームを思わせる。人間の動きはもっと変化に富んでいるからだ。
合成データトレーニングのもう一つの兆候は、Soraがダイナミックなカメラの動きと3次元的な一貫性を持つビデオを生成できることだ。カメラが動いたり回転したりすると、人物やシーンの要素が3次元空間で一緒に動く。
Soraは、生成されたシーンの状態に影響を与えるアクションをシミュレートすることもできる。例えば、画家がキャンバスに新たな線を残して時間と共に変化させたり、男性がハンバーガーを食べて噛み跡を残したりすることができる。波や船のようなビデオ内の要素は、物理的に正しい方法で相互に作用することができます。
このモデルはフレームを生成できるだけでなく、ビデオゲームに似た世界内での相互作用も可能だ。OpenAIは、Minecraftを例にしてこれを実証している。プロンプトに “Minecraft”と入力するだけで、SoraはMinecraftの世界を生成し、オリジナルのゲームと同じようにインタラクションすることができる。
これは動画生成の域をはるかに超えており、ゲームグラフィックの制作方法の根本的な変化を示している。他にもそれを感じさせる兆候としては、レースゲームのようなデモのシーンをご覧いただきたい。ジャングル、水中世界、サイバーパンク、レトロなピクセルグラフィックなど、さまざまなバリエーションで同じシークエンスを表示することが、テキストコマンドだけでできることを示している。
その素晴らしい機能にもかかわらず、OpenAIによれば、Soraには現在シミュレーターとしていくつかの限界があるという。例えば、Soraはガラスを割るような多くの基本的な相互作用の物理を正しくモデル化していない。
また、食べ物を食べるといった他のインタラクションは、必ずしもオブジェクトの状態を正しく変化させるとは限らず、よくあるエラーは、時間の経過やオブジェクトの突発的な出現によって生じる矛盾である。
しかし、OpenAIによれば、これらの問題はモデルをさらに拡張することで解決できる可能性がある。「我々の結果は、ビデオ生成モデルを拡張することが、物理世界の汎用シミュレータを構築するための有望な道であることを示唆している」と、OpenAIは述べている。
ビデオモデルは、例えば純粋なテキストや画像モデルよりも日常生活の複雑な多様性を表現できるため、世界シミュレーターとして役立つという考えは、基本的に新しいものではない。
動画AIスタートアップのRunwayMLは最近、世界モデルの研究を発表し、スタートアップのWayveは自動運転車の交通シミュレーションに動画モデルを使用している。
Metaは、日常的な状況に対応するAI支援システムを訓練するために、何年も前から何千時間もの一人称視点の動画を収集しており、Soraの発表当日には、動画内の複雑なインタラクションを予測・理解するための新しいアーキテクチャであるV-JEPAを披露した。
しかし、OpenAIのSoraは、我々が知っているこれまでのアプローチやモデルを凌駕している。その衝撃はChatGPTのそれを彷彿とさせる物だ。
Sources
コメントを残す