OpenAIの新たな動画生成モデル「Sora」は世界シミュレーターに繋がるものかも知れない

masapoco
投稿日
2024年2月17日 12:27

OpenAIの新しいAIモデル「Sora」は、破綻が多く、お世辞にも実用的とは言いがたかったテキストから動画を生成する従来のモデルから大きな飛躍を遂げたもので、メディアでも大きく取り上げられるなど、世界に再び衝撃を与える物だった。だが、OpenAIは、このSoraの可能性は、それだけに留まらない大きな物であると述べている。彼らは、これが世界シミュレーターの実現に繋がるような、まるでSFの世界を実現する物になるきっかけになると考えているようだ。

Soraは、GPTなどの言語モデルで使用されるのと同様のTransformerアーキテクチャをベースにしており、画像生成の拡散技術と組み合わせたものだ。このモデルは、トレーニング中にビデオや画像を取り込み、それらをより単純な形や小さな断片に分解する。そして、Soraはこれらの断片から新しいビジュアル・コンテンツを生成することができる。

ビジュアルデータの特定のカテゴリ、短い動画、または一定のサイズの動画に焦点を当てた多くの先行研究とは異なり、Soraはビジュアルデータの取り扱いに多方面でのスキルを示す。例えば、異なる長さ、アスペクト比、解像度の動画や画像を生成することができる。しかし、それだけではない。

Soraはインタラクティブな3D世界を生成できる

OpenAIは、使用しているトレーニングデータについてコメントしていない。しかし、OpenAIがこれまでに示したシーンには、OpenAIが実際の映像の代わりに、あるいはそれに加えて、ゲームエンジンによって生成されたフォトリアリスティックなシーンという、非常に質の高い合成トレーニングデータを使用していることを示す視覚的なヒントが含まれている。

これにより、OpenAIは、テキストや画像などの生成AIで知られる潜在的な著作権問題を回避または軽減することができる。NVIDIAのJim Fan氏らは、このAIはUnreal Engine 5によって生成された合成データで訓練されたと推測している。

例えば、下のビデオでは、車の動きや周囲の誇りの描写がどこかゲームの映像のようにも見える。特に、埃は車の後ろにだけ現れ、現実のように車の周りには現れないからだ。

(Credit: OpenAI)

以下の動画でも、2人の主人公の動きはごまかされている。リアルに見えるが、その画一性はビデオゲームを思わせる。人間の動きはもっと変化に富んでいるからだ。

(Credit: OpenAI)

合成データトレーニングのもう一つの兆候は、Soraがダイナミックなカメラの動きと3次元的な一貫性を持つビデオを生成できることだ。カメラが動いたり回転したりすると、人物やシーンの要素が3次元空間で一緒に動く。

Soraは、生成されたシーンの状態に影響を与えるアクションをシミュレートすることもできる。例えば、画家がキャンバスに新たな線を残して時間と共に変化させたり、男性がハンバーガーを食べて噛み跡を残したりすることができる。波や船のようなビデオ内の要素は、物理的に正しい方法で相互に作用することができます。

このモデルはフレームを生成できるだけでなく、ビデオゲームに似た世界内での相互作用も可能だ。OpenAIは、Minecraftを例にしてこれを実証している。プロンプトに “Minecraft”と入力するだけで、SoraはMinecraftの世界を生成し、オリジナルのゲームと同じようにインタラクションすることができる。

(Credit: OpenAI)

これは動画生成の域をはるかに超えており、ゲームグラフィックの制作方法の根本的な変化を示している。他にもそれを感じさせる兆候としては、レースゲームのようなデモのシーンをご覧いただきたい。ジャングル、水中世界、サイバーパンク、レトロなピクセルグラフィックなど、さまざまなバリエーションで同じシークエンスを表示することが、テキストコマンドだけでできることを示している。

(Credit: OpenAI)
(Credit: OpenAI)

その素晴らしい機能にもかかわらず、OpenAIによれば、Soraには現在シミュレーターとしていくつかの限界があるという。例えば、Soraはガラスを割るような多くの基本的な相互作用の物理を正しくモデル化していない。

また、食べ物を食べるといった他のインタラクションは、必ずしもオブジェクトの状態を正しく変化させるとは限らず、よくあるエラーは、時間の経過やオブジェクトの突発的な出現によって生じる矛盾である。

しかし、OpenAIによれば、これらの問題はモデルをさらに拡張することで解決できる可能性がある。「我々の結果は、ビデオ生成モデルを拡張することが、物理世界の汎用シミュレータを構築するための有望な道であることを示唆している」と、OpenAIは述べている。

ビデオモデルは、例えば純粋なテキストや画像モデルよりも日常生活の複雑な多様性を表現できるため、世界シミュレーターとして役立つという考えは、基本的に新しいものではない。

動画AIスタートアップのRunwayMLは最近、世界モデルの研究を発表し、スタートアップのWayveは自動運転車の交通シミュレーションに動画モデルを使用している。

Metaは、日常的な状況に対応するAI支援システムを訓練するために、何年も前から何千時間もの一人称視点の動画を収集しており、Soraの発表当日には、動画内の複雑なインタラクションを予測・理解するための新しいアーキテクチャであるV-JEPAを披露した。

しかし、OpenAIのSoraは、我々が知っているこれまでのアプローチやモデルを凌駕している。その衝撃はChatGPTのそれを彷彿とさせる物だ。


Sources



この記事が面白かったら是非シェアをお願いします!


  • echo buds 2gen chip
    次の記事

    NASAの新レポートは2050年以降の宇宙太陽光発電実現の可能性を示唆している

    2024年2月17日 14:06
  • 前の記事

    大規模言語モデルにおける「コンテキストウィンドウの長さ」は何をもたらすのか?

    2024年2月17日 9:17
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事