Google DeepMind、1枚の画像からゲームを作り出すAIモデル「Genie」を公開

masapoco
投稿日 2024年2月27日 16:20

Google DeepMindの研究者らは、1つの画像から、インタラクティブでプレイ可能なバーチャル環境を作り上げる事が出来る新しい人工知能モデル「Genie」(generative interactive environments)を発表した。

Genie AIは110億パラメータという比較的小さなモデルで、人間の監視なしに、80~90年代に全盛を迎えたの2Dスタイルのゲームをプレイする人々のビデオを20万時間以上学習させたものだ。

Genieがユニークなのは、インターネット動画のみの学習からきめ細かい制御を学習できることだ。つまり、学習中にゲームパッドの入力など他の情報を受け取らない。

Genieは、フレームからトークンを生成するビデオ・トークナイザー、フレーム間のアクションを予測する潜在アクション・モデル、ビデオの次のフレームを予測するダイナミクス・モデルの3つのコンポーネントで構成されている。潜在アクションモデルについては、人間のプレイアビリティを可能にし、操作性をさらに向上させるために、予測されるアクションの数を少数の離散的なコードセットに制限している。

Genieはコンポーネントに「時空間(ST)変換器」を使用している。Transformerではよくあることだが、パラメータの数が増えるにつれてGenieのパフォーマンスが向上することがわかった。

これらすべてを統合するソリューションは、OpenAIがSoraで成し遂げたブレークスルーと同じだった。つまり、大量のデータと同等の計算能力だ。

その結果、このモデルは、写真であれ、スケッチであれ、AIが生成した画像であれ、1枚の画像をもとに、それをプレイ可能なゲームに変えてくれる。

Google DeepMindは、同社のImagen 2画像ジェネレータで生成した画像を元に、Genieがプレイアブルなゲームを生成する様子を例示している。

手書きのスケッチの様なラフな画像からもゲームを作成してくれる。

Genieは研究プロジェクトであり、最終製品ではない。160×90ピクセルの極小解像度で毎秒10フレームという超低解像度のビデオで訓練され、同様に低解像度で毎秒1フレーム、わずか16秒間しか動作しない「ゲーム」を生成する。

Genieを使えば、多くの人が自分のゲームのような体験を生み出すことができる。これは、新しい方法で自分の創造性を表現したいと願う人々、例えば、自分の想像の世界をデザインし、そこに足を踏み入れることができる子供たちにとって、プラスになる可能性がある。また、この技術が大きく進歩すれば、既存の人間のゲーム生成と創造性を増幅するためにこの技術を使用する可能性を追求することが重要になり、関連業界が次世代のプレイアブルワールド開発を可能にするためにGenieを利用できるようにすることが重要になることも認識しています。

より長く、より高解像度のビデオクリップを投入し、このシステムで大量の演算を行えば、これまでのAI分野での実績が示すように、結果が飛躍的に向上するだろう。

Genieの発表をXで告知したGoogle DeepMindのTim Rocktäschel氏は、OpenAIが「世界モデル」として主張したSoraに対し、これを批判したMetaのYann LeCun氏の言葉を引用し、「世界モデルにはアクションが必要だが、Soraにはこれがない」と指摘している。「Genie はアクション制御可能な世界モデルですが、ビデオから完全に教師なしでトレーニングされています」と付け加えている。

Genieによってもたらされたもうひとつの大きなブレークスルーは、現実世界の物理をより深く理解することである。これは、より効果的に環境をナビゲートしたり、トレーニングにないタスクをこなしたりするロボットのトレーニングに利用できる可能性が示唆されている。

研究チームは、ロボットアームのビデオを使用して、25億のパラメータを持つより小さなモデルを訓練した。Genieは、首尾一貫した環境を想像し、特定の動作シーケンスなどの入力を再現する能力を印象的に示した。Genieは物体の変形さえもシミュレートする。

研究チームは、この実験から、Genieの基礎となる手法が、より大規模なビデオデータセットを使って基本的なロボットモデルを訓練するのに使えることが示されたと考えている。これにより、低レベルで制御可能なシミュレーションを生成し、ロボットエージェントの訓練など、さまざまな用途に利用できる可能性がある。


論文

参考文献

研究の要旨

我々は、ラベル付けされていないインターネット動画から教師なし方法で学習させた、最初の生成的インタラクティブ環境であるGenieを紹介する。このモデルは、テキスト、合成画像、写真、さらにはスケッチを通して記述された、無限の多様なアクション制御可能な仮想世界を生成するように促すことができる。11Bのパラメータで、Genieは基礎世界モデルとみなすことができる。時空間ビデオ・トークナイザー、自己回帰力学モデル、シンプルでスケーラブルな潜在行動モデルで構成されている。Genieは、生成された環境において、ユーザがフレーム単位で行動することを可能にする。さらに、学習された潜在行動空間は、未見のビデオから行動を模倣するエージェントの訓練を容易にし、将来のジェネラリストエージェントの訓練への道を開く。



この記事が面白かったら是非シェアをお願いします!


  • openai sora tokyo scene
    次の記事

    OpenAIの「Sora」による動画生成は軽食が摂れるほど時間がかかる

    2024年2月27日 17:48
  • 前の記事

    ホワイトハウス、開発者に“メモリ・セーフ”なプログラミング言語への移行を促す

    2024年2月27日 14:21
    programming language

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事