Google DeepMind、1枚の画像からゲームを作り出すAIモデル「Genie」を公開

Google DeepMindの研究者らは、1つの画像から、インタラクティブでプレイ可能なバーチャル環境を作り上げる事が出来る新しい人工知能モデル「Genie」(generative interactive environments)を発表した。

Genie AIは110億パラメータという比較的小さなモデルで、人間の監視なしに、80～90年代に全盛を迎えたの2Dスタイルのゲームをプレイする人々のビデオを20万時間以上学習させたものだ。

Genieがユニークなのは、インターネット動画のみの学習からきめ細かい制御を学習できることだ。つまり、学習中にゲームパッドの入力など他の情報を受け取らない。

Genieは、フレームからトークンを生成するビデオ・トークナイザー、フレーム間のアクションを予測する潜在アクション・モデル、ビデオの次のフレームを予測するダイナミクス・モデルの3つのコンポーネントで構成されている。潜在アクションモデルについては、人間のプレイアビリティを可能にし、操作性をさらに向上させるために、予測されるアクションの数を少数の離散的なコードセットに制限している。

Genieはコンポーネントに「時空間（ST）変換器」を使用している。Transformerではよくあることだが、パラメータの数が増えるにつれてGenieのパフォーマンスが向上することがわかった。

これらすべてを統合するソリューションは、OpenAIがSoraで成し遂げたブレークスルーと同じだった。つまり、大量のデータと同等の計算能力だ。

その結果、このモデルは、写真であれ、スケッチであれ、AIが生成した画像であれ、1枚の画像をもとに、それをプレイ可能なゲームに変えてくれる。

Google DeepMindは、同社のImagen 2画像ジェネレータで生成した画像を元に、Genieがプレイアブルなゲームを生成する様子を例示している。

genier imagen 2 generated — Imagen 2で生成したゲーム画面

genie imagen 2 generated game — Imagen 2で生成したゲーム画面

手書きのスケッチの様なラフな画像からもゲームを作成してくれる。

Genieは研究プロジェクトであり、最終製品ではない。160×90ピクセルの極小解像度で毎秒10フレームという超低解像度のビデオで訓練され、同様に低解像度で毎秒1フレーム、わずか16秒間しか動作しない「ゲーム」を生成する。

Genieを使えば、多くの人が自分のゲームのような体験を生み出すことができる。これは、新しい方法で自分の創造性を表現したいと願う人々、例えば、自分の想像の世界をデザインし、そこに足を踏み入れることができる子供たちにとって、プラスになる可能性がある。また、この技術が大きく進歩すれば、既存の人間のゲーム生成と創造性を増幅するためにこの技術を使用する可能性を追求することが重要になり、関連業界が次世代のプレイアブルワールド開発を可能にするためにGenieを利用できるようにすることが重要になることも認識しています。

より長く、より高解像度のビデオクリップを投入し、このシステムで大量の演算を行えば、これまでのAI分野での実績が示すように、結果が飛躍的に向上するだろう。

Genieの発表をXで告知したGoogle DeepMindのTim Rocktäschel氏は、OpenAIが「世界モデル」として主張したSoraに対し、これを批判したMetaのYann LeCun氏の言葉を引用し、「世界モデルにはアクションが必要だが、Soraにはこれがない」と指摘している。「Genie はアクション制御可能な世界モデルですが、ビデオから完全に教師なしでトレーニングされています」と付け加えている。

Admittedly, @OpenAI’s Sora is really impressive and visually stunning, but as @yanlecun says, a world model needs *actions*. Genie is an action-controllable world model, but trained fully unsupervised from videos. So how do we do this?https://t.co/cpxDLKYqLr
— Tim Rocktäschel (@_rockt) February 26, 2024

Genieによってもたらされたもうひとつの大きなブレークスルーは、現実世界の物理をより深く理解することである。これは、より効果的に環境をナビゲートしたり、トレーニングにないタスクをこなしたりするロボットのトレーニングに利用できる可能性が示唆されている。

研究チームは、ロボットアームのビデオを使用して、25億のパラメータを持つより小さなモデルを訓練した。Genieは、首尾一貫した環境を想像し、特定の動作シーケンスなどの入力を再現する能力を印象的に示した。Genieは物体の変形さえもシミュレートする。

研究チームは、この実験から、Genieの基礎となる手法が、より大規模なビデオデータセットを使って基本的なロボットモデルを訓練するのに使えることが示されたと考えている。これにより、低レベルで制御可能なシミュレーションを生成し、ロボットエージェントの訓練など、さまざまな用途に利用できる可能性がある。

論文

arXiv: Genie: Generative Interactive Environments

参考文献

Google DeepMind: ? Genie: Generative Interactive Environments

研究の要旨

我々は、ラベル付けされていないインターネット動画から教師なし方法で学習させた、最初の生成的インタラクティブ環境であるGenieを紹介する。このモデルは、テキスト、合成画像、写真、さらにはスケッチを通して記述された、無限の多様なアクション制御可能な仮想世界を生成するように促すことができる。11Bのパラメータで、Genieは基礎世界モデルとみなすことができる。時空間ビデオ・トークナイザー、自己回帰力学モデル、シンプルでスケーラブルな潜在行動モデルで構成されている。Genieは、生成された環境において、ユーザがフレーム単位で行動することを可能にする。さらに、学習された潜在行動空間は、未見のビデオから行動を模倣するエージェントの訓練を容易にし、将来のジェネラリストエージェントの訓練への道を開く。