あなたの好奇心を刺激する、テックと科学の総合ニュースサイト

NVIDIAによると、同社が開発した「MineDojo」という、書かれたプロンプトから人気サンドボックスゲーム『Minecraft』のアクションを実行できる汎用AIエージェントについて、これを解説した論文が、2022年のNeurIPS(神経情報処理システム)カンファレンスで「Outstanding Datasets and Benchmarks Paper Award」を獲得したとのことだ。

以前も、OpenAIが『Minecraft』を人間以上のテクニックでプレイするAIを発表していたが、AI界隈ではこのゲームをAIにプレイさせるのがホットなようだ。

MineDojoフレームワークにMinecraftをプレイさせるために、73万本のMinecraft YouTubeビデオ(22億語以上が書き起こされた)、Minecraft wikiからかき集めた7000のウェブページ、Minecraftゲームプレイに関する34万のReddit投稿と660万のRedditコメントなど、膨大なデータを与え、学習させている。

03 data cards 1024x576 1
NVIDIAがAIトレーニングに用いた膨大なデータ(Credit: NVIDIA)

このデータから、研究者はMineCLIPと呼ばれるカスタム変換モデルを作成した。これは、人間の手によるラベリングなしに、YouTube動画からMinecraftの概念と動作を学習する。YouTuberは通常、ゲームプレイ動画を配信する際に何をしているのかナレーションを入れるため、MineCLIPは、ビデオクリップとそれに対応する英語のトランスクリプトを関連付けることを学習するのだ。

ezgif.com gif maker
MineCLIPは、大量のYouTube動画から動画とテキストの関連付けを学習する。関連付けのスコアは、エージェントが複数のタスクを並行して学習するための報酬信号となる。

その結果、誰かがMineDojoエージェントに、プログラミングの様な命令ではなく、「砂漠のピラミッドを見つけろ」「ネザーポータルを作ってそこに入れ」といったような、我々が普段使うような高度な自然言語でゲーム内の行動を指示すると、MineDojoは、Minecraftのゲーム内で、指示通りの動作を行う事が可能になったとのことだ。

minedojo arxiv fig4 1024x536 1
上から「羊の毛を刈って」「ゾンビピグリンと戦え」「ネザーポータルを探して」「カーペットを床に敷いて」と言った指示を出すとその通りに行ってくれている。(Credit: NVIDIA)

MineDojoは、学習した行動を汎化し、ゲーム内のさまざまな行動に適用できる柔軟なエージェントを作ることを目的としている。NVIDIAは、「StarCraft、Dota、Goなどのビデオゲーム環境において、研究者は長い間、自律型AIエージェントを訓練してきましたが、これらのエージェントは通常、いくつかのタスクのスペシャリストにすぎませんでした。そこで NVIDIAの研究者は、世界で最も人気のあるゲームである Minecraft に着目し、ジェネラリスト エージェント (さまざまなオープンエンドのタスクをうまく実行できるエージェント) のためのスケーラブルなトレーニング フレームワークを開発しました。」と述べている。

現在はまだ複雑な自然言語処理は難しいようだが、将来的には、「家の前に青い花を一列に植える。」「ドアの枠に金の飾りをつける。」「川の横にある洞窟を探検しに行こう」と言った複雑な動作も行えるようになるという。

MineDojoは公式サイトで動作例を見ることができる。また、MineDojoMineCLIPのコードはGitHubで公開されている。

研究の要旨

自律エージェントは、アタリゲームや囲碁のような専門的な領域で大きな進歩を遂げてきた。しかし、自律型エージェントは通常、限られた手動で設定された目標に対して、孤立した環境でタブラ・ラサ的に学習するため、幅広いタスクや能力に対して汎化することができない。我々は、人間がオープンワールドで継続的に学習し適応していくことにヒントを得て、汎用的なエージェントを構築するための三位一体の要素を提唱している。1) 多様なタスクと目標をサポートする環境、2) マルチモーダルな知識の大規模データベース、3) 柔軟でスケーラブルなエージェントアーキテクチャです。このフレームワークは、何千もの多様なオープンエンドタスクを含むシミュレーションスイートと、Minecraftのビデオ、チュートリアル、Wikiページ、フォーラムでの議論を含むインターネット規模の知識ベースを特徴としている。MineDojoのデータを用いて、我々は事前に学習した大規模なビデオ言語モデルを学習報酬関数として活用する新しいエージェント学習アルゴリズムを提案する。本エージェントは、自由形式の言語で指定された様々なオープンエンドのタスクを、報酬を形成するために手動で設計することなく解決することができる。我々は、シミュレーションスイート、知識ベース、アルゴリズム実装、および事前学習済みモデル(https://minedojo.org)をオープンソース化し、一般的に有能な具象化エージェントの目標に向けた研究を促進する。

Follow Me !

この記事が気に入ったら是非フォローを!

Share on:

関連コンテンツ

おすすめ記事

コメントする