「羊の毛を刈って」のように指示を出すと、その通りにマイクラ内で動いてくれるAI「MineDojo」についての論文が機械学習カンファレンスの賞を受賞

NVIDIAによると、同社が開発した「MineDojo」という、書かれたプロンプトから人気サンドボックスゲーム『Minecraft』のアクションを実行できる汎用AIエージェントについて、これを解説した論文が、2022年のNeurIPS（神経情報処理システム）カンファレンスで「Outstanding Datasets and Benchmarks Paper Award」を獲得したとのことだ。

Source

論文

OpenReview.net: MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge

参考文献

NVIDIA: NVIDIA Wins NeurIPS Awards for Research on Generative AI, Generalist AI Agents
Ars Technica: Nvidia AI plays Minecraft, wins machine learning conference award

以前も、OpenAIが『Minecraft』を人間以上のテクニックでプレイするAIを発表していたが、AI界隈ではこのゲームをAIにプレイさせるのがホットなようだ。

MineDojoフレームワークにMinecraftをプレイさせるために、73万本のMinecraft YouTubeビデオ（22億語以上が書き起こされた）、Minecraft wikiからかき集めた7000のウェブページ、Minecraftゲームプレイに関する34万のReddit投稿と660万のRedditコメントなど、膨大なデータを与え、学習させている。

このデータから、研究者はMineCLIPと呼ばれるカスタム変換モデルを作成した。これは、人間の手によるラベリングなしに、YouTube動画からMinecraftの概念と動作を学習する。YouTuberは通常、ゲームプレイ動画を配信する際に何をしているのかナレーションを入れるため、MineCLIPは、ビデオクリップとそれに対応する英語のトランスクリプトを関連付けることを学習するのだ。

その結果、誰かがMineDojoエージェントに、プログラミングの様な命令ではなく、「砂漠のピラミッドを見つけろ」「ネザーポータルを作ってそこに入れ」といったような、我々が普段使うような高度な自然言語でゲーム内の行動を指示すると、MineDojoは、Minecraftのゲーム内で、指示通りの動作を行う事が可能になったとのことだ。

MineDojoは、学習した行動を汎化し、ゲーム内のさまざまな行動に適用できる柔軟なエージェントを作ることを目的としている。NVIDIAは、「StarCraft、Dota、Goなどのビデオゲーム環境において、研究者は長い間、自律型AIエージェントを訓練してきましたが、これらのエージェントは通常、いくつかのタスクのスペシャリストにすぎませんでした。そこで NVIDIAの研究者は、世界で最も人気のあるゲームである Minecraft に着目し、ジェネラリストエージェント (さまざまなオープンエンドのタスクをうまく実行できるエージェント) のためのスケーラブルなトレーニングフレームワークを開発しました。」と述べている。

現在はまだ複雑な自然言語処理は難しいようだが、将来的には、「家の前に青い花を一列に植える。」「ドアの枠に金の飾りをつける。」「川の横にある洞窟を探検しに行こう」と言った複雑な動作も行えるようになるという。

MineDojoは公式サイトで動作例を見ることができる。また、MineDojoとMineCLIPのコードはGitHubで公開されている。

研究の要旨

自律エージェントは、アタリゲームや囲碁のような専門的な領域で大きな進歩を遂げてきた。しかし、自律型エージェントは通常、限られた手動で設定された目標に対して、孤立した環境でタブラ・ラサ的に学習するため、幅広いタスクや能力に対して汎化することができない。我々は、人間がオープンワールドで継続的に学習し適応していくことにヒントを得て、汎用的なエージェントを構築するための三位一体の要素を提唱している。1) 多様なタスクと目標をサポートする環境、2) マルチモーダルな知識の大規模データベース、3) 柔軟でスケーラブルなエージェントアーキテクチャです。このフレームワークは、何千もの多様なオープンエンドタスクを含むシミュレーションスイートと、Minecraftのビデオ、チュートリアル、Wikiページ、フォーラムでの議論を含むインターネット規模の知識ベースを特徴としている。MineDojoのデータを用いて、我々は事前に学習した大規模なビデオ言語モデルを学習報酬関数として活用する新しいエージェント学習アルゴリズムを提案する。本エージェントは、自由形式の言語で指定された様々なオープンエンドのタスクを、報酬を形成するために手動で設計することなく解決することができる。我々は、シミュレーションスイート、知識ベース、アルゴリズム実装、および事前学習済みモデル（https://minedojo.org）をオープンソース化し、一般的に有能な具象化エージェントの目標に向けた研究を促進する。