AIの研究者たちは、オープンワールドゲーム『Minecraft』で自律的に探索し、能力を拡張できるAIボット「Voyager」ボットを作成した。このボットは他のボットとは違い、このボットはトライ&エラーとGPT-4クエリを通じて基本的に自分自身のコードを書く性能を備えているのだ。
この実験的なシステム「Voyager」は、「身体化エージェント」の一例とされている。これは、シミュレーション環境または現実環境で自由に動き、意図的に行動できるAIを指す。このようなAIは、家庭用ロボットが将来的に期待されるような複雑な世界をナビゲートし、タスクを実行する能力が必要とされる。
Minecraftは、現実世界の非常に近い表現であり、シンプルで直感的なルールと物理法則が存在し、かつ複雑で開放的な環境が存在するため、このようなシステムをテストするのに適しているのだ。
既にAIを使ってMinecraftを動作させる物には、Minedojoがあった。MineDojoはMinecraftを中心に構築されたシミュレーションフレームワークで、このフレームワークを通じて、AIモデルを作成または微調整するための様々なデータを利用することが可能だ。Voyagerの開発チームはこのフレームワークを利用している。
Voyagerは、これらのタスクを非常に高いパフォーマンスで遂行し、GPT-4を活用して進行中のコードを書き換えるというアプローチを採用している。このアプローチは、Auto-GPTという他のモデルと類似しているが、Voyagerはそれらを上回るパフォーマンスを発揮している。
Voyagerは、Minecraftのデータに対してモデルを訓練するだけでなく、ゲーム内で遭遇する事象に応じて、GPT-4との内部的な会話を通じて適切な行動を決定する。
例えば、夜が来てスケルトンが出現すると、エージェントはこの状況を把握し、GPT-4に対して「このゲームの良いプレイヤーがモンスターが近くにいる時に何をするだろうか?」と問いかける。GPT-4は、世界を安全に探索するためには、剣を作って装備し、スケルトンを攻撃しながら自身が攻撃を避けるべきだとアドバイスする。そして、この一般的なアドバイスが具体的な目標に変換される:「石と木を収集し、クラフティングテーブルで剣を作り、それを装備し、スケルトンと戦う」と言った形にだ。
これらのタスクを遂行した後、それらは一般的なスキルライブラリに登録され、後で「鉄鉱石を見つけるために深い洞窟に入る」といったタスクが与えられた際に、再度戦闘を学ぶ必要がなくなる。その際には依然としてGPTを利用しますが、より安価で高速なGPT-3.5を利用し、特定の状況に最も関連するスキルを教えてくれる。
このような特性により、VoyagerはMinecraftという環境で、他のボットよりも多くの物を見つけ、多くのスキルを学び、広い範囲を探索することができるのだ。
興味深いことに、GPT-4はコード生成においてGPT-3.5(ChatGPT)を圧倒する性能を示した。GPT-4をGPT-3.5に置き換えてテストした結果、エージェントは早い段階で壁にぶつかり、改善が見られなかった。二つのモデルと会話しているだけでは、一つがもう一つよりはるかに賢いとは明らかにはならないかも知れないが、コーディングは非常に困難であり、GPT-4はその点で大きな進歩を遂げていることが明らかになったのだ。
この研究の目的は、Minecraftのプレイヤーを不要にすることではなく、比較的シンプルなAIモデルが自身の「経験」に基づいて自己改善する方法を見つけることだ。我々が家庭、病院、オフィスでロボットを助けにするためには、それらが学習し、その教訓を将来の行動に適用する能力が必要になるからだ。
VoyagerのようなAIエージェントが持つ可能性は大きく、現実世界における複雑なタスクの実行につながるかも知れない。今後の研究と開発により、AIが自分自身を進化させ、より高度なタスクを遂行する能力を持つことが期待される。
論文
参考文献
- Voyager: Voyager: An Open-Ended Embodied Agent with Large Language Models
- via Ars Technica: They plugged GPT-4 into Minecraft—and unearthed new potential for AI
研究の要旨
Minecraftで初めてLLMを搭載した具現化型生涯学習エージェントであるVoyagerを紹介する。Voyagerは、人間の介入なしに世界を継続的に探索し、多様なスキルを身に付け、新しい発見をする。Voyagerは3つの主要コンポーネントで構成されている:1)探索を最大化する自動カリキュラム、2)複雑な行動を保存・検索するための実行コードの増え続けるスキルライブラリ、3)プログラム改善のための環境フィードバック、実行エラー、自己検証を組み込んだ新しい反復プロンプティングメカニズム。Voyagerは、ブラックボックスクエリを介してGPT-4と対話し、モデルパラメータの微調整の必要性を回避することができます。Voyagerが開発したスキルは、時間的に拡張され、解釈可能で、構成的であるため、エージェントの能力は急速に向上し、致命的な忘却を軽減することができます。経験的に、Voyagerはコンテキスト内で強力な生涯学習能力を示し、Minecraftをプレイする際に卓越した能力を発揮する。SOTAと比較して、3.3倍のユニークなアイテムを入手し、2.3倍の距離を移動し、技術ツリーの主要なマイルストーンを最大15.3倍速くアンロックすることができます。Voyagerは、新しいMinecraftの世界で学習したスキルライブラリを活用し、他の技術が一般化に苦労する中、新しいタスクをゼロから解決することができる。
コメントを残す