NVIDIAの画期的なAIは人間よりも優れたロボットの訓練を可能にする

スポンサー広告

NVIDIA Researchは、ロボットに、人間でも困難な高速ペン回しなどの複雑なスキルを教えることができるAIエージェント「Eureka」を開発した。Eurekaは、最新の生成AIと、機械強化学習という古典的なAI技術を、加速シミュレーション環境で組み合わせたものだ。

ChatGPTのトレーニングを可能にしたGPUで知られるNVIDIAは、3Dツールやアプリケーションを構築するための開発プラットフォーム「Omniverse」にも取り組んでいる。同社は今年初め、人気サンドボックスゲーム『Mincecraft』で他のAIエージェントよりも15倍速くツールを構築できるAIエージェント「Voyager」を発表した。

Voyager AIエージェントは、OpenAIの大規模言語モデル(LLM)GPT-4を使って構築されたが、NVIDIAのチームは今回、同じモデルを使って、人間と同等の複雑なスキルを実行できる新しいエージェントを作成したのだ。

Eurekaは、1000倍に加速されたシミュレーション環境下で、10種類のロボットに29種類のタスクを実行させる訓練を行った。引き出しやキャビネットを開けたり、ボールを投げたりキャッチしたり、ハサミを使ったりすることができる。Eurekaがロボットに教えた中でも印象的なスキルのひとつは、鉛筆を手に持って素早く回転させることで、人間の指先の器用さを表す1つの到達点だろう。

Eurekaの仕組み

強化学習(RL)は、数年前からAIで広く使われている。NVIDIAのAI研究シニア・ディレクターであるAnima Anandkumar氏は、プレスリリースの中で、「強化学習は、過去10年間で目覚ましい成果を上げてきましたが、試行錯誤のプロセスである報酬の設計など、まだ多くの課題が残っています」と述べている。

Eurekaはさらに一歩進んで、自律的に報酬アルゴリズムを作成し、ロボットを訓練する。これはOpenAIの大規模言語モデルGPT-4を使用して行われ、タスク固有のプロンプトや事前に定義されたテンプレートを必要としない。さらに、エージェントは人間のフィードバックを取り入れて報酬を修正し、結果を改善することができる。

NVIDIAが発表した研究によると、Eurekaが作成した報酬プログラムは、83%のタスクで専門家が作成したものを上回った。その結果、ロボットのパフォーマンスが平均52%向上したとのことだ。

Eurekaのアルゴリズム作品ライブラリは、Omniverse上に構築され、強化学習研究に使用されるNVIDIAの物理シミュレーション・リファレンス・アプリケーションであるIsaac GymのGPUで加速されたシミュレーションを使用して、より効率的なトレーニングのために、大規模な報酬候補セットの品質を迅速に評価することができる。その後、Eurekaは訓練結果から主要な統計情報の要約を生成し、報酬関数の生成を改善するようLLMに指示する。このようにして、AIエージェントは独自にロボットの指示を改善する。

その後、AIエージェントは、訓練結果から得られた重要な統計値を使用して報酬関数を改善するために、LLMに供給される要約を作成します。このアプローチは、四足歩行、二足歩行、クアドローター、器用な手やコボットアームなど、幅広いタイプのロボットに等しく簡単に使用された。

Isaac Gym環境から生成された結果は、NVIDIA Omniverseで可視化することが出来る。

NVIDIAは、タスクが複雑であればあるほど、GPT-4の指示が “報酬エンジニア”と呼ばれる専門家による人間の指示を上回ることを発見した。この研究に参加したJim Fan研究員は、Eurekaを “超人的な報酬エンジニア”と呼んでいる。Fan氏は、Eurekaがロボットの制御やアーティストのためのリアルなアニメーションの作成に新たな可能性を開くだろうと考えている。

さらにNVIDIAによれば、Eurekaは人間のフィードバックを統合して、開発者のビジョンにより適した報酬を与えることができる。NVIDIAはこのプロセスを「in-context RLHF」(人間のフィードバックからの文脈学習)と呼んでいる。このシステムは、ロボット開発者の副操縦士のような役割を果たすことができる、とFan氏は書いている。

NVIDIAは、最近の進歩により、開発者がより野心的で挑戦的なプロジェクトにまもなく取り組むようになると確信している。Fan氏は、「我々は、Eurekaが器用なロボット制御を可能にし、アーティストのために物理的にリアルなアニメーションを制作する新しい方法を提供すると信じています」と付け加えた。

NVIDIAは、Eureka研究のすべての要素をオープンソースとしてGitHubで公開している


論文

参考文献

研究の要旨

大規模言語モデル(Large Language Models: LLM)は、逐次的な意思決定タスクのための高レベルのセマンティックプランナーとして優れている。しかしながら、器用にペンを回すような複雑な低レベルの操作タスクを学習するためにLLMを利用することは、依然として未解決の問題である。我々はこの基本的なギャップを埋め、LLMを利用した人間レベルの報酬設計アルゴリズムであるEurekaを発表する。Eurekaは、GPT-4のような最先端のLLMの顕著なゼロショット生成、コード記述、およびコンテキスト内改善能力を利用し、報酬コードに対して進化的最適化を実行する。その結果得られた報酬は、強化学習によって複雑なスキルを習得するために使用することができる。タスク固有のプロンプトや事前に定義された報酬テンプレートがなくても、Eurekaは、専門家による人間工学的報酬を凌駕する報酬関数を生成する。10の異なるロボット形態を含む29のオープンソースRL環境の多様なスイートにおいて、Eurekaは83%のタスクで人間の専門家を上回り、平均52%の正規化された改善をもたらした。また、Eurekaの汎用性は、人間のフィードバックからの強化学習(RLHF)に対する新しい勾配なしコンテキスト内学習アプローチを可能にし、モデルの更新なしに、生成された報酬の品質と安全性を向上させるために、人間の入力を容易に取り入れることができる。最後に、カリキュラム学習においてEurekaの報酬を使用することで、我々は初めて、ペンを高速で円を描くように巧みに操作し、ペン回しのトリックを行うことができるシャドーハンドのシミュレーションを実証した。


Sources

面白かったらぜひシェアを!
masapoco
masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

記事本文: 6315

返信を残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です