人間の2倍の速さでマイクラのダイヤモンドツルハシを作れるAIが話題に

masapoco
投稿日
2022年6月30日 13:22
minecraft ai

OpenAI」は、Teslaなどで有名なElon Musk氏が設立した人工知能研究機関だが、同機関の訓練されたAIは、『Minecraft』を人間とほぼ同じようにプレイ出来る様になったようだ。

新たな方法でAIが膨大な動画データの意味を理解できるように

OpenAIがGPTで成し遂げた機械学習の成果は、目を見張る物だが、今回の研究では同じような方法で基礎モデルを構築することが出来なかった。

通常、機械学習では、膨大なデータを用いてコンピューターがデータから反復的に学習し、そこに潜むパターンを見つけ出し、基礎モデルを構築していく。今回のMinecraftにおいても、世界中で公開されている膨大な動画データを学習に用いているが、これらの動画は「何が起こったか」を記録しているだけで、「どのように達成したか」、つまり、マウスの動きやキーの押した順番などの「アクションラベル」が欠如しており、それが言語領域での研究とは違い、新たな課題となった

そこで研究者達が新たに取り入れた方法が、「Video PreTraining(VPT)」と呼ばれる手法だ。

まず実際にMinecraftをプレイしている人のサンプルデータセットを2,000時間分収集し、AIに学習させる。このサンプルデータセットには、プレイ映像だけでなく、正確なキー入力やマウスの動きも含めたデータが含まれている

つまり前段階として、動画の各ステップで実行されるマウスの動きとキーの押し順を予測するモデル「Inverse Dynamics Model:逆動力学モデル」(IDM)を学習しておくわけだ。ここで重要なことは、IDMは過去と未来の情報を使って、各ステップでの行動を推測することができるということだ。これは、過去の映像フレームのみから行動を予測する行動クローンよりもはるかに簡単で、必要なデータ量もはるかに少なくて済みむ。次に、学習したIDMで膨大なYouTubeの動画データ(サバイバルモードのみ約7万時間)を学習して複雑な行動を習得するのだ。

その後、このモデルは、木を切り倒して丸太を集めたり、丸太を実際の工作台にしたりといった行動を動画からコピーすることができたとのこと。

このAIモデルが可能になったことは、それだけに留まらない。泳いだり、狩りをしたり、食事をしたりと、複雑な動作も可能となった。さらに、ジャンプを繰り返しながらブロックを下に置くことで空中に浮く「空中浮遊」も可能になっている。

研究者たちは、AIに与えられたデータをもとに「基礎モデル」を作り、そこから行動を微調整したり、新たな行動を学習させたりすることができたという。このAIは、木や石の道具を作ったり、宝箱を荒らしたり、さらにはシェルターを作ったりと、ゲーム序盤のスキルを実行できることが指摘されている。

基礎モデルに投入されるデータが多ければ多いほど、AIはより能力を発揮することができた。研究者たちは「強化学習」を使って、特に難しい課題を実行した場合にAIに「ご褒美」を与えることもした。この報酬システムは非常に効果的なもので、モデルは最終的にダイヤモンドのツルハシを作ることに成功した。ダイヤモンドのツルハシを作るには、長くて複雑な一連のタスクが必要となる。下に示した通り、原木集めから始まり、作業台、木のツルハシ、石、石のツルハシ、かまど、鉄鉱石、鉄、鉄のツルハシ、ダイヤモンドと段階を踏んでダイヤモンドのツルハシが作れるようになる。

結果AIは、10分でダイヤモンドのツルハシを作成する事に成功している。通常このタスクを人間が行うと、平均20分以上(2万4000アクション)かかるとのことで、なんと2倍以上の速度でこなすことが可能になったとのことだ。

これは機械学習の魅力的な応用であり、ゲームがコンピューターのトレーニングにいかに利用できるかを示している。もしかしたら、このAIモデルはゲームそのものに組み込まれ、人間の対戦相手とプレイするのと同じような、より自然なチャレンジができるようになるかも知れない。


論文

参考文献

研究の要旨

      テキスト、画像、その他のモダリティに対する広範で一般的な能力を持つモデルを学習するための手法として、ノイズの多いインターネット規模のデータセットに対する事前学習が盛んに研究されてきた。しかし、ロボット工学、ビデオゲーム、コンピュータ利用などの多くの逐次的な判断領域では、一般に入手可能なデータには、同じように行動事前分布を学習するために必要なラベルが含まれていない。我々は、インターネット規模の事前学習パラダイムを、半教師付き模倣学習を通じて逐次的な意思決定領域に拡張し、エージェントがオンラインのラベル無しビデオを見て行動することを学習する。具体的には、少数のラベル付けされたデータで、膨大なラベル付けされていないオンラインデータ(ここでは、Minecraftで遊ぶ人々のオンラインビデオ)をラベル付けするのに十分正確な逆動力モデルを訓練し、そこから一般の行動事前分布を訓練することができることを示す。マウスとキーボードを20Hzで操作するヒューマンインタフェースにもかかわらず、この行動事前分布は自明なゼロショット能力を持ち、強化学習ではゼロから学習することが不可能な難しい探索タスクに対して、模倣学習と強化学習の両方を用いて微調整が可能であることを示す。多くのタスクにおいて、我々のモデルは人間レベルのパフォーマンスを示し、我々は、熟練した人間がゲームプレイで20分以上(24,000環境アクション)かかるダイヤモンドツールを製作できるコンピュータエージェントを、初めて報告した。



      この記事が面白かったら是非シェアをお願いします!


      • shinjirou koizumi
        次の記事

        意味のない文章に意味を見出す人は自分自身の創造力を過大評価する傾向にあるとの研究結果

        2022年6月30日 14:05
      • 前の記事

        アプリストアからTikTokを削除するよう、FCC委員がAppleとGoogleに申し入れる

        2022年6月30日 12:06
        tiktok icon
      この記事を書いた人
      masapoco

      コメントを残す

      メールアドレスが公開されることはありません。 が付いている欄は必須項目です


      おすすめ記事

      • openai

        OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

      • a04c35e8e555c1cc7ae1d6a5f3159856

        MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

      • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

        ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

      • google logo image

        Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

      • Pixel 8 in Rose.max 936x936.format webp

        Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

      今読まれている記事