AIの苦手なことの1つに、効率的な学習が出来ないと言う点がある。今日のAIモデルは学習効率が非常に悪く、人間が瞬時に解決できるような問題の解決に、膨大な時間とデータを要している。
この点をアプローチとして期待されているのが、目標を設定し、その目標に向かって行動するAIに報酬を与える強化学習というものだ。DeepMind社のAlphaGoに代表されるように、今日のAIの大きなブレークスルーはこの教科学習による物である。そして、この度、AIにタスクを実行させる前に説明書を読ませることで、学習能力を大幅に向上させることができることが発見されのだ。
教科学習は効果的であると同時に、うまくいく戦略を見つけるための試行錯誤に依存している。つまり、これらのアルゴリズムは、勝利の方程式を見つけるのに何年もかかる可能性があるのだ。
カーネギーメロン大学の研究チームは、強化学習アルゴリズムを、取扱説明書を読むことができる言語モデルと組み合わせることで、より速く学習させる方法を考案した事が、新たな論文「Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals」で述べられている。
これまでに、DeepMindが開発したモデルよりも数千倍速く、難易度の高いAtari社のビデオゲームをプレイする事を、AIに教えることに成功しているとのことだ。
研究を率いたYue Wu氏は、「我々の研究は、全自動強化学習フレームワークが、広く研究されているゲームの取扱説明書から利益を得る可能性を示した最初のものです。Minecraftのような他のより複雑なゲームでも実験を行い、有望な結果を得ています。私たちのアプローチは、より複雑な問題にも適用できるはずだと考えています」と、語っている。
機械も人間のように事前情報を有益に扱う
チームはまず、ゲームの公式取扱説明書から重要な情報を抽出し、要約する言語モデルをトレーニングした。このデータをもとに、事前に学習させた言語モデルに対してゲームに関する質問を行った。
その結果得られた回答は、強化アルゴリズムへの追加報酬の作成に使用され、より速くゲームを学習するために、確立された強化学習アルゴリズムに投入された。
このアプローチを評価するために、研究者たちは「Skiing 6000」というゲームでテストを行った。これまでこのゲームでは、有力なAIが人間と同等のパフォーマンスを達成するために、800億フレームを走り抜けなければならない。
だが、新しいアプローチを用いたAIでは、ゲームのコツをつかむのにわずか1,300万フレームで済むことが分かった。これは、従来のAIの学習スピードのおよそ6,000倍高速な物だ。
この新しい技術が持つ意味と、繰り返されるブレークスルーの可能性は、AIと機械学習の分野にとって重要だ。ビデオゲーム用のAIエージェントをより効率的に訓練する方法を提供するだけでなく、従来は試行錯誤的な学習方法に頼っていたロボット工学や自律走行車など、他の分野でも応用できる可能性がある。
例えば、ある都市のナビゲーションについて、詳細な説明書から学習できる自動運転車を想像してみよう。試行錯誤に頼るのではなく、テキストデータを入力することで、道路のルールや最適なルートを素早く学習し、新しい環境に素早く効果的に適応することが出来る様になるかもしれない。
どのような用途であれ、この新しいAI教育方法は、深刻な結果をもたらす可能性もある。機械学習モデルは、制御環境から取り出され、現実の世界やその変数と対話することを余儀なくされるため、機械学習モデルの大きな問題である環境との対話と学習を教える方法に革命を起こすことができるのだ。つまり、モデルやAIプログラムを教えるのに何年もかかっていたものが、簡単に数分の一の時間になる可能性を示唆する物である。
研究者らは、「AI言語モデルの急速な向上が、他の分野の進歩の触媒としてどのように作用するかを評価しようとしている」とのことだ。
論文
参考文献
- Singularity Hub: An AI Learned to Play Atari 6,000 Times Faster by Reading the Instructions
- New Scientist: AI masters video game 6000 times faster by reading the instructions
研究の要旨
高いサンプル複雑性は、RLにとって長年の課題だった。一方、人間は、インタラクションやデモンストレーションからだけでなく、構造化されていないテキスト文書、例えば取扱説明書を読むことによっても、タスクの実行を学習することができる。取扱説明書やWikiページは、エージェントに貴重な機能や方針、あるいはタスクに特化した環境ダイナミクスや報酬構造を知らせることができる最も豊富なデータの1つである。したがって、我々は、特定のタスクに対するポリシーの学習を支援するために、人間が書いた取扱説明書を利用する能力が、より効率的でよりパフォーマンスの高いエージェントにつながるはずだと仮定している。 私たちは、Read and Rewardフレームワークを提案する。 Read and Rewardは、Atariゲームの開発者が公開したマニュアルを読むことで、AtariゲームのRLアルゴリズムを高速化する。我々のフレームワークは、マニュアルから関連情報を抽出し要約するQA抽出モジュールと、マニュアルからの情報に基づいてオブジェクトとエージェントの相互作用を評価する推論モジュールからなる。そして、インタラクションが検出されると、標準的なA2C RLエージェントに補助的な報酬が提供される。A2Cは、我々の設計により、報酬が疎なAtari環境の4つのゲームを改善し、Atariで最も難しいゲームであるスキーの前作SOTA Agent 57と比較して、1000倍のトレーニングフレームを必要とする。
コメントを残す