MENU
  • TECHテクノロジー
  • SCIENCEサイエンス
  • ENTERTAINMENTエンターテインメント
  • REVIEWSレビュー
あなたの好奇心を刺激する、テック・サイエンスニュース情報が満載! | TEXAL
TEXAL
  • TECHテクノロジー
  • SCIENCEサイエンス
  • ENTERTAINMENTエンターテインメント
  • REVIEWSレビュー
  • テクノロジー
  • サイエンス
  • モバイル
  • エンタメ
  • ゲーム
TEXAL
  • TECHテクノロジー
  • SCIENCEサイエンス
  • ENTERTAINMENTエンターテインメント
  • REVIEWSレビュー
  1. ホーム
  2. テクノロジー
  3. DeepMindのAI「DeepNash」は、戦略ゲームで人間に勝つために“はったり”を用いる初のAIだ

DeepMindのAI「DeepNash」は、戦略ゲームで人間に勝つために“はったり”を用いる初のAIだ

2022 12/03
テクノロジー サイエンス
2022年12月3日

スポンサーリンク

人工知能(AI)が真に知的かどうかを判断する基準の一つとして、ボードゲームをどの程度プレイできるかというものがある。

今回、Google傘下のDeepMindが発表した新たなAI「DeepNash」は、古典的なボードゲーム「ストラテゴ(STRATEGO) 」を、人間の専門家レベルのパフォーマンスでプレイすることに成功している。

Source
論文
  • Science: Mastering the game of Stratego with model-free multiagent reinforcement learning
参考文献
  • New Scientist: DeepMind AI uses deception to beat human players in war game Stratego

DeepNashは、ストラテゴを人間、他のAIと共にプレイし、他のAIには勝率97%以上で勝利し、人間のプロプレイヤーに対して総合勝率84%を達成し、年間累計および過去のランキングでトップ3入りを果たしたとのことだ。

これは、これまでAIがチェスや囲碁などのゲームで何度も金字塔を打ち立ててきた鍵となる探索手法を一切用いずに達成されたもので、驚くべき成果である。

ストラテゴは長年、AIが挑戦すべき課題の一つとして注目されてきた。なぜなら、ストラテゴのプレイヤーにはチェスのような長期的な戦略思考と、ポーカーのような不完全な情報の取り扱いが求められるからだ。

不完全な情報とは、参加者がゲームをプレイする際に、ある要素を意識していないことを意味する。例えば、ブリッジゲームでは、プレイヤーは他のプレイヤーの手札を意識することはなく、オークションでは、入札者は他の入札者の評価額を意識することはない。

今回のDeepNashによる成果は、DeepMindに言わせれば並外れたものであり、同様にストラテゴコミュニティも既存の技術では実現不可能であると考えている。

ストラテゴは1947年に誕生した。中国の軍棋と似ているが、ランクと駒の数が多いこと、盤面デザインが単純なこと、鉄道やラインバトリー、審判がいないこと、両陣営が出会った時だけ駒を公開してサイズを決めることなどが違う。どちらも、相手の旗を奪うか、動かせる駒をすべて破壊することで勝利となる点では共通している。

ストラテゴは不完全情報ゲームだ。一方、チェス、チェッカー、将棋、囲碁などは、ゲームのルール、現在のポジションにおける相手の可能な手などを両者が完全に認識しているため、完全情報ゲームとみなすことができる。

さらに、ストラテゴの手順は10535にも上り、テキサスホールデム(10164)や囲碁(10360)よりも多く、非常に複雑な構造を持っている。

また、状況によっては、ストラテゴのプレイヤーはゲーム開始時に1066以上の可能なペアを推論する必要があるが、テキサスホールデムではこの数は106でしかない。完全情報ゲームはこの段階がなく、比較的簡単である。

前もって計画を立てる能力は、特定のAI技術/エージェントの成功の中心となっており、ストラテゴなどの不完全情報ゲームは、AIエージェントが比較的ゆっくりと、じっくりと、論理的に順番に意思決定を行うことができるかどうかをテストするためによく使われる。

しかし、不完全情報探索技術でストラテゴを使いこなすことは、現状では不可能である。

論文によると、DeepNashはゲーム理論に基づいたモデルフリーな深層強化学習手法「R-NaD」を用いて、ブラフ(はったり)などのゲーム戦略を習得する方法を、探索を必要とせずにゼロから自己学習する。

1658900433 19662 image
DeepNash(青)は人間(赤)に対して「ハッタリ」を見せる。ポジティブなブラフ(a)、ネガティブなブラフ(b)、DeepNashはスカウトをスパイに偽装して情報を取得(c) (Credit: DeepMind)

研究チームによると、この研究は、最新の探索型学習法とは全く異なる新しいゲーム理論のアプローチを導入しており、学習時には探索や明示的な相手モデルの作成を行わず、テスト時にはいくつかのゲーム固有のヒューリスティックの使用にのみ依存しているという。

今後、R-NaDがゼロサムゲームである2人用ゲームの枠を超えてどのように発展していくかは、まだ分からない。

しかし、研究チームは、不完全な情報を特徴とする巨大な空間を持つ現実世界のマルチインテリジェンス問題に対する深層学習手法のさらなる応用の可能性を信じている。

この手法は、群衆や交通のモデル化、スマートグリッド、オークションの設計、マーケティング問題など、このような不完全な情報シナリオに多くの応用が期待される。

研究の要旨

不完全情報ゲーム「ストラテゴ」を人間の専門家レベルでプレイする自律型エージェントDeepNashを紹介する。ストラテゴは、人工知能(AI)がまだマスターしていない数少ない代表的なボードゲームの1つである。チェスのように長期的な戦略思考が必要な一方で、ポーカーのように不完全な情報を扱う必要があるという、2つの課題を持つゲームであることが特徴だ。DeepNashの基盤となっている技術は、ゲーム理論的でモデルを用いない深層強化学習法を用いており、探索を行わず、ゼロから自己プレイでストラテゴをマスターすることを学習するものである。DeepNashはストラテゴにおいて既存の最先端AI手法を打ち負かし、人間のエキスパートプレーヤーと競いながら、Gravonゲームプラットフォームにおいて年間累計(2022年)および歴代トップ3ランキングを達成した。

51Ko1GTN0SL. SL500
Jumbo (ジャンボ) Stratego ストラテゴ オリジナル 戦略バトルボードゲーム 19816 正規品
ジャンボ (Jumbo)
Amazon
楽天市場
Yahooショッピング
pochipp logo t1 ポチップ

TEXALでは、テクノロジー、サイエンス、ゲーム、エンターテインメントなどからその日の話題のニュースや、噂、リーク情報、レビューなど、毎日配信しています。最新のニュースはホームページで確認出来ます。Googleニュース、Twitter、FacebookでTEXALをフォローして、最新情報を入手する事も出来ます。記事の感想や、お問い合わせなども随時受け付けています。よろしくお願いいたします。

スポンサーリンク

テクノロジー サイエンス
AI DeepMind Google
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする コメントをキャンセル

CAPTCHA


スポンサーリンク
今読まれている記事
人気のタグ
AI Amazon AMD Android Apple CPU DJI Google GPU Intel iOS iPadOS iPhone iPhone 14 Pro Mac Meta Microsoft NASA Nintendo Switch NVIDIA PCゲーム PS5 Qualcomm Samsung SNS Sony The Conversation TSMC Twitter VR Windows XR アップデート ガジェット ゲーム サブスクリプション スマートフォン ドローン ベータテスト 乗り物 半導体 噂 天文学 宇宙 自動車
PVアクセスランキング にほんブログ村
スポンサーリンク
  • テクノロジー
  • サイエンス
  • モバイル
  • エンタメ
  • ゲーム