DeepMindのAI「DeepNash」は、戦略ゲームで人間に勝つために“はったり”を用いる初のAIだ

masapoco
投稿日 2022年12月3日 18:31
stratego image

人工知能(AI)が真に知的かどうかを判断する基準の一つとして、ボードゲームをどの程度プレイできるかというものがある。

今回、Google傘下のDeepMindが発表した新たなAI「DeepNash」は、古典的なボードゲーム「ストラテゴ(STRATEGO) 」を、人間の専門家レベルのパフォーマンスでプレイすることに成功している。

DeepNashは、ストラテゴを人間、他のAIと共にプレイし、他のAIには勝率97%以上で勝利し、人間のプロプレイヤーに対して総合勝率84%を達成し、年間累計および過去のランキングでトップ3入りを果たしたとのことだ。

これは、これまでAIがチェスや囲碁などのゲームで何度も金字塔を打ち立ててきた鍵となる探索手法を一切用いずに達成されたもので、驚くべき成果である。

ストラテゴは長年、AIが挑戦すべき課題の一つとして注目されてきた。なぜなら、ストラテゴのプレイヤーにはチェスのような長期的な戦略思考と、ポーカーのような不完全な情報の取り扱いが求められるからだ。

不完全な情報とは、参加者がゲームをプレイする際に、ある要素を意識していないことを意味する。例えば、ブリッジゲームでは、プレイヤーは他のプレイヤーの手札を意識することはなく、オークションでは、入札者は他の入札者の評価額を意識することはない。

今回のDeepNashによる成果は、DeepMindに言わせれば並外れたものであり、同様にストラテゴコミュニティも既存の技術では実現不可能であると考えている。

ストラテゴは1947年に誕生した。中国の軍棋と似ているが、ランクと駒の数が多いこと、盤面デザインが単純なこと、鉄道やラインバトリー、審判がいないこと、両陣営が出会った時だけ駒を公開してサイズを決めることなどが違う。どちらも、相手の旗を奪うか、動かせる駒をすべて破壊することで勝利となる点では共通している。

ストラテゴは不完全情報ゲームだ。一方、チェス、チェッカー、将棋、囲碁などは、ゲームのルール、現在のポジションにおける相手の可能な手などを両者が完全に認識しているため、完全情報ゲームとみなすことができる。

さらに、ストラテゴの手順は10535にも上り、テキサスホールデム(10164)や囲碁(10360)よりも多く、非常に複雑な構造を持っている。

また、状況によっては、ストラテゴのプレイヤーはゲーム開始時に1066以上の可能なペアを推論する必要があるが、テキサスホールデムではこの数は106でしかない。完全情報ゲームはこの段階がなく、比較的簡単である。

前もって計画を立てる能力は、特定のAI技術/エージェントの成功の中心となっており、ストラテゴなどの不完全情報ゲームは、AIエージェントが比較的ゆっくりと、じっくりと、論理的に順番に意思決定を行うことができるかどうかをテストするためによく使われる。

しかし、不完全情報探索技術でストラテゴを使いこなすことは、現状では不可能である。

論文によると、DeepNashはゲーム理論に基づいたモデルフリーな深層強化学習手法「R-NaD」を用いて、ブラフ(はったり)などのゲーム戦略を習得する方法を、探索を必要とせずにゼロから自己学習する

研究チームによると、この研究は、最新の探索型学習法とは全く異なる新しいゲーム理論のアプローチを導入しており、学習時には探索や明示的な相手モデルの作成を行わず、テスト時にはいくつかのゲーム固有のヒューリスティックの使用にのみ依存しているという。

今後、R-NaDがゼロサムゲームである2人用ゲームの枠を超えてどのように発展していくかは、まだ分からない。

しかし、研究チームは、不完全な情報を特徴とする巨大な空間を持つ現実世界のマルチインテリジェンス問題に対する深層学習手法のさらなる応用の可能性を信じている。

この手法は、群衆や交通のモデル化、スマートグリッド、オークションの設計、マーケティング問題など、このような不完全な情報シナリオに多くの応用が期待される。

研究の要旨

不完全情報ゲーム「ストラテゴ」を人間の専門家レベルでプレイする自律型エージェントDeepNashを紹介する。ストラテゴは、人工知能(AI)がまだマスターしていない数少ない代表的なボードゲームの1つである。チェスのように長期的な戦略思考が必要な一方で、ポーカーのように不完全な情報を扱う必要があるという、2つの課題を持つゲームであることが特徴だ。DeepNashの基盤となっている技術は、ゲーム理論的でモデルを用いない深層強化学習法を用いており、探索を行わず、ゼロから自己プレイでストラテゴをマスターすることを学習するものである。DeepNashはストラテゴにおいて既存の最先端AI手法を打ち負かし、人間のエキスパートプレーヤーと競いながら、Gravonゲームプラットフォームにおいて年間累計(2022年)および歴代トップ3ランキングを達成した。



この記事が面白かったら是非シェアをお願いします!


  • pixel 7 pro camera
    次の記事

    Googleの新たな取り組みにより、Android OSのアップデートにかかる時間が大幅に短縮

    2022年12月4日 6:22
  • 前の記事

    世界初のソーラー電気自動車「Lightyear 0」が生産開始

    2022年12月3日 14:33
    image 5749721

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事