Google DeepMindの研究者らは、Stockfish 16やIBMのDeep Blue、DeepMindのAlphaZeroといった強力なチェス・プログラムの特徴である複雑な探索アルゴリズムやヒューリスティックに頼ることなく、グランドマスターレベルでチェスをプレイするAIモデルを開発した。この最新のチェスAIは、言語モデル・アーキテクチャを使用し、高いレベルで対局し、Transformerモデルが単なる“確率論的なオウム”以上のものになり得ることを示している。
Google DeepMindのチームは、チェスの対局を使用して2億7000万パラメータの変換モデルを訓練した。従来のチェスコンピューターは、洗練されたアルゴリズムと探索戦略を用いて最善の手を見つけるが、DeepMindのモデルはアクション値の予測のみに基づいている。
Stockfish 16から学習するGoogle DeepMindのTransformerモデル
まず、研究チームは1,000万局のチェスを収集し、オープンソースのチェスエンジンである「Stockfish 16」に従って各盤面に勝率を示す状態値を割り当てた。次に、各棋戦のすべての合法的な手を計算し、アクション値を割り当てることで得点化し、150億のデータ点からなる大規模なデータセットを作成した。Transformerネットワークは、教師あり学習を使用してこのデータセットで学習することで、これらのゲーム値を予測することを学んだ。ネットワークは、予測値がStockfishが提供する値にできるだけ近くなるように最適化された。要するに、チームはStockfishの能力をTransformerモデルのチェスポリシーに集約したのだ。
テストでは、このモデルは、人間プレイヤーとの迅速なチェスゲームでEloレーティング2895を達成し、グランドマスターレベルとなり、いくつかの困難なチェス問題を解くことができた。これは、Transformerネットワークが、MCTS(モンテカルロ木探索)戦略なしで使用された場合にも、AlphaZeroを上回ることを意味する。
しかし、このモデルには限界もある。ゲームの経過を保存できず、ゲームの履歴に基づいて計画を立てることもできない。また、人間よりもチェス・コンピュータの方が成績が悪く、特に、人間は普通なら諦めてしまうような状況でも、チェス・コンピュータはチャンスがほとんどないにもかかわらず、最後まで対局を続ける。しかし、チームはこれらの問題は解決できると考えている。
Transformerアーキテクチャーの新たな可能性
この研究はチェスに関連するだけでなく、他の領域におけるTransformerアーキテクチャーの可能性についての洞察も提供している。研究チームは、大規模言語モデルの物語を「確率的オウム返し」と明確に呼んでいる:「我々の研究は、複雑で洗練されたアルゴリズムをフィードフォワード型Transformerに集約できることを示す文献が急速に増えていることに加え、大規模なTransformerを “単なる”統計的パターン認識器とみなすことから、一般的なアルゴリズム近似のための強力な手法とみなすことへのパラダイムシフトを示唆している」。
OthelloGPTのような他のプロジェクトは、Transformerが単なる統計的パターン認識器以上のものになり得ることをすでに示している。
論文
参考文献
- Hugging Face: Grandmaster-Level Chess Without Search
研究の要旨
機械学習における最近の画期的な成功は、主にスケールに起因している。すなわち、大規模な注意ベースのアーキテクチャと、前例のないスケールのデータセットである。本稿では、チェスにおける大規模学習の影響を調査する。複雑なヒューリスティック、明示的な探索、あるいはその両方の組み合わせに依存する従来のチェスエンジンとは異なり、我々は1,000万局のチェスのデータセットを用いて、教師あり学習により2億7,000万パラメータの変換モデルを学習する。データセットの各盤に、強力なStockfish 16エンジンによって提供されるアクション値を注釈し、およそ150億のデータポイントを導いた。我々の最大のモデルは、人間に対して2895のLichess Blitz Eloを達成し、ドメイン固有の微調整や明示的な探索アルゴリズムなしで、一連の困難なチェスパズルを解くことに成功した。また、我々のモデルがAlphaZeroのポリシーとバリューネットワーク(MCTSなし)とGPT-3.5-turbo-instructを凌駕することも示す。モデルとデータセットのサイズを系統的に調査した結果、チェスの強力な性能は十分なスケールにおいてのみ生じることが示された。我々の結果を検証するために、設計の選択とハイパーパラメータに関する広範な一連の検証を行った。
コメントを残す