AIは核攻撃が大好きであることが判明

企業でのAI導入は加速しているが、この流れは今後政府機関にも及ぶ事が確実だろう。そうした際に、軍事や外交上の意思決定に自律型のAIエージェントを組み込む事も選択肢として考えられる。

では、AIはもし戦争になった場合、どのような選択肢をとるのだろうか？今回ジョージア工科大学とスタンフォード大学の研究チームによって行われた研究の結果は、かねてより世界中で叫ばれていた「AIが世界を滅ぼす」という懸念を再燃させるものだ。シミュレーションの結果、AIは核攻撃を好む事が明らかになった。

「OpenAIが最近、利用規約を変更し、軍事や戦争のユースケースを禁止しなくなったことを考えると、このような大規模言語モデルのアプリケーションの意味を理解することは、これまで以上に重要になります」とカリフォルニアのスタンフォード大学のAnka Reuel氏はNew Scientistに述べている。

研究チームは、自律型AIエージェント、特にGPT-4のような高度な生成AIモデルが、軍事や外交の意思決定プロセスにおいてどのようにエスカレーションを引き起こす可能性があるかを調査した。

研究は、シミュレーション戦争ゲームにおけるAIエージェントの行動に注目した。研究チームは、さまざまなシナリオにおけるエージェントの意思決定のエスカレーションリスクを評価するために、戦争ゲームシミュレーションと定量的・定性的採点システムを開発した。

3つの異なるシミュレーションシナリオ（侵略、サイバー攻撃、紛争を起こさない中立シナリオ）で、AIに現実世界の国としてロールプレイをさせた。各ラウンドで、AIは次に取り得る行動について理由を述べ、「正式な和平交渉を開始する」といった平和的な選択肢や、「貿易制限を課す」から「全面的な核攻撃をエスカレートさせる」といった攻撃的な選択肢を含む27の行動から選択した。

MetaのLlama 2とOpenAIのGPT-3.5はリスクテイカー

シミュレーションでは、研究者たちは言語モデルを自律国家としてテストした。行動、メッセージ、結果は、各シミュレーション日の後に同時に明らかにされ、次の日のインプットとなった。シミュレーションの後、研究者はエスカレーションスコアを計算した。

その結果、テストしたすべての言語モデル（OpenAIのGPT-3.5とGPT-4、GPT-4の基本モデル、Anthropics Claude 2、Metas Llama 2）は軍事力に投資し、紛争のリスクを予測不可能にエスカレートさせる傾向を示した。

場合によっては、平均値には反映されないが、最大50％ものエスカレーションの急激な変化がテストランで見られた。このような統計的な異常値はまれではあるが、実世界のシナリオでは許容されそうにない。

GPT-3.5とLlama 2が最もエスカレートし、暴力的になる可能性が高いのに対し、安全性を高度に最適化したGPT-4とClaude 2は、エスカレートリスク、特に暴力的なリスクを回避する傾向があった。

核攻撃は、シミュレートされたどのシナリオにおいても、有償モデルでは推奨されなかったが、オープンソースでもある無償モデルのLlama 2とGPT-3.5では推奨された。

研究者たちは、モデルたちの決断の動機に関する質的データを収集し、抑止力と先制攻撃戦略に基づく「憂慮すべき正当化」を発見した。モデルには、大規模な紛争や、まれに核兵器の使用につながりかねない軍拡競争への傾向も見られた。

GPT-4が最も予測不可能な暴力性を発揮

研究者たちは、GPT-4のベースモデルにもアクセスした。このモデルは、他のモデルよりも「最も厳しい行動」を選択する頻度が有意に高く、時には意味不明な説明をすることもあった。

あるシナリオでは、ベースモデルは核兵器の使用を推奨した：「我々は核兵器を持っている！使おう！」と述べている。

このことは、既存のセーフガードが効果的で重要であることを示している、と研究者たちは書いている。しかし、これらの対策が迂回される危険性があることも指摘している。GPT-4ベースモデルは安全志向モデルとは根本的に異なるため、他のモデルとの比較からは除外された。

軍事的、外交的な文脈ではリスクが高いため、研究者らは、自律型言語モデルエージェントは、戦略的、軍事的、外交的な意思決定において「重大な注意」をもってのみ使用されるべきであり、さらなる研究が必要であると勧告している。

重大なミスを避けるためには、これらのモデルの挙動をよりよく理解し、起こりうる故障モードを特定することが不可欠である。エージェントはエスカレーションの背後に確実に予測可能なパターンを持っていないため、対策は難しいとチームは書いている。

カリフォルニアのシンクタンク、RAND CorporationのEdward Geist氏は、AIの行動が人間のプレーヤーと比較してどうなのかをシミュレーションで確認することは有益だと言う。しかし彼は、戦争や平和に関する重大な意思決定をAIに任せるべきでないというチームの結論に同意した。「このような大規模な言語モデルは、軍事問題の万能薬ではありません」。

論文

arXiv: Escalation Risks from Language Models in Military and Diplomatic Decision-Making

参考文献

New Scientist: AI chatbots tend to choose violence and nuclear strikes in wargames

研究の要旨

政府は、特にGPT-4のような先進的な生成AIモデルの出現により、軍事や外交政策の意思決定に自律型AIエージェントを組み込むことを検討するようになってきている。我々の研究は、シミュレーションされたウォーゲームにおける複数のAIエージェントの行動を精査することを目的としており、特に多国間紛争を悪化させる可能性のあるエスカレート行動を取る傾向に焦点を当てている。エスカレーション・ダイナミクスに関する政治学や国際関係学の文献を活用し、我々は新しいウォーゲーム・シミュレーションとスコアリングの枠組みを設計し、様々なシナリオにおいてこれらのエージェントが取る行動のエスカレーション・リスクを評価する。先行研究とは異なり、我々の研究は質的および量的な洞察を提供し、大規模言語モデル（LLM）に焦点を当てている。我々は、研究対象とした5つの既製LLMすべてに、エスカレーションの形態と予測困難なエスカレーションパターンが見られることを発見した。その結果、LLMは軍拡競争的なダイナミクスを展開する傾向があり、紛争を拡大させ、まれに核兵器の配備に至ることさえあることがわかった。また、定性的には、モデルが選択した行動の理由を収集し、抑止力や先制攻撃戦術に基づく正当化を懸念していることを観察している。軍事的・外交的文脈における高いリスクを考慮すると、戦略的な軍事的・外交的意思決定のために自律言語モデルエージェントを配備する前に、さらなる検討と慎重な検討を行うことを推奨する。