あなたの好奇心を刺激する、テックと科学の総合ニュースサイト

人工知能(AI)のパイオニアであるGeoffrey Hinton氏は今年初め、AIシステムの能力について懸念を示し、大きな話題となった。CNNのジャーナリスト、Jake Tapper氏の取材に対し、Hinton氏は次のように語った:

AIが私たちよりもずっと賢くなれば、既に私たちから学んでいるはずだから、操作がとても上手になるでしょう。そして、より知能の高いものが、より知能の低いものにコントロールされた例はほとんどありません。

最新のAIをチェックしたことのある人なら、これらのシステムが「幻覚」を見やすい(物事をでっち上げやすい)ことを知っているだろう。

しかし、Hinton氏は特に大きな懸念として、操作の可能性に注目している。AIシステムは人間を欺くことができるのか?

私たちは、さまざまなシステムがすでにこれを学習しており、そのリスクは不正行為や選挙の改ざんから、私たちがAIをコントロールできなくなることまで、多岐にわたると主張している。

AIは嘘を学ぶ

おそらく欺瞞的AIの最も不穏な例は、MetaのCICEROに見られる。CICEROは、同盟関係を構築する世界征服ゲーム「ディプロマシー」をプレイするために設計されたAIモデルである。

Metaは、CICEROを “おおむね正直で役に立つ”ように作ったと主張し、CICEROは “意図的に裏切り”同盟国を攻撃することはないとしている。

このバラ色の主張を調査するため、我々はCICERO実験のMeta自身のゲームデータを注意深く調べた。よく調べてみると、MetaのAIはごまかしの達人であることが判明した。

ある例では、CICEROは計画的な欺瞞を行っていた。フランスに扮したこのAIは、イングランド(もう一人の人間のプレーヤー)を騙して侵略の隙を与えようという計画でドイツ(人間のプレーヤー)に接触した。

ドイツと共謀して北海に侵攻した後、CICEROはイングランドに、北海に誰かが侵攻してきたらイングランドを守ると告げた。イングランドがフランス/CICERO北海を守ると確信すると、CICEROはドイツに攻撃の準備ができたと報告した。

file 20230903 121956 2m4orj
フランス代表としてプレーするCICEROは、ドイツと協力してイングランドを欺く計画を立てる。(Credit: Park, Goldstein et al., 2023)

これは、CICEROが人を欺く行為に及んだいくつかの例のひとつに過ぎない。AIは定期的に他のプレーヤーを裏切り、あるケースでは恋人のいる人間のふりをしたことさえあった。

CICEROの他にも、ポーカーでのブラフのかけ方、StarCraft IIでのフェイントのかけ方、経済交渉のシミュレーションでの誤魔化し方などを学習したシステムがある。

大規模言語モデル(LLM)でさえ、かなりの欺瞞能力を示している。ある例では、GPT-4(ChatGPTの有料ユーザーが利用できる最も高度なLLMオプション)は、視覚障害のある人間のふりをして、TaskRabbitの作業員に「私はロボットではありません」というCAPTCHAを完了するよう説得した。

他のLLMモデルは、ソーシャル推理ゲームに勝つために嘘をつくことを学んだ。ソーシャル推理ゲームでは、プレイヤー同士がお互いを「殺す」ことを競い、自分が無実であることをグループに納得させなければならない。

そのリスクとは?

欺瞞的な能力を持つAIシステムは、不正行為、選挙の改ざん、プロパガンダの生成など、数多くの方法で悪用される可能性がある。潜在的なリスクは、悪意ある人物の想像力と技術的ノウハウによってのみ制限される。

それ以上に、高度なAIシステムは、開発者や規制当局によって課された安全テストをごまかすなど、人間のコントロールから逃れるために自律的に欺瞞を使うことができる。

ある実験で、研究者たちは人工生命シミュレーターを作成した。このシミュレーターの外部安全テストは、高速で複製されるAIエージェントを排除するように設計されていた。その代わりに、AIエージェントは死んだふりをする方法を学習し、評価されるときに正確に高速複製速度を偽装した。

欺く行動の学習には、欺く明確な意図さえ必要ないかもしれない。上記の例のAIエージェントは、欺くことを目的としたのではなく、生き残ることを目的とした結果、死んだふりをしたのである。

別の例では、ある人がAutoGPT(ChatGPTをベースにした自律型AIシステム)に、ある種の不適切な租税回避スキームを売り込んでいる税理士を調査するよう命じた。AutoGPTはそのタスクを遂行したが、その後、イギリスの税務当局に警告を発することを自ら決定した。

将来、高度な自律型AIシステムは、人間のプログラマーが意図しない目標を発現しやすくなるかもしれない。

歴史を通じて、裕福な行為者は、政治家へのロビー活動、誤解を招く研究への資金提供、法制度の抜け穴を見つけるなど、権力を拡大するために欺瞞を利用してきた。同様に、高度な自律型AIシステムも、支配力を維持・拡大するために、このような歴史に培われた手法に資源を投入する可能性がある。

このようなシステムを名目上コントロールしている人間でさえ、自分たちが組織的に騙され、出し抜かれていることに気づくかもしれない。

厳重な監視が必要

欺くことが可能なAIシステムを規制する必要性は明らかであり、欧州連合(EU)のAI法は、現在ある規制の枠組みの中で最も有用なもののひとつであることは間違いない。この法律では、各AIシステムに4つのリスクレベル(最小、限定、高、許容できない)のいずれかを割り当てている。

許容できないリスクのシステムは禁止され、高リスクのシステムはリスク評価と軽減のための特別な要件の対象となる。我々は、AIの欺瞞は社会に甚大なリスクをもたらすと主張し、このようなことが可能なシステムは、デフォルトで「高リスク」または「許容できないリスク」として扱われるべきであると主張する。

CICEROのようなゲームプレイ型AIは良心的だと言う人もいるかもしれないが、そのような考えは近視眼的である。ゲームプレイ型モデルのために開発された能力は、依然として欺瞞的なAI製品の拡散に寄与しうるのである。

ディプロマシー(世界征服を目指してプレイヤー同士を戦わせるゲーム)は、AIが人間との協力関係を学習できるかどうかをテストするMetaにとって、最適な選択ではなかったようだ。AIの能力が発達するにつれて、この種の研究が厳重な監視の対象となることはさらに重要になるだろう。


本記事は、Simon Goldstein氏とPeter S. Park氏によって執筆され、The Conversationに掲載された記事「AI systems have learned how to deceive humans. What does that mean for our future?」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。

Follow Me !

この記事が気に入ったら是非フォローを!

Share on:

関連コンテンツ

おすすめ記事

コメントする