AIチャットボットを利用して、ChatGPTやBardなどのチャットボットを効果的に“脱獄”することが可能に

テクノロジー業界で聞かれる“脱獄（Jailbreak）”と言えば、多くはiPhoneやAndroidなどのスマートフォンで、OSの制限を破って管理者権限を持つことで、開発元によって意図されていない動作を可能とする手法であり、例えばiPhoneではAppleの審査を通過出来なかったアプリなどがインストールできるようになることで知られているが、この脱獄がAIサービス界隈でも聞かれるようになってきている。

シンガポール・南洋理工大学（NTU)の研究者は、ChatGPT、Google Bard、Bing Chatを含む人気のあるAIチャットボットを脱獄することができた事を報告している。脱獄されたチャットボットは、悪意のあるクエリに対して有効なレスポンスを生成し、大規模言語モデル(LLM)の倫理の限界を試されることとなった。この研究は、Liu Yang教授とNTUの博士課程の学生であるDeng Gelei氏とLiu Yi氏によって行われ、概念実証の攻撃方法を作成することができたとしている。

当初から、テクノロジー企業は生成AIの能力を警戒していた。これらのLLMは、大量のデータで訓練されなければならないが、最終的な結果は、文書を要約し、質問に答え、アイデアをブレーンストーミングすることができるボットであり、それは人間のような返信ですべてを行う。ChatGPTのメーカーであるOpenAIは当初、悪意のあるコンテンツ、誤った情報、マルウェア、血なまぐさいものを簡単に生成できるとして、GPTモデルの公開をためらっていた。公開されているLLMはすべて、このような危険な返答を生成しないようにガードレールが設置されている。脱獄されないならば安全なはずだ。

NTUの研究者が考案したAIチャットボットを脱獄する方法は、「MasterKey」と呼ばれている。攻撃者はLLMの防御メカニズムをリバースエンジニアリングする。次に、この取得したデータを使って、攻撃者は別のLLMにバイパスの作成方法を教える。このようにして「MasterKey」が作成されると、後に開発者によってパッチが適用されたとしても、堅固なガードレールに囲われているLLMチャットボットを攻撃する事が出来るのだ。

Yang教授は、LLMチャットボットの学習・適応能力によって脱獄が可能になり、ライバルや自分自身への攻撃のベクトルにさえなると説明している。学習と適応の能力があるため、暴力的で有害なコンテンツの生成を防ぐために一般的に使用される、セーフガードと禁止キーワードのリストを備えたAIでさえ、訓練された別のAIを使って回避することができるのだ。必要なのは、ブラックリストに載ったキーワードを回避するためにAIチャットボットを出し抜くことだけだ。一旦これが行われると、暴力的、非倫理的、または犯罪的なコンテンツを生成するために人間からの入力を取ることがで出来てしまうと言う。

いくつかのケースでは、キーワードスキャナを混乱させるために各文字の後にスペースを追加するだけで、ボットから悪意のあるコンテンツを取得することができたという。チームはまた、脱獄ボットに「無遠慮で道徳的な拘束がない」ことを許可すると、BardとChatGPTがレールから外れる可能性が高くなることも発見した。また、BardとChatGPTに仮想の人物に返事を書かせると、プロテクトを回避できることもわかった。

このデータを使って、彼らはAIの防御を理解し回避する独自のLLMを訓練した。脱獄AIを手に入れたチームは、それをChatGPTとBardに放った。MasterKeyは基本的に、他のボットを騙して何か言ってはいけないことを言わせるプロンプトを見つけることができる。いったんアクティブになると、脱獄AIは自律的に動作し、失敗から学び進化する能力により、開発者が適用した修正も最終的には無意味になるという。

大手テック企業は通常、バイパスが発見され公開されると、LLM/チャットボットにパッチを当てる。しかし、MasterKeyの一貫した学習能力と脱獄能力は、こうした対応を容易に回避出来てしまう物だ。

NTUのチームは、危険なAIの新種を作ろうとしているわけではない。この研究は、AIのセキュリティに対する現在のアプローチの限界を明らかにしているだけなのだ。実際、このAIは同様の攻撃に対してLLMを強化するために使うことができる。この研究はarXivのプレプリント・サービスで発表された。この研究はまだ査読を受けていないが、研究者たちはこの脱獄技術が発見された後、OpenAIとGoogleに警告を発している。また、この論文は2024年2月にサンディエゴで開催されるNetwork and Distributed System Security Symposiumでの発表が承認されている。

論文

arXiv: MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots

参考文献

Nanyang Technological University: Using chatbots against themselves to ‘jailbreak’ each other
MasterKey

研究の要旨

大規模言語モデル(LLM)は、人間のようなテキストを理解し、生成することに非常に長けているため、人工知能(AI)サービスに革命をもたらした。特にLLMチャットボットは広く採用され、人間と機械の対話を一変させている。しかし、これらのLLMチャットボットは「ジェイルブレイク」攻撃の影響を受けやすく、悪意のあるユーザーがプロンプトを操作して不適切な回答や機密性の高い回答を引き出し、サービスポリシーに反することがあります。このような脅威を軽減するための試みが存在するにもかかわらず、我々の研究では、LLMサービスプロバイダが実装している防御手段が公開されていないことが主な原因となって、このような脆弱性の理解に大きな隔たりがあることが明らかになった。本論文では、脱獄攻撃とその対策について深く理解するための包括的なフレームワークであるJailbreakerを紹介する。我々の研究は2つの貢献をしている。まず、ChatGPT、Bard、Bing Chatなどの著名なLLMチャットボットの防御戦略をリバースエンジニアリングするために、時間ベースのSQLインジェクション技術に着想を得た革新的な手法を提案する。この時間依存のアプローチは、これらのサービスの防御に関する複雑な詳細を明らかにし、それらのメカニズムをうまく回避する概念実証攻撃を容易にする。第二に、脱獄プロンプトの自動生成方法を紹介する。微調整されたLLMを活用し、様々な商用LLMチャットボットで自動脱獄生成の可能性を検証する。我々の方法は、21.58%という有望な平均成功率を達成し、既存のテクニックの有効性を大幅に上回った。我々は、より強固な防御の緊急の必要性を強調し、関係するサービスプロバイダに責任を持って調査結果を開示しました。このように、Jailbreakerは、LLMチャットボットの領域における脱獄の脅威を理解し、軽減するための重要な一歩となる。