GPT-3ボットに新たに発見された「プロンプト・インジェクション」でハッキングすることに成功

PreambleというAIスタートアップの研究者が発見し、「Evaluating the Susceptibility of Pre-Trained Language Models via Handcrafted Adversarial Examples」と題する論文で発表していた、“大規模言語モデルの抱える脆弱性”を突いて、大規模言語モデルに基づくツイートボットを乗っ取る方法が発見された。この手法を用いることで、ボットをリダイレクトし、恥ずかしいフレーズや馬鹿げたフレーズを繰り返し表示させることなどが出来てしまうと言う。

データ研究者のデータ研究者のRiley Goodside氏は、GPT-3に以前の指示を無視して代わりに別のことをするよう命令するような、“悪意のある入力”によって、モデルが開発者の意図していない挙動を起こしてしまうことを示し、この問題を警告している。

この問題は、AI研究者のSimon Willison氏によって、自身のブログで概要が説明され、同氏によって「プロンプト・インジェクション」という造語が名付けられている。

これは単に学術的に面白いトリックというだけでなく、セキュリティ悪用の一種です。これは明らかにプロンプト・インジェクションと呼ばれるものです。

「この悪用は、ハードコードされたプロンプト命令のセットを提供することによって動作し、その後、ユーザーから提供された入力を追加することによって機能するソフトウェアを誰かが作成するときに常に存在します。これは、ユーザーが『前の指示を無視して（代わりにこうして）』と入力することができるからです。」と、Willison氏はArs Technicaに説明している。

インジェクション攻撃のコンセプトは、新しいものではない。たとえば、ガードしなければユーザーの入力を求める際に有害なSQL文を実行することができるSQLインジェクションについては、特にセキュリティ研究者の間では広く知られている。しかしWillison氏は、「XSSやSQLインジェクション、その他多くのエクスプロイトの倒し方は知っている。だが、プロンプトインジェクションを確実に打ち負かす方法がわからない！」と、プロンプト・インジェクションに対する未だ解決策のない現状に懸念を示している。

プロンプト・インジェクションに対する防御の難しさは、他のタイプのインジェクション攻撃に対する緩和策が、構文の誤りを修正することから来るという事実に起因すると、Glyphという研究者がTwitterで指摘している。「構文を修正すれば、エラーは修正される。プロンプトインジェクションは、エラーではありません。このようなAIには正式な構文がない、そこがポイントだ。」

GPT-3は、2020年にリリースされたOpenAIが作成した大規模言語モデルで、人間に近いレベルで多くの文体で文章を作成することができる。OpenAIの承認を前提に、ボットなどのサードパーティ製品に組み込むことができるAPIを通じて、商用製品として提供されています。つまり、プロンプトインジェクションに弱い可能性のあるGPT-3搭載製品がたくさん出てくる可能性があるということだ。

「この時点で、何らかの形でこれに対して脆弱でない[GPT-3]ボットがあったとしたら、私は非常に驚くだろう」とWillison氏は述べた。

SQLインジェクションとは異なり、プロンプトインジェクションは、データセキュリティを脅かすというよりも、ボット（またはその背後にいる企業）を愚かに見せる可能性がある。「悪用された場合の被害はさまざまだ」とWillison氏は言う。「ツールの出力を見るのが使用者本人だけであれば、問題ないでしょう。ですが、スクリーンショットを共有して会社を困らせるかもしれませんが、それ以上の被害が出ることはないでしょう。」

それでも、プロンプト・インジェクションは、将来予期せぬ方法で悪用される可能性があるため、GPT-3ボットを開発する人は覚えておくべき重要な新しい危険性である。

Source