ChatGPTなどの生成AIが進化を遂げ、徐々に人々の生活を変えていく中で、こうした新たな技術が悪用されることもまた、確実に訪れると予想される未来の形だが、今回ある研究グループによって生成AIに関する新たな脅威が提示された。彼らが新たに考案した生成AIワームは、一般的な大規模言語モデル(LLM)に感染し、データを盗み出し、マルウェアを拡散し、電子メールクライアントを介して他の人にスパムを送り、複数のシステムに拡散することが可能だという。
「基本的には、今までにない新しいサイバー攻撃を行う能力があるということです」とコーネル工科大学の研究者Ben Nassi氏はWiredに述べている。
生成AIワームはまだ実際には発見されていないが、スタートアップ、開発者、テクノロジー企業が懸念すべきセキュリティリスクであると複数の研究者が述べている。
この第1世代の生成AIワームは、コーネル工科大学のBen Nassi氏、イスラエル工科大学のStav Cohen氏、IntuitのRon Bitton氏らによって作成された。彼らはこのワームを、1988年にオンライン上で世界的な迷惑行為を引き起こした最初のコンピューター・ワームであるオリジナルのMorrisにちなんで「Morris II」と名付けた。このワームは、生成AIアプリや、Gemini Pro、ChatGPT 4.0、LLaVAのようなAIモデルや、テキストや画像を生成する生成AI対応の電子メール・アシスタントをもターゲットにして動作する。
これは、AIを使用して有害なコンテンツを拡散するために“脱獄”が用いられるのと同様に、そのモデルに対して使用される敵対的な自己複製プロンプトを使用することによって動作する。研究者は、これらの生成AIエンジンを使って電子メールシステムを作成し、テキストを使用するか、画像ファイルに埋め込まれた自己複製プロンプトを使用して、これを実証した。
最初の方法では、このワームはRAG(Retrieval Augmented Generation)を使って電子メール・プログラムのデータベースを「汚染」し、電子メールに応答する際にデータを盗んだり、新しいホストに感染させたりする。2つ目の方法では、画像に埋め込まれた悪意のあるリクエストが引き金となり、電子メールアシスタントがメッセージを転送し、スパムや攻撃的な内容、プロパガンダを拡散する。
この2つのプロセスの間に、研究者はクレジットカードの詳細や社会保障番号を含むがこれに限定されない機密情報をマイニングすることができる。
このようなワームは、たとえ管理された環境下であっても、もはや理論的なものではなく、このような悪意のあるプロンプトが発見されるたびに、効果的なソリューションを導入して真剣に検討する必要があることを証明している。今回のような研究発表は、被害を受けた当事者と共有され、他の人々がシミュレーションや検証を行えるようにするためにも大いに有意義である。
GenAIリーダーの対応と抑止策の展開計画
他の責任ある研究者と同様、チームは発見をGoogleとOpenAIに報告した。Wiredが問い合わせたところ、Googleはこの研究についてのコメントを拒否したが、OpenAIの広報担当者はこれに応じた。彼らは、「チェックもフィルタリングもされていないユーザー入力に依存することで、プロンプト・インジェクション型の脆弱性を悪用する方法を発見したようだ」と述べている。彼らはまた、自社のシステムをより耐性のあるものにしていると断言し、開発者は有害な入力を使っていないことを確認する方法を使うべきだと付け加えた。
このような方法が生成AIアプリケーションに感染し、ユーザーのシステムを危険にさらす可能性があることを考えると、このような発見は、AIやNPUがPC、スマートフォン、自動車、電子メールサービスなどのGPUやCPUに実装され、重要な役割を担っている場合にもたらされる。場合によっては、AIを搭載したSSDがランサムウェアを特定し、駆除できることもある。しかしもう一方では、マルウェアを作成できるワームやカスタムLLMがある。
そこで、業界は自らのペースを保ち、一般にリリースされるすべてのAIベースの製品に対して、攻撃対策を講じたり、効果的なソリューションを展開したりする必要がある。新しいソリューションやイノベーションは、新たな問題を引き起こす可能性がある。AIアプリの初期段階でこのような問題が露呈するような研究では、潜在的に危害を加える可能性のあるGenAIエンジンの安全性を確保することを優先する必要がある。
研究者たちは、今後2〜3年のうちに生成AIワームが野生の状態で出現する可能性があると考えている。
論文
参考文献
- ComPromptMized: ComPromptMized: Unleashing Zero-click Worms that Target GenAI-Powered Applications
- Wired: Here Come the AI Worms
研究の要旨
昨年、多くの企業が生成 AI(Generative AI: GenAI)機能を新規および既存のアプリケーションに組み込み、GenAIサービスによって駆動される半/完全に自律的なエージェントで構成される相互接続された生成 AIエコシステムを形成した。現在進行中の研究では、エージェントの生成 AIレイヤーに関連するリスク(ダイアログポイズニング、プライバシー漏洩、ジェイルブレイクなど)が強調されているが、重大な問題が浮上している:攻撃者はエージェントの生成 AIコンポーネントを悪用するマルウェアを開発し、生成 AIエコシステム全体にサイバー攻撃を仕掛けることができるのか?
本稿では、敵対的な自己複製プロンプトの使用を通じて生成 AIエコシステムを標的とするように設計された最初のワームであるMorris IIを紹介する。この研究は、攻撃者がこのようなプロンプトを入力に挿入し、生成 AIモデルによって処理されると、モデルが入力を出力として複製し(複製)、悪意のある活動(ペイロード)に従事するよう促すことができることを実証している。さらに、これらの入力は、生成 AIエコシステム内の接続性を悪用することで、エージェントに新しいエージェントへの配信(伝播)を強制する。我々は、2種類の入力データ(テキストと画像)を使用し、2つの設定(ブラックボックスとホワイトボックスアクセス)の下で、2つのユースケース(スパミングと個人データの流出)において、生成 AIを搭載した電子メールアシスタントに対するMorris IIの適用を実証する。ワームは3つの異なる生成 AIモデル(Gemini Pro、ChatGPT 4.0、LLaVA)に対してテストされ、ワームのパフォーマンスに影響する様々な要因(伝播速度、複製、悪意のある活動など)が評価される。
コメントを残す