画像生成AIを“毒”で狂わせるツールが登場：アーティストによるAIへの反撃が始まる

MidjourneyやStable Diffusion、DALL-Eと言った、テキストからどんなスタイルの画像でも生成することが出来るAI画像ジェネレーターの出現は、人間のアーティストに大きな影響を与えている。

中国では既にゲーム開発の現場ではAIによる労働の置き換えが起こり始めている事が報じられており、AIの進歩によりこの傾向が続くことが懸念される。

それと共に、自分たちのオリジナル作品がこのようなAIモデルのトレーニングに使われることに不満を持つ声も多い。

そんな声に応えてか、アーティストが、人間の目にはわからないほど微妙に作品を変化させ、自分の作品に「毒」を盛ることで、それを取り込んだAIシステムに大混乱をもたらすことを可能にするツールが開発された。

「Nightshade」と呼ばれるこの新しいツールは、シカゴ大学のBen Zhao教授率いる研究チームによって開発された。Nightshadeは、プロンプトに特化した「毒サンプル」を生成するシステムを構築し、Stable Diffusionのような画像ジェネレーターのデジタル頭脳を混乱させ、その出力を台無しにするのだという。

Nightshadeを使った初期の実験で、Zhao氏と彼のチームは、犬の絵を描けと言われたとき、Stable Diffusionの未修正バージョンに奇妙で頭の悪い絵を描かせるのに、たった50個の毒入り画像が必要だったことを発見した。また、たった300枚の毒入り画像で、機械学習モデルは犬というより猫のような画像を吐き出してしまったというのだ。

そして興味深いのは、Nightshadeの効果は入力した「犬」のような特定のプロンプトに限定されていない。AI画像ジェネレーターの仕組み上、”子犬 “や “ハスキー”のような関連性のある画像にも感染するのだ。

「驚くべきことに、適度な数のNightshade攻撃は、テキストから画像への生成モデルの一般的な特徴を不安定にし、意味のある画像を生成する能力を効果的に無効にすることができることを示す」と、論文では述べられている。

アーティストたちは、反撃の機会を喜んでいる。

アーティストのAutumn Beverly氏はMIT Technology Reviewに、「アーティストが自分の作品のために力を取り戻せるようなツールができたことに、本当に感謝しています」と語った。

Nightshadeは、Zhao氏と彼のチームによって開発されたGlazeという別のツールをベースにしている。プロジェクトの公式ウェブサイトによると、Glazeは「スタイル模倣を妨害することで人間のアーティストを保護する」ために設計されており、「人間の目には変わらないように見えるが、AIモデルには劇的に異なるアートスタイルのように見える」ような最小限の変更を作品に加える。チームは最終的にNightshadeをGlazeに統合し、コンテンツ制作者にAIモデルに対する追加の防御ラインを提供したいと考えている。

しかし、このツールは現実世界ではまだほとんどテストされていない。つまり、Nightshadeのようなツールが、「オプトアウト／クロール禁止ディレクティブを無視するウェブスクレイパーに対するコンテンツ制作者の最後の防御」として、現実的にどの程度役に立つかはまだ不明なのだ。

AIモデルを研究するコーネル大学のVitaly Shmatikov教授は、この研究には参加していないが、MIT Technology Review誌に次のように語っている。「最新の（機械学習）モデルに対するポイズニング攻撃はまだ野放しになっていませんが、時間の問題かもしれません」。

AI画像ジェネレーターの脅威は非常に現実的であり、すでにアーティストやイラストレーターから仕事を奪い始めている。

一部のAI企業は、AIのトレーニングデータから自分の作品を除外する新しい方法をアーティストに提供し始めている。例えば、先月末、OpenAIは、アーティストが「オプトアウト」し、自分のアートワークをDALL-Eのデータセットに表示させないための新しい方法を発表した。

しかし、多くのアーティストにとって、こうした取り組みは遅きに失した感が否めない。

そんな中のNightshadeとGlazeの登場は、こうした現状を憂うアーティストたちに、彼らの主体性を取り戻させ、報復する手段を与えるかもしれない。

Glazeを使用しているイラストレーターでアーティストのEva Toorenent氏は、MIT Techの取材に対し、Nightshadeの出現は「（AI企業は）よく考えるようになるだろう。なぜなら、彼らは私たちの作品を同意なしに取得することでモデル全体を破壊する可能性があるからだ」と、語っている。

論文

arXiv: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models

参考文献

MIT Technology Review: This new data poisoning tool lets artists fight back against generative AI

研究の要旨

データポイズニング攻撃は、学習データを操作して、学習時に機械学習モデルに予期せぬ振る舞いを導入する。膨大な訓練データセットを持つテキストから画像への生成モデルの場合、ポイズニング攻撃に関する現在の理解では、攻撃を成功させるには訓練パイプラインに何百万ものポイズンサンプルを注入する必要があることが示唆されている。本稿では、ポイズニング攻撃が生成モデルで成功する可能性があることを示す。このようなモデルでは、概念ごとの訓練データがかなり制限される可能性があり、個々のプロンプトに応答するモデルの能力を標的とするプロンプト固有のポイズニング攻撃に対して脆弱であることを観察する。
我々は最適化されたプロンプト特異的ポイズニング攻撃であるNightshadeを導入する。Nightshadeの毒サンプルは効力の面でも最適化されており、100未満の毒サンプルでStable Diffusion SDXLのプロンプトを破壊することができる。イヌホウズキ毒の効果は関連する概念に「ブリードスルー」し、複数の攻撃が1つのプロンプトに合成されることがある。驚くべきことに、適度な数のNightshade攻撃は、テキストから画像への生成モデルの一般的な特徴を不安定にし、意味のある画像を生成する能力を効果的に無効にすることができる。最後に、オプトアウト/クロール禁止ディレクティブを無視するウェブスクレイパーに対するコンテンツ制作者の最後の防御として、Nightshade`や同様のツールの使用を提案し、モデルトレーナーやコンテンツ制作者に起こりうる影響について議論する。