Stable Diffusionなどの画像生成AIが児童性的虐待画像を用いてトレーニングされていたことが判明

masapoco
投稿日
2023年12月21日 6:24
child

Stanford Internet Observatory (SIO)の調査によると、主要なAI画像ジェネレーターで利用されているオープンなデータセット「LAION-5B」から少なくとも1,008枚の児童性的虐待(Child Sexual Abuse Material: CSAM)画像が発見されたとのことだ。

SIOは、LAION-5Bデータセットの3200万以上のデータポイントを精査し、Microsoftが開発したツールPhotoDNAを使用して、1,008枚のCSAMを検証することができたと述べた。だがこの数は「かなりの過少数」である可能性が高く、他にも数千件のCSAMが疑われる事例が含まれている、と研究者たちは論文で述べている。

LAION-5Bデータセットは、オンライン画像とキャプションのインデックスだ。このデータセットは2021年以来、インターネット上で公開されている何十億もの画像を吸い上げており、その中にはソーシャルメディアやポルノ動画サイトからのものも含まれている。このデータセットは、例えばオープンソースソフトウェアのStable Diffusionや、Google for PartiやImagenのように、AI画像システムの学習に使われる一般的なデータの一部である。

データセットには画像そのものは含まれておらず、代わりに画像識別子のハッシュ、説明、言語データ、安全でない可能性の有無、画像を指すURLなどのメタデータが集められている。LAION-5BにリンクされているCSAMの写真の多くは、Reddit、Twitter、Blogspot、Wordpressなどのウェブサイトや、XHamster、XVideosなどのアダルトサイトでホストされていることが判明している。

データセットからテストに値する画像を見つけるために、SIOはLAIONの安全性分類器によって “安全ではない “とタグ付けされた画像に焦点を当てた。これらの画像をPhotoDNAでスキャンしてCSAMを検出し、一致した画像をカナダ児童保護センター(C3P)に送って検証してもらった。

「特定されたソース素材の削除は、研究者が米国内の行方不明・被搾取児童国立センター(NCMEC)とC3Pに画像のURLを報告したため、現在進行中である」とSIOは述べている。

データセット内のCSAMは、AI CSAMの生成を可能にする。

スタンフォード大学の研究者たちは、データセットにCSAMが存在することで、そのデータで訓練されたAIモデルが、CSAMの新しい、さらには現実的なインスタンスを生成できる可能性があると指摘している。

Stable Diffusionを開発したStability AIが、LAION-5Bの使用によってモデルに潜在的なCSAMが存在することを知っていたかどうかは不明だ。

Stable Diffusion 1.5をベースにした画像ジェネレータは、特にそのような画像を生成しやすいので、配布を中止すべきだ、と報告書は述べている。Stable Diffusion 2.0は、LAIONのトレーニングデータセットが有害なコンテンツや禁止されているコンテンツに対してより厳重にフィルタリングされているため、より安全であるとされているが、このStable Diffusion 2.0へのフィルタ追加に対する「コミュニティからの広範な不満」の後、Stable Diffusion 1.5は依然として露骨な写真を生成するためにオンライン上で人気を保っている。

10月下旬、Internet Watch Foundation(IWF)は、AIが生成したCSAMの急増を報告した。IWFのアナリストは、1カ月以内に、ダークウェブ上の1つのCSAMフォーラムで20,254枚のAI生成画像を発見した。AIが生成したCSAMもよりリアルになりつつあり、実際のケースを調査することが難しくなっている。

データセットを作成したドイツを拠点とする非営利団体LAIONは、404 Mediaに対し、「違法なコンテンツに対してはゼロ・トレランス・ポリシーを掲げており、慎重を期してLAIONのデータセットを一時的に削除し、再公開する前に安全性を確認している」と述べた。同団体は、そもそもデータセットを公開する前に、違法なコンテンツを検出し削除するためのフィルターを作成したと付け加えた。しかし404は、LAIONのリーダーたちは少なくとも2021年以来、インターネットから何十億もの画像を吸い上げる際に、彼らのシステムがCSAMを拾い上げる可能性があることを認識していたと指摘している。

以前の報告によると、問題のLAION-5Bデータセットには、”ポルノ、暴力、子供のヌード、人種差別的ミーム、ヘイトシンボル、著作権で保護されたアート、民間企業のウェブサイトからスクレイピングされた作品の数百万もの画像”が含まれている事が指摘されていた。LAIONの創設者であるChristoph Schuhmann氏は今年初め、このデータセットにCSAMが含まれていることは知らなかったが、データを深く調査したことはなかったと述べている。

LAIONはLAIONのデータセットに含まれるリンクのうち、公共のインターネット上にある疑わしい、潜在的に違法なコンテンツを指すものを削除するためのメンテナンスを直ちに開始する計画を発表した。公開されているデータセットは一時的に削除され、フィルタリングの更新後に復帰する。LAIONは1月後半にデータセットを公開する予定だ。

スタンフォード大学の報告書によると、画像のURLは米国とカナダの児童保護機関にも報告されているという。Internet Observatoryは、MicrosoftのPhotoDNAのような検出ツールを使うか、児童保護団体と協力して、今後のデータセットを既知のCSAMリストと照合することを提案している。


Sources



この記事が面白かったら是非シェアをお願いします!


  • ai chip image
    次の記事

    人間の脳と同じように“連想”ができるAIの開発に繋がる画期的な「シナプス型トランジスタ」が開発された

    2023年12月21日 8:51
  • 前の記事

    Google、テキストや画像から動画を生成出来る「VideoPoet」を発表

    2023年12月20日 17:53
    videopoet monalisa

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事