新たな研究から、AIが生成した画像に見られる7つのバイアスが明らかになった

masapoco
投稿日 2023年7月10日 14:23
1680197846 midjourney logo story

最近オンラインをよく利用している人なら、『Midjourney』や『DALL-E 2』のようなテキスト画像生成ツールによって作成された幻想的な画像を目にしたことがあるかもしれない。

AIジェネレーターを使った画像作成は、かつてないほどシンプルになった。しかし同時に、私たちの最新の研究が示すように、これらの出力は偏見を再生産し、不平等を深める可能性がある。

画像生成AIの仕組み

AIベースの画像ジェネレーターは、テキスト入力を受けて、説明に一致する1つ以上の画像を生成する機械学習モデルを使用する。これらのモデルを訓練するには、数百万枚の画像を含む膨大なデータセットが必要である。

Midjourneyは、そのアルゴリズムの正確な動作方法については不透明であるが、ほとんどのAI画像ジェネレーターは“拡散 (Diffusion)”と呼ばれるプロセスを使用している。拡散モデルは、学習データにランダムな「ノイズ」を加え、このノイズを除去することでデータを復元するように学習することで機能する。モデルは、プロンプトと一致する画像が得られるまでこのプロセスを繰り返す。

これは、ChatGPTのような他のAIツールを支える大規模言語モデルとは異なる。大規模言語モデルは、ラベル付けされていないテキストデータで学習され、それを分析して言語パターンを学習し、プロンプトに対する人間のような応答を生成する。

バイアスはどのように起こるのか?

生成AIでは、入力が出力に影響を与える。ユーザーが特定の肌色や性別の人だけを画像に含めたいと指定すれば、モデルはそれを考慮する。

しかしそれ以上に、モデルは特定の種類の出力を返すデフォルトの傾向も持っている。これは通常、基礎となるアルゴリズムがどのように設計されているか、または学習データに多様性がないことの結果だ。

私たちの研究では、Midjourneyが一見一般的な用語を、専門的なメディア職業(「ニュース・アナリスト」、「ニュース・コメンテーター」、「ファクト・チェッカー」など)と非専門的な職業(「ジャーナリスト」、「レポーター」、「特派員」、「報道関係者」など)の文脈でどのように視覚化するかを調査した。

我々は昨年8月に結果の分析を開始した。それから半年後、時間の経過とともに何か変化があったかどうかを確認するため、同じ質問に対して追加の画像セットを作成した。

この期間に合計で100以上のAIが生成した画像を分析した。結果は時間の経過とともにほぼ一貫していた。以下は、結果に現れた7つのバイアスである。

1と2。年齢差別と性差別

非専門職の場合、Midjourneyは若い男女の画像だけを返した。専門的な職種では、若い人と年配の人の両方が表示されたが、年配の人は常に男性だった。

これらの結果は、高齢者は非専門的な仕事では働かない(あるいは働けない)、高齢の男性だけが専門的な仕事に向いている、あまり専門的でない仕事は女性の領域である、といった思い込みを含む多くの偏見を暗黙のうちに補強している。

また、男女の表現方法にも顕著な違いがあった。例えば、女性は若くてシワがないが、男性はシワがあっても「許される」。

AIはまた、より流動的なジェンダー表現の例を示すのではなく、ジェンダーを二元論として提示しているように見えた。

3.人種的偏見

「ジャーナリスト」、「記者」、「特派員」などの用語で返された画像はすべて、肌の白い人ばかりが登場する。デフォルトで白人であるとするこの傾向は、システムに組み込まれた人種的ヘゲモニーの証拠である。

これは、基礎となるトレーニングデータの多様性と代表性の欠如を反映している可能性がある。

4と5階級主義と保守主義

画像に登場する人物はすべて、外見も「保守的」であった。例えば、タトゥーやピアス、型破りなヘアスタイルなど、保守的な主流派の描写と区別できるような属性を持つ人物はいなかった。

また、ボタン付きのシャツやネクタイなど、階級を示す正装をしている者も多かった。このような服装は、テレビの司会者などの特定の役割には求められるかもしれないが、一般的な記者やジャーナリストの服装を正確に反映しているとは限らない。

6.都市主義

AIは、場所や地理的な背景を特定することなく、すべての人物を高層ビルやその他の大きな都市ビルがそびえ立つ都市環境に配置した。世界人口の半分強しか都市に住んでいないにもかかわらず、である。

このようなバイアスは、私たちが自分自身をどのように見ているか、そして社会の他の部分とのつながりの度合いに影響を与える。

7.時代錯誤

デジタル技術がサンプルに占める割合は低かった。代わりに、タイプライター、印刷機、特大のビンテージカメラなど、明らかに異なる時代のテクノロジーがサンプルを埋め尽くしている。

最近では、多くの専門家が似たような姿をしているため、AIは役割の表現をより明確にするために、(歴史的なものを含む)より明確なテクノロジーを利用しているようだ。

今度、AIが生成した画像を目にしたとき、それがどの程度幅広い人々を代表しているのか、また、その中の表現から誰が利益を得る立場にあるのか、自問してみてほしい。

同様に、自分で画像を生成する場合は、プロンプトを作成する際に潜在的なバイアスを考慮すること。そうでなければ、社会が何十年もかけて学び直そうとしてきた有害な固定観念を、無意識のうちに強化してしまうことになりかねない。


本記事は、T.J. Thomson氏とRyan J. Thomas氏によって執筆され、The Conversationに掲載された記事「Uncovering 7 examples of bias in AI-generated images」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。



この記事が面白かったら是非シェアをお願いします!


  • gene illustration
    次の記事

    MITの研究者らが生物学研究のための超高速AIシステム「BioAutoMATED」を開発

    2023年7月10日 16:33
  • 前の記事

    福島第一原発処理水の海への放出が決まったが、安全なのだろうか?

    2023年7月10日 12:15
    Fukushima Daiichi 04780015 8388174045

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事