Metaは、ボットが公平であるために、新しい「包括的な」AIトレーニングデータセットを作成した

Metaは、新たなデータセット「Casual Conversations v2」のリリースにより、AI研究者のツールや手順をより普遍的なものにすることを支援したいと考えている。

この新しいデータセットは、地理的、文化的、人種的、身体的に多様な人間参加者の対面ビデオクリップを含み、2021年のAI視聴覚トレーニングデータセットのアップグレードとして機能する。

このインセンティブは、OpenAIのChatGPTやGoogleのBardのようなAIで訓練されたプログラムに関する懸念、特にデータ同意やアルゴリズムによって強制される人種や社会政治的偏見に関する懸念に対処出来る可能性を持つ。

ブラジル、インド、インドネシア、メキシコ、ベトナム、フィリピン、米国の5,567人の有料参加者が提供した、7カ国で収録された26,467本のビデオ独白で、v2はMetaによって “より包括的なデータセットとして公正さを測定する” と説明されている。以下の動画からわかるように、これらの参加者は年齢、性別、外見などの自認できる属性も提供している。

Today we’re open-sourcing Casual Conversations v2 — a consent-driven dataset of recorded monologues that includes ten self-provided & annotated categories which will enable researchers to evaluate fairness & robustness of AI models.

More details on this new dataset ⬇️
— AI at Meta (@AIatMeta) March 9, 2023

不正確な、人種差別的な、性差別的な反応を提供するAI製品に長年悩まされてきた業界にとって、AIにおけるアルゴリズムの偏りに対抗することは、重要な障壁となる。アルゴリズムの開発と、開発者が利用できるようにする方法が、その大きな部分を占めている。

Metaは、「同意に基づくデータセットは、関連する人口統計学的カテゴリーを中心とした包括的な文献調査によってもたらされ、形作られたものです」と述べている。

Metaは「同意主導型」と概説することで、この情報が参加者から直接収集されたもので、隠蔽されたソースからではないことを明確にしている。つまり、あなたのFacebookのデータやInstagramの写真からではないのだ。

「我々の知る限り、AIモデルの公平性と堅牢性のテストに役立つ、高精度で詳細な人口統計情報を用いて複数の国から収集された動画を含む初めてのオープンソースデータセットです」と、Metaは付け加えた。

しかし、MetaがCasual Conversations v2を大きな進化と喧伝する一方で、一部の専門家は慎重な姿勢を崩していない。

ノースウェスタン大学のコンピュータサイエンス教授で、同校のCenter for Advancing the Safety of Machine IntelligenceのディレクターであるKristian Hammond氏は、PopSciに対し、この空間はほとんど何でも改善されるものだと語っている。

同氏は、Metaの新しいデータセットについて、特に以前のプライバシー問題を考慮すると、同社にとって「確かな一歩」であると見ている。また、同社が研究参加者の労働対価だけでなく、ユーザーの許可を重視していることも重要であると付け加えた。

「しかし、改善は完全な解決策ではありません。ただの一歩だ」とHammond氏は警告した。

同氏によれば、「Casual Conversations v2」の制作にあたり、学者がどのように参加者を選んだかについては、まだ解明されていないことが多いそうだ。

「ジェンダーや民族の多様性を持つことは素晴らしいことですが、所得や社会的地位、民族性のより細かな側面による影響も考慮する必要があります。どのような自己選択的な集団からも流れうるバイアスがあります」と、彼は述べている。

Source

Meta: Introducing Casual Conversations v2: A more inclusive dataset to measure fairness
via Popular Science: Meta attempts a new, more ‘inclusive’ AI training dataset

Metaは、ボットが公平であるために、新しい「包括的な」AIトレーニングデータセットを作成した

オランダの美術館で「真珠の耳飾りの少女」のAI作品が出展されネット上で嵐を呼ぶ

Webブラウザ「Brave」、デスクトップ版にファイアウォール＋VPN機能を追加

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

Metaは、ボットが公平であるために、新しい「包括的な」AIトレーニングデータセットを作成した

オランダの美術館で「真珠の耳飾りの少女」のAI作品が出展されネット上で嵐を呼ぶ

Webブラウザ「Brave」、デスクトップ版にファイアウォール＋VPN機能を追加

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル