Metaは、新たなデータセット「Casual Conversations v2」のリリースにより、AI研究者のツールや手順をより普遍的なものにすることを支援したいと考えている。
この新しいデータセットは、地理的、文化的、人種的、身体的に多様な人間参加者の対面ビデオクリップを含み、2021年のAI視聴覚トレーニングデータセットのアップグレードとして機能する。
このインセンティブは、OpenAIのChatGPTやGoogleのBardのようなAIで訓練されたプログラムに関する懸念、特にデータ同意やアルゴリズムによって強制される人種や社会政治的偏見に関する懸念に対処出来る可能性を持つ。
ブラジル、インド、インドネシア、メキシコ、ベトナム、フィリピン、米国の5,567人の有料参加者が提供した、7カ国で収録された26,467本のビデオ独白で、v2はMetaによって “より包括的なデータセットとして公正さを測定する” と説明されている。以下の動画からわかるように、これらの参加者は年齢、性別、外見などの自認できる属性も提供している。
不正確な、人種差別的な、性差別的な反応を提供するAI製品に長年悩まされてきた業界にとって、AIにおけるアルゴリズムの偏りに対抗することは、重要な障壁となる。アルゴリズムの開発と、開発者が利用できるようにする方法が、その大きな部分を占めている。
Metaは、「同意に基づくデータセットは、関連する人口統計学的カテゴリーを中心とした包括的な文献調査によってもたらされ、形作られたものです」と述べている。
Metaは「同意主導型」と概説することで、この情報が参加者から直接収集されたもので、隠蔽されたソースからではないことを明確にしている。つまり、あなたのFacebookのデータやInstagramの写真からではないのだ。
「我々の知る限り、AIモデルの公平性と堅牢性のテストに役立つ、高精度で詳細な人口統計情報を用いて複数の国から収集された動画を含む初めてのオープンソースデータセットです」と、Metaは付け加えた。
しかし、MetaがCasual Conversations v2を大きな進化と喧伝する一方で、一部の専門家は慎重な姿勢を崩していない。
ノースウェスタン大学のコンピュータサイエンス教授で、同校のCenter for Advancing the Safety of Machine IntelligenceのディレクターであるKristian Hammond氏は、PopSciに対し、この空間はほとんど何でも改善されるものだと語っている。
同氏は、Metaの新しいデータセットについて、特に以前のプライバシー問題を考慮すると、同社にとって「確かな一歩」であると見ている。また、同社が研究参加者の労働対価だけでなく、ユーザーの許可を重視していることも重要であると付け加えた。
「しかし、改善は完全な解決策ではありません。ただの一歩だ」とHammond氏は警告した。
同氏によれば、「Casual Conversations v2」の制作にあたり、学者がどのように参加者を選んだかについては、まだ解明されていないことが多いそうだ。
「ジェンダーや民族の多様性を持つことは素晴らしいことですが、所得や社会的地位、民族性のより細かな側面による影響も考慮する必要があります。どのような自己選択的な集団からも流れうるバイアスがあります」と、彼は述べている。
Source
コメントを残す