米国のコメディアンで作家のSarah Silverman氏が、小説家のChristopher Golden氏、Richard Kadrey氏とともに、OpenAIとMetaを提訴した。原告は、両社が、自分たちが出版した作品を含む著作権で保護された素材を元に、同意を得ることなく大規模言語モデルを学習させたと主張している。
訴えの中心は、ChatGPTとLLaMAの学習に使われたとされるOpenAIとMetaのデータセットだ。OpenAIの場合、「Books1」データセットは、著作権フリーの書籍リポジトリとして知られるProject Gutenbergのサイズにほぼ合致しているが、「Books2」データセットは、著作権フリーデータで学習したにしては大きすぎると原告側の弁護士は主張しており、これらの学習データの一部は、Library Genesis、Z-Library、Sci-Hub、Bibliotikのような、著作権で保護された書籍を含むインターネットベースのトレント・リポジトリである、いわゆる「シャドウ・ライブラリ」から来ていると主張している。
Silverman氏らの主張の根拠の一端となったのは、ChatGPTにSilverman氏の著書にまつわる一連のやりとりにある。Silverman氏の弁護団は、彼女が2010年に出版した回顧録『The Bedwetter』の要約をチャットボットに依頼した。チャットボットは、その本の全編を要約することができただけでなく、チャットボットが伝えたいくつかの文章は、そのまま再現されたように見えたという。
著者の代理人であるJoseph Saveri氏とMatthew Butterick氏の両弁護士は、AIを売り込む企業に対して訴訟を起こした実績が多くあり、昨年も画像生成AI関連の訴訟や、コード作成支援AI「Copilot」関連の訴訟で登場している。
著作権侵害でOpenAIを訴えた作家は、今回が初めてではない。実際、同社はChatGPTのトレーニング方法をめぐって多くの法的問題に直面している。最近では、ChatGPTとDALL-Eの背後にある大規模な言語モデルを訓練するためにデータをスクレイピングすることによって、OpenAIが連邦および州のプライバシー法に違反したと主張する大規模な集団訴訟も起こされている。
Source
コメントを残す