OpenAI、New York Timesの起こした訴訟に「ChatGPTをだまして意図的に記事を作り出させた」と反論

OpenAIは、The New York Times紙（NYT)によって起こされた著作権侵害訴訟に関し、声明を発表した。NYTは、OpenAIとMicrosoftがAIモデルのトレーニングのために数百万件のNYTの記事を無許可で使用し、著作権を侵害していると非難している。

これに対する声明の中でOpenAIは、NYTが著作権侵害を意図的に誘発するためにプロンプトを操作したと非難しているのだ。

OpenAIはまた、一般に利用可能なインターネット上の資料でAIモデルを訓練することはフェアユースであるという立場を改めて表明している。

大規模なAIモデルは、「人間の知識の膨大な集合体」から学習するものであり、訓練用のコンテンツはモデルの性能に「ほんのわずか」しか寄与しない。OpenAIの見解では、NYTの記事は、GPT-4のようなAIモデルのトレーニングにとって「重要ではない」というのだ。

NYTは、テキスト生成の質を向上させるために、トレーニング教材では意図的にその内容が偏重されていると考えている。OpenAIは最新モデルのトレーニング資料を透明化していないので、真相については不明だ。

OpenAIのツールが彼らのサイトにアクセスするのを防ぐために、出版社に提供されたオプトアウトの仕組みは、OpenAIの観点からは譲歩である。OpenAIにとって、”良き市民”であることは、権利を主張することよりも重要であるという。

The New York Times紙が訴訟で示したような、LLMによるコンテンツの暗記や「復唱」は、学習プロセスにおける「まれなバグ」であり、同社はその修正に取り組んでいる。OpenAIによれば、最近のモデルではすでに「多くの進歩」があったという。意図的なプロンプトによってこのバグを誘発することは、OpenAIの利用規約に対する意図的な違反である、と同社は主張している。

OpenAIも、NYTが透明性のない行動を取ったと主張

OpenAIは声明の中で、The New York Times紙もまた、「全容を語っていない」と主張している。NYTとOpenAIの交渉が失敗したのは、ChatGPTでのリアルタイムコンテンツの表示に関するものだった。

NYT紙は、OpenAIの言語モデルがその作品の逐語的コピーを生成できることに「途中まで」言及していたが、何度要求しても例を示そうとしなかった。OpenAIは、NYTの記事を通じて初めて訴訟を知ったが、それは “驚きと失望”だったと述べている。

現在起訴状に引用されている例は、数年前の記事も含まれており、様々なWebブサイトでも見つけることができる。さらに、プロンプトは暗記を促すために、正確な記事パターンで意図的に操作されていたとOpenAIは言う。

しかし、このシナリオであっても、OpenAIのモデルは通常、記事のコピーを生成することはないとOpenAIは主張する。NYTが記事のコピーを生成するようモデルに指示したか、”多くの試行からその例を選び出した”と、OpenAIは仮定している。

OpenAIは、AP、Axel Springer、American Journalism Project、ニューヨーク大学との提携を挙げ、記者や編集者を支援する製品を開発し、過去のコンテンツでAIモデルを訓練し、ChatGPTでソースとともにコンテンツをリアルタイムで表示することで、報道機関を支援する取り組みを指摘している。

OpenAI、Google、Appleは、リアルタイムの表示やAIのトレーニングにコンテンツを使用することについて、多くのパブリッシャーと交渉中であると言われている。OpenAIのパートナーシップは、近々追加発表される見込みだ。

訴えているのは出版社だけではない

出版社以外にも、作家、プログラマー、アーティストがジェネレーティブAIプロバイダーを訴えている。申し立て内容はほぼ同じで、AIモデルが明示的な同意なしに訓練され、将来的に代替される可能性のある人々の作品を使用しているというものだ。

OpenAIによると、ChatGPTはNew York Timesが提供するサービスに取って代わるものではない。OpenAIは、今後も良い協力ができることを願っている。

Sources

OpenAI: OpenAI and journalism