8月上旬、New York Times紙がサービス利用規約(TOS)を更新し、AIのトレーニングのために記事や画像をスクレイピングすることを禁止していた事が、Adweekの報道で明らかになった。この動きは、テック企業がChatGPTやGoogle Bardのような大規模言語モデルを用いたAIモデルを収益化し続ける流れに一石を投じる形になるかも知れない。
新しい規約は、記事、ビデオ、画像、メタデータを含むNYTのコンテンツを、書面による明示的な許可なしにAIモデルのトレーニングに使用することを禁止している。TOSSのセクション2.1では、NYTのコンテンツは読者の “個人的、非商業的利用”のためのものであり、非商業的利用には “機械学習や人工知能(AI)システムのトレーニングを含むがこれに限定されないソフトウェアプログラムの開発”は含まれないとしている。
さらにその下の第4.1項では、NYTの書面による事前の同意がない限り、”機械学習や人工知能(AI)システムのトレーニングを含むがこれに限定されない、いかなるソフトウェアプログラムの開発にもコンテンツを使用することはできない”とされている。
NYTはまた、制限を無視した場合の結果についても概説している:
本サービスの禁止された使用に従事することは、ユーザーおよびユーザーを支援する人々に対する民事、刑事、および/または行政罰、罰金、または制裁につながる可能性があります。
これまでの利用規約では、機械学習データセットにネット上に公開されている記事が含まれることを止めることが出来なかった。OpenAIのGPT-4、AnthropicのClaude 2、MetaのLlama 2、GoogleのPaLM 2など、現在利用可能なすべての大規模言語モデルは、インターネットからかき集めた大規模なデータセットで学習されている。教師なし学習と呼ばれるプロセスを使用して、Webデータはニューラルネットワークに供給され、AIモデルは単語間の関係を分析することによって言語の概念的な感覚を得ることができた。
AIモデルの訓練にスクレイピング・データを使用することについては物議を醸しており、米国の裁判所でも完全な解決には至っていないが、少なくとも1件の訴訟では、この慣行が原因でOpenAIが盗作を行ったと非難されている。先週、AP通信をはじめとする複数の報道機関が公開書簡を発表し、「AIアプリケーションの原動力となるコンテンツを保護するための法的枠組みを構築する必要がある」などと述べていた。
OpenAIはおそらく、今後も法的な挑戦が続くことを予期しており、このような批判を先取りするような動きを始めている。例えば、OpenAIは最近、robots.txtを使用してAIを訓練するWebクローラーをブロックするためにWebサイトが使用できる方法を詳述した。これにより、いくつかのサイトや著者は、クローラーをブロックすると公言した。
今のところ、NYTのコンテンツを含め、すでにスクレイピングされたものがGPT-4に組み込まれている。OpenAIや他のAIベンダーが、コンテンツ所有者の意向を尊重するかどうかは、GPT-5まで待つ必要があるかもしれない。そうでなければ、新たなAI訴訟や規制が始まるかもしれない。
Sources
- The New York Times: Terms of Service
- via Adweek: The New York Times Updates Terms of Service to Prevent AI Scraping Its Content
コメントを残す