OpenAI、AIトレーニング用Webクローラーによるスクレイピングをブロックする方法を提示

OpenAIは、AIのトレーニングに関するスクレイピングへの懸念に関して、Webクローラーの挙動を制御出来るようにすることで、解決策を提示し、批判に応えようとしている。

OpenAIによると、Webサイト運営者は、サイトのRobots.txtファイルでGPTBotクローラーを許可しないようにしたり、IPアドレスをブロックしたりすることができるようになったとのことだ：

GPTBotのユーザーエージェントでクロールされたWebページは、将来のモデルを改善するために使用される可能性があり、ペイウォールアクセスを必要とする、個人を特定できる情報（PII）を収集することが知られている、または当社のポリシーに違反するテキストを持つソースを削除するためにフィルタリングされます。

除外基準に当てはまらないソースについては、「GPTBotがあなたのサイトにアクセスすることを許可することで、AIモデルがより正確になり、一般的な能力と安全性を向上させることができる」とのことだ。

OpenAIのモデルと無料でコンテンツを共有したくない場合は、Googleのクローラーをブロックするのと同様に、以下のコマンドでrobots.txtに追加することで、GPTBotを制御することができる。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

User-agent: GPTBot
Disallow: /

Example:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

GPTBotをブロックすることは、OpenAIの大規模な言語モデルのトレーニングに自分のデータが使用されることをインターネットユーザーがオプトアウトできるようにする第一歩だろう。ただし、過去にサイトからスクレイピングされたコンテンツをChatGPTの学習データをさかのぼって削除することはできない。

インターネットは、OpenAIのGPTモデルやGoogleのBardのような大規模な言語モデルの学習データの多くを提供している。しかしOpenAIは、ソーシャルメディアの投稿や著作権で保護された作品を通じてデータを入手したのか、あるいはインターネットのどの部分から情報をかき集めたのかについては確認しない。AIのトレーニングのためのデータ調達は、ますます論争の的になっている。RedditやXなどのサイトは、AI企業によるユーザーの投稿の自由な利用を取り締まるよう働きかけており、一方、作家やその他のクリエーターは、作品の無断利用の疑いで訴訟を起こしている。また、先月行われたAI規制をめぐる上院の公聴会では、データプライバシーや同意に関する質問が議員たちから出された。

OpenAIを含むAI企業は、AIによって生成されたものであるかどうかを人々に知らせる透かしシステムを開発するためにホワイトハウスと合意書に署名したが、トレーニングのためにインターネットデータを使用することを止める約束はしていない。

Sources