OpenAIは、AIモデルの改良のためにWeb上のコンテンツを収集する目的でクローラー「GPTBot」を運用しているが、パブリッシャーやWebサイト運営者が、自分たちのコンテンツをチャットボットやAIモデルに無料で提供したくない場合、オプトアウトする手段を提供している。これは、robots.txtファイルを介してGPTBotを明示的にブロックすることによって行うことができる。
この動き自体は今月の初めに導入されたが、New York Times、CNN、Reuters、Chicago Tribune、ABC、Australian Community Media(ACM)などの大手メディア企業は早速OpenAIによってコンテンツが収集されないようにGPTBotをブロックしているようだ。加えて、Amazon、Wikihow、Quoraなどの他のWebベースのコンテンツプロバイダーもOpenAIのクローラーをブロックしている。
Originality.aiの分析によると、8月末時点でトップ1000のWebサイトの9.2%がGPTBotをブロックしており、週ごとの増加率は5%だった。分析した759のrobots.txtファイルのうち、69にGPTBotのブロックが設定されていた。上位100サイトのうちのブロック率は15%だという。
ドイツ最大のニュースポータルBild.de、t-online.de、n-tv.deやSpiegel Onlineは、まだGPTBotをブロックしていないようだ。sueddeutsche.de、zeit.de、welt.deなどの他のオンラインニュースポータルは、robots.txtを修正してGPTBotを除外しているようだ。ドイツの公共放送局SWRもGPTBotをブロックしている。
チャットボット対コンテンツ提供者
GPTBotをブロックすることは、コンテンツ提供者にとっては適切な動きだろう。OpenAIのWebブラウジング機能のようなChatGPTプラグインは、ChatGPTによるWebページへのアクセスを可能にし、Webページのコンテンツをチャットに取り込み、それを元にチャットボットとやりとりすることを可能にする。
これはユーザーがWebサイトに訪問することなく情報を入手することを可能にするため、その結果マネタイズ、つまりWebサイト運営者にとっては直接的な損失となる。たとえコンテンツが長期保存されAIのトレーニングに使用されなくてもだ。したがって、ほとんどの場合、GPTBotをブロックする人は、ChatGPTユーザーエージェントをブロックすることにも関心があるはずだ。
特に、ChatGPTが有料コンテンツにも不適切にアクセス出来てしまう問題から、そのWebブラウジング機能を一時停止したことでこの問題は大きく取り上げられた。
ただし、Microsoftは引き続きBing Chatを提供しており、チャットウィンドウに表示されるWebサイトのコンテンツは若干改編されている。現在テスト中のGoogleのAI検索もWeb上のコンテンツを要約し検索画面に表示するなどの方法を用いている。
すべての法的状況はおそらく法廷で解決されなければならないだろう。それはおそらく、大手出版社とGoogle、Microsoft、OpenAIのような大手AI企業との間で今後数ヶ月の間に起こりうる可能性がある。既に先日、New York Times紙は、OpenAIに対する訴訟を準備していると報じられている。
Source
- Originality.ai: Websites That Have Blocked OpenAI’s GPTBot – 1000 Website Study
コメントを残す