OpenAI、AIトレーニング用Webクローラーによるスクレイピングをブロックする方法を提示

masapoco
投稿日 2023年8月8日 7:02
open ai logo

OpenAIは、AIのトレーニングに関するスクレイピングへの懸念に関して、Webクローラーの挙動を制御出来るようにすることで、解決策を提示し、批判に応えようとしている。

OpenAIによると、Webサイト運営者は、サイトのRobots.txtファイルでGPTBotクローラーを許可しないようにしたり、IPアドレスをブロックしたりすることができるようになったとのことだ:

GPTBotのユーザーエージェントでクロールされたWebページは、将来のモデルを改善するために使用される可能性があり、ペイウォールアクセスを必要とする、個人を特定できる情報(PII)を収集することが知られている、または当社のポリシーに違反するテキストを持つソースを削除するためにフィルタリングされます。

除外基準に当てはまらないソースについては、「GPTBotがあなたのサイトにアクセスすることを許可することで、AIモデルがより正確になり、一般的な能力と安全性を向上させることができる」とのことだ。

OpenAIのモデルと無料でコンテンツを共有したくない場合は、Googleのクローラーをブロックするのと同様に、以下のコマンドでrobots.txtに追加することで、GPTBotを制御することができる。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

User-agent: GPTBot
Disallow: /

Example:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

GPTBotをブロックすることは、OpenAIの大規模な言語モデルのトレーニングに自分のデータが使用されることをインターネットユーザーがオプトアウトできるようにする第一歩だろう。ただし、過去にサイトからスクレイピングされたコンテンツをChatGPTの学習データをさかのぼって削除することはできない。

インターネットは、OpenAIのGPTモデルやGoogleのBardのような大規模な言語モデルの学習データの多くを提供している。しかしOpenAIは、ソーシャルメディアの投稿や著作権で保護された作品を通じてデータを入手したのか、あるいはインターネットのどの部分から情報をかき集めたのかについては確認しない。AIのトレーニングのためのデータ調達は、ますます論争の的になっている。RedditやXなどのサイトは、AI企業によるユーザーの投稿の自由な利用を取り締まるよう働きかけており、一方、作家やその他のクリエーターは、作品の無断利用の疑いで訴訟を起こしている。また、先月行われたAI規制をめぐる上院の公聴会では、データプライバシーや同意に関する質問が議員たちから出された。

OpenAIを含むAI企業は、AIによって生成されたものであるかどうかを人々に知らせる透かしシステムを開発するためにホワイトハウスと合意書に署名したが、トレーニングのためにインターネットデータを使用することを止める約束はしていない。


Sources



この記事が面白かったら是非シェアをお願いします!


  • hacking
    次の記事

    中国、日本のネットワークに数カ月にわたり「持続的な不正アクセス」を行っていたと報じられる

    2023年8月8日 10:45
  • 前の記事

    Zoom、批判を受けて同意なしに顧客データをAIトレーニングに使用しないと表明

    2023年8月8日 6:40
    zoom

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事