OpenAIは、著作権で保護された著作物を使用せずに、今日のニーズを満たすトップレベルのニューラルネットワークを構築することは「不可能」だと述べた。
ChatGPTの制作元であるこのAI研究所は、モデルのトレーニングのために合法的にコンテンツを採取していると考えており、著作権の切れたパブリックドメインの素材を使用すると、劣悪なAIソフトウェアになると述べている。
この報告は、英国貴族院の通信・デジタル特別委員会の大規模言語モデルに関する調査への提出資料の一部として発表された。
OpenAIは報告書の中で、学習データを “100年以上前に作成された”パブリックドメインの書籍や図面に限定することは、”今日の市民のニーズを満たす”AIシステムを提供しないと指摘する:
今日の著作権は、ブログの投稿、写真、フォーラムの投稿、ソフトウェアコードの断片、政府の文書など、事実上あらゆる種類の人間の表現をカバーしているため、著作権で保護された素材を使用せずに、今日の主要なAIモデルを訓練することは不可能だろう。100年以上前に作成されたパブリックドメインの書籍や図面に学習データを限定すれば、興味深い実験ができるかもしれないが、現代の市民のニーズを満たすAIシステムを提供することはできないだろう。
特にOpenAIは、クリエイティブ産業の一部はモデルを使って仕事をしており、その恩恵を受けるだろうと指摘している。
創造する能力を民主化することで、AIツールは、商業・非商業の両分野において、創造的作品の量、多様性、質を拡大する。これらのツールは、労働者の生産性を高め、生産コストを下げ、ブレーンストーミング、プロトタイプ作成、反復、アイデアの共有を容易にすることで創造性を刺激する。
OpenAIの抗弁の大部分は、特定の状況下で所有者の許可なく著作権で保護されたコンテンツを限定的に使用することを認めるフェアユースの法的原則に基づいている。同社は、著作権法はそのような素材を使ったAIモデルの学習を禁止していないと主張している。
一般に入手可能なインターネット上の資料を用いてAIモデルをトレーニングすることは、長年にわたって広く受け入れられてきた判例に裏付けされたフェアユースである。
私たちはこの原則を、クリエイターにとって公平であり、イノベーターにとって必要であり、米国の競争力にとって不可欠なものだと考えている。
しかし、「クリエイターを支援し、力を与えるためには、まだやるべきことがある」とOpenAIは言う。OpenAIは、個々のパブリッシャーへのサポートと、学習用データクローリングボットをブロックする機能を指摘している。GPT-4は、この機能が利用可能になる前に訓練されたものであるため、この議論は将来のAIモデルにのみ関連する。
著作権物利用の対価はどこに?
OpenAIの主張は、コンテンツクリエイターの批判が、著作権で保護された素材をAIがトレーニングすること自体に向けられたものではないことが多いという点を見逃しているも指摘されている。それは主に、著作権で保護された素材に対する無報酬のトレーニングに向けられている。
OpenAIは声明の中で、ライセンスされたトレーニング素材も使用していることを指摘している。しかし、それこそが論争の的でもある。著作権者が述べているのは、そのデータ利用に対する対価だ。
英国委員会への書簡の中で、OpenAIは、生成AIビジネス全体を停止させる可能性のある関連コストには触れていない。
Sources
- OpenAI—written evidence (LLM0113) [PDF]
- The Telegraph: OpenAI warns copyright crackdown could doom ChatGPT
コメントを残す