New York Times紙がOpenAIを提訴したことは、機械知能の発展に大きな影響を与える可能性がある

1954年、『Guardian』紙の科学特派員は「電子頭脳」について報じた。この頭脳は、航空会社の座席指定などの情報を数秒で検索できる記憶装置を備えていた。

現在では、コンピューターが情報を記憶するという考え方はごく当たり前のことであり、「メモリ」などという言葉の本当の意味について考えることさえない。しかし、1950年代当時、この言葉はほとんどの人にとって目新しく、「電子頭脳」というアイデアは可能性を秘めた重いものだった。

2024年、あなたの電子レンジは、1950年代に脳と呼ばれていたものよりも計算能力が高いが、人工知能の世界は、言語と弁護士に新たな課題を突きつけている。先月、New York Times紙は、人気のあるAIベースのテキスト生成ツールChatGPTの所有者であるOpenAIとMicrosoftに対し、システムのトレーニング（改良）とテストに使用するデータにTimes紙の記事が使用されたとして訴訟を起こした。

両社は、OpenAIがChatGPTを作成するプロセスの一部として彼らのジャーナリズムを使用することで、著作権を侵害したと主張している。そうすることで、自分たちのビジネスを脅かす競合製品を作り出したと訴えている。これまでのところ、OpenAIの対応は非常に慎重だが、同社が発表した声明に概説されている重要な考え方は、オンラインデータの利用は「公正利用」として知られる原則に該当するというものだ。これは、OpenAIが、ChatGPTによって生成されたテキストという作品を、その過程で新しいものに変えているからだと主張している。

この問題の核心は、データ利用の問題である。OpenAIのような企業にはどのようなデータを利用する権利があるのか、また、このような文脈で「変換する」といった概念が本当に意味するものは何なのか。ChatGPTのようなAIシステムやモデルを訓練するデータをめぐるこのような疑問は、依然として熾烈な学問的戦いの場となっている。法律はしばしば業界の動きに遅れをとっている。

もしあなたがAIを使って電子メールに答えたり、仕事を要約したりしているなら、ChatGPTを手段を正当化する目的と見るかもしれない。しかし、それを達成する唯一の方法が、他のすべての人に適用される法律から特定の企業体を免除することであるならば、おそらく私たちは心配しなければならない。

それは、今回のような著作権訴訟をめぐる議論の本質を変える可能性があるだけでなく、社会の法体系のあり方を変える可能性を秘めている。

根本的な疑問

このようなケースは、法制度の将来についての茨の道を投げかけるが、AIモデルそのものの将来にも疑問を投げかける。New York Times紙は、ChatGPTが新聞の長期的な存続を脅かすと考えている。この点について、OpenAIは声明の中で、ジャーナリズムに斬新な機会を提供するために報道機関と協力していると述べている。同社の目標は、「健全なニュースのエコシステムをサポートすること」と「良きパートナーになること」だという。

たとえAIシステムが私たちの社会にとって必要な未来の一部であると信じているとしても、元々訓練されたデータのソースを破壊するのは悪い考えだと思われる。これは、ニューヨーク・タイムズのようなクリエイティブな活動、 George R.R. Martinのような作家、そしてオンライン百科事典Wikipediaにも共通する懸念である。

ChatGPTのようなAIチャットボットの基盤技術である大規模言語モデル（Large Language Models: LLM）に使われているような大規模データ収集の支持者たちは、AIシステムはデータセットから「学習」して新しいものを作り出すことによって、学習したデータを「変換」すると主張している。

事実上、研究者たちは人々が書いたデータを提供し、ユーザーからの実際の質問を扱うときのように、文中の次の単語を推測するようこれらのシステムに求めるということだ。これらの答えを隠したり明らかにしたりすることで、研究者は「はい」か「いいえ」の二値的な答えを提供することができ、AIシステムを正確な予測に向かわせることができる。LLMが膨大な量の文章を必要とするのはこのためだ。

New York Times紙のWebサイトから記事をコピーし、人々にアクセス料を請求するとしたら、（同紙が起こした訴訟で言うところの）「大規模な組織的窃盗」であることにほとんどの人が同意するだろう。しかし、上に示したように、データを利用してAIの精度を向上させることは、これよりも複雑である。

OpenAIのような企業は学習データを保存していないため、データセットに投入されたNew York Timesの記事は実際には再利用されていないと主張する。しかし、このAI擁護に対する反論は、ChatGPTのようなシステムが学習データから逐語的抜粋を「漏らす」可能性があるという証拠があるということだ。OpenAIによれば、これは「まれなバグ」だという。

しかし、これらのシステムは、意図せずとも、学習データの一部を保存・記憶しており、特定の方法でプロンプトが表示されたときに、それを逐語的に再生することができることを示唆している。これは、営利目的の出版物が知的財産を保護するために設置したペイウォールを迂回することになる。

言語の使用

しかし、このようなケースにおける立法への取り組み方に長期的な影響を与えそうなのは、私たちの言葉の使い方である。ほとんどのAI研究者は、AIが実際に行っていることを説明するのに「学習」という言葉を使うのは非常に重く、不正確だと言うだろう。

社会がAI時代への大転換を経験する中で、現行の法律が人々を保護し支援するのに十分かどうかが問われなければならない。既存の著作権で保護された作品の上に、オリジナルとは異なる方法で何かを構築するかどうかは、「変形的利用」と呼ばれ、OpenAIが使用する抗弁である。

しかし、これらの法律は、人々がすでに外の世界に発表されている作品をリミックスしたり、組み替えたり、実験したりすることを奨励するために作られたものだ。同じ法律は、人間の作家が目指すよりも何桁も大きなスピードとスケールで機能する、数十億ドル規模のテクノロジー製品を保護するようには設計されていないのだ。

大規模なデータ収集と使用に関する多くの防衛策の問題点は、英語の奇妙な使い方に依存していることだ。私たちは、AIは「学習する」、AIは「理解する」、AIは「思考する」と言う。しかし、これらは類推であって、正確な技術用語ではない。

1954年、壊れた電卓に相当する現代的なものを見て、人々がそれを「脳」と呼んだように、私たちは全く新しい概念に取り組むために古い言葉を使っているのだ。どのように呼ぼうと、ChatGPTのようなシステムは私たちの脳のようには働かないし、AIシステムは社会の中で人間のような役割を果たさない。

1950年代にコンピューターを理解するために新しい言葉やテクノロジーに関する新しい共通理解を開発しなければならなかったように、2020年代には社会を守るために新しい言葉や法律を開発する必要があるかもしれない。

本記事は、Mike Cook氏によって執筆され、The Conversationに掲載された記事「The New York Times’ lawsuit against OpenAI could have major implications for the development of machine intelligence」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。