Redditは、「大手AI企業」と年間6,000万ドルの契約を結び、同プラットフォームのコンテンツをAIモデルのトレーニングに使用する事を許可したようだ。
Bloombergによると、Redditは、今後計画されている新規株式公開(IPO)に先立ち、潜在的な投資家に対して事前にこのことを伝えたとのことだ。Bloombergは、Redditのコンテンツにアクセスするために多額の対価を支払っている “大手AI企業”の名前を特定していないが、この契約はどうやら今後の契約のモデルとなる可能性がある。
他のソーシャルメディア・プラットフォームも、この方法でユーザー・コンテンツを販売し、追加収入を得ることができる。これは、広告収入に依存してきたプラットフォームにとっては、新たな収入源となる可能性もありそうだ。ちなみに、MetaとXは、既に自社で運営するソーシャルメディア・データを自社のAIモデルのトレーニングに利用している。
Redditは、早ければ来月にも50億ドルの評価額で上場する可能性がある。Bloombergが指摘するように、同サイトはAI企業との取引を通じて大金を稼ぎ、収益を拡大できることを示すことで、まだ迷っている投資家たちを説得し、株式公開に踏み切る可能性がある。
生成AI技術を支える企業は、様々な提携を通じて大規模言語モデル(LLM)やその他のモデルの更新に取り組んでいる。例えばOpenAIはすでに、自社のAIモデルを訓練するためにBusiness InsiderやPoliticoの記事を使用する権利を与える契約を結んでいる。また、CNN、Fox Corp、Timeなど複数の出版社とも交渉中だとBloombergは伝えている。
今回、AI企業がRedditとの提携を結んだ事は大いに予想された動きだ。既に、OpenAIのGPT-3.5やGPT-4、MetaのLLaMa、GoogleのモデルのようなLLMのトレーニングにおいて、Redditは大きな役割を果たすと見られている。それは、Redditの投稿から良質なデータが得やすいからだ。
Redditの多くの投稿は、同プラットフォームのアップボート・ダウンボート機能によって、すでに人間による評価を得ており、事前のソートが容易になっている。また、投稿にはさらに文脈リンクが含まれている。この2つの要素が、AI企業にとって貴重なデータとなる。
これまでのモデルは、無料でRedditのデータを使ってトレーニングされていた。だが、Redditは2023年4月に、APIを通じてユーザーデータにアクセスしたい企業に課金を開始している。当時は、小規模な顧客でも支払えるように、価格は段階的に分けられると述べていた。企業は、さまざまなトピックに関するRedditの投稿やコメント(その多くは過去18年間に実在の人物によって書かれたものだ)をチャットボットに学習させるために、このAPIアクセスを必要としている。
「Redditのコーパスのデータは本当に貴重です。しかし、その価値のすべてを無料で世界最大級の企業に提供する必要はありません」と、Redditの共同設立者であるSteve HuffmanはThe New York Times紙に語っている。
将来のAIモデルをトレーニングするためのこうしたライセンスコストの上昇は、Redditだけでなく他のテキストソースにも影響を与える。
AI企業は、モデルを訓練するためのデータを得るために出版社と提携することが増えている。前述のOpenAIの他にも、AppleやGoogleも、出版社とライセンス契約を締結していると言われている。
Metaは、米国著作権局への提出書類の中で、純粋にライセンスされた素材でAIを訓練することは、必要とされる規模では法外な費用がかかると説明している。また、OpenAIは英国政府に対し、最先端のAIモデルの開発は、ライセンスされた素材での訓練なしには不可能であると述べている。
Source
コメントを残す