TumblrとWordPressの投稿がOpenAIやMidjourneyのトレーニング向けに販売されるかもしれない

TumblrとWordPress.comを運営するAutomatticは、ユーザーの投稿データをAIモデルの訓練に役立つ学習データとして提供する契約について、AI企業のMidjourneyとOpenAIと交渉中である事が404 Mediaによって報じられている。

匿名の内部情報筋からのリークに基づくこのレポートは、Automatticと2つのAI企業との取引が”間近に迫っている”と伝えている。OpenAIらとの契約がTumblrにとって新たな収入源を提供する可能性を示唆している。

どのデータが含まれるかは明らかではないが、報道はAutomatticが当初、過剰な要求をした可能性を示唆している。TumblrのプロダクトマネージャーであるCyle Gage氏の内部投稿によると、Automatticは取引に含まれるはずのないプライベートなデータやパートナー関連のデータを送る準備をしていたようだ。疑わしいコンテンツには、公開されているブログ記事へのプライベートな投稿、削除または停止されたブログ、未回答の（したがって公開されていない）質問、プライベートな回答、露骨とマークされた投稿、プレミアムパートナーブログ（アップルの旧音楽サイトなど）のコンテンツが含まれていたと報告されている。

この内部投稿は、Automatticのエンジニアが除外されるべき投稿IDのリストを準備していることを示唆している。データがすでにAI企業に送られていたかどうかは不明だ。

Automattic社は新しいオプトアウト・ツールを発表する予定だと報じられている。このツールは、ユーザーがAI企業を含む第三者によるデータ学習をブロックできるようにするものだ。404 Mediaは、Automattic社がこのツールのために作成したとされる内部FAQを確認した。そこには、「最初からオプトアウトする場合は、あなたのサイトをアクセス禁止リストに追加することで、クローラーがあなたのコンテンツにアクセスするのをブロックします。また、後で気が変わった場合は、新たにオプトアウトした人に関するすべてのパートナーを更新し、そのコンテンツを過去のソースや今後のトレーニングから削除するよう依頼する予定です」と、記されているようだ。

AutomatticのAI責任者であるAndrew Spittle氏が、このツールを使用する際のデータ削除の保証に関するスタッフの質問に答えたとされる内部文書には、次のように説明されている。「現在の嗜好に基づいて、過去のコンテンツが除外されるよう定期的に提唱する継続的なプロセスにしたい。私たちはコンテンツを削除し、今後のトレーニングから除外するよう要請します。これまでのパートナーとの会話から、パートナーはこれを守ってくれると信じている。このコンテンツを保持することで、全体として得るものはあまりないと思います」。

多くの企業がAIツールメーカーと契約を結び、学習データを提供している。学習データはこれまで、一般に公開されているオンラインデータから収集されてきたが、近年は法的リスクが高まっている。RedditはGoogleと年間6,000万ドルの契約を結んでいると報じられ、ShutterstockはOpenAIと契約を結び、同社のフォトライブラリーで学習を行っている。しかし、多くのアーティストや作家、言い換えれば、特にTumblrが対象としているクリエイティブなコミュニティは、自分たちの作品がトレーニングに使われることに抗議している。企業はユーザーを満足させることと、新しいAIツールの実験との間で一線を画すことに苦心しており、この技術に手を出したDeviantArtのようなオンラインスペースに対する反発につながっている。

今のところ、どのような取引が行われるのか、またそれによってAutomatticがどれだけの利益を得ることになるのかについての情報は少ない。同社は、オープンソースのWordPressソフトウェアで構築されたWordPress.comとWordPress VIPで、長年ウェブホスティング事業を展開している。

Source