2026年までにAIトレーニングのためのデータが不足すると研究者が警告、対策はあるのか？

人工知能（AI）の普及がピークに達するなか、研究者たちは、強力なAIシステムを動かす燃料である学習データが不足する可能性があると警告している。これはAIモデル、特に大規模な言語モデルの成長を鈍らせ、AI革命の軌道を変える可能性さえある。

しかし、ウェブ上にどれだけのデータがあるかを考えると、なぜ潜在的なデータ不足が問題になるのだろうか？また、そのリスクに対処する方法はあるのだろうか？

AIにとって高品質なデータが重要な理由

強力で正確、かつ高品質なAIアルゴリズムを学習させるには、多くのデータが必要だ。例えば、ChatGPTは570ギガバイト、約3000億語のテキストデータで学習された。

同様に、Stable Diffusionアルゴリズム（DALL-E、Lensa、Midjourneyなど多くのAI画像生成アプリを支えている）は、58億の画像とテキストのペアからなるLIAON-5Bデータセットで訓練された。アルゴリズムが不十分な量のデータで訓練された場合、不正確または低品質の出力を生成することになる。

学習データの質も重要である。ソーシャルメディアの投稿や不鮮明な写真のような低品質なデータは入手しやすいが、高性能なAIモデルを訓練するには十分ではない。

ソーシャルメディア・プラットフォームから取得したテキストは、偏見や偏見に満ちている可能性があり、偽情報や違法なコンテンツが含まれている可能性もある。例えば、MicrosoftがTwitterのコンテンツを使ってAIボットを訓練しようとしたところ、人種差別的で女性差別的な出力を生成することを学習した。

そのためAI開発者は、書籍、オンライン記事、科学論文、Wikipedia、フィルタリングされた特定のウェブコンテンツのテキストなど、質の高いコンテンツを求めている。Googleアシスタントは、セルフパブリッシングサイトSmashwordsから取り出した11,000冊のロマンス小説で訓練され、より会話に適したものになった。

データは十分か？

AI業界は、より大規模なデータセットを使ってAIシステムをトレーニングしてきた。

昨年発表された論文で、研究者グループは、現在のAIトレーニングの傾向が続けば、2026年までに高品質のテキストデータが枯渇すると予測した。また、低品質の言語データは2030年から2050年の間に、低品質の画像データは2030年から2060年の間に枯渇すると推定している。

会計・コンサルティンググループのPwCによると、AIは2030年までに世界経済に最大15.7兆米ドル貢献する可能性があるという。しかし、使用可能なデータが不足すれば、その発展が遅れる可能性がある。

心配すべきなのか？

上記の点は一部のAIファンを不安にさせるかもしれないが、状況は見た目ほど悪くないかもしれない。AIモデルが今後どのように発展していくかについては未知の部分が多いし、データ不足のリスクに対処する方法もいくつかある。

そのひとつは、AI開発者がアルゴリズムを改善し、すでにあるデータをより効率的に利用できるようにすることだ。

今後数年のうちに、より少ないデータ、場合によってはより少ない計算能力で、高性能なAIシステムを訓練できるようになるだろう。これは、AIの二酸化炭素排出量を減らすことにもつながるだろう。

もうひとつの選択肢は、AIを使ってシステムを訓練するための合成データを作成することだ。つまり、開発者は必要なデータを、特定のAIモデルに合わせてカスタマイズして生成するだけでいいのだ。

すでにいくつかのプロジェクトが、Mostly AIなどのデータ生成サービスから入手した合成コンテンツを使用している。これは今後より一般的になるだろう。

開発者はまた、大規模な出版社やオフラインのリポジトリが保有するような、無料のオンライン空間以外のコンテンツも探している。インターネットが普及する前に出版された何百万ものテキストについて考えてみよう。デジタルで利用できるようになれば、AIプロジェクトに新たなデータ源を提供できるだろう。

世界最大級のニュース・コンテンツ所有者であるニューズ・コーポレーション（同社はコンテンツの多くを有料で提供している）は最近、AI開発者とコンテンツ取引について交渉していると述べた。このような取引は、AI企業に学習データへの支払いを強いることになる（これまでは、ほとんどがインターネットから無料でデータをかき集めていた）。

コンテンツ制作者たちは、AIモデルを訓練するために自分たちのコンテンツが無許可で使用されることに抗議しており、Microsoft、OpenAI、Stability AIといった企業を訴える者もいる。彼らの仕事に対して報酬が支払われることは、クリエイターとAI企業の間に存在する力の不均衡を回復するのに役立つかもしれない。

本記事は、Rita Matulionyte氏によって執筆され、The Conversationに掲載された記事「Researchers warn we could run out of data to train AI by 2026. What then?」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。