30兆トークンを持つオープンソースデータセット「RedPajama-Data-v2」が登場

Together AIは、言語モデルのトレーニングを促進することを目的としたウェブデータの巨大なリポジトリであるデータセットの最新バージョン、「RedPajama-Data-v2」を発表した。このデータセットは、英語、フランス語、スペイン語、ドイツ語、イタリア語を含む5ヶ国語の84のCommonCrawlデータダンプから入手した100兆を超えるトークンの生プールから綿密にフィルタリングされ、重複排除された30兆という驚異的なトークンを網羅している。

RedPajama-Data-v2は、40以上の事前計算されたデータ品質アノテーションが追加されており、データのフィルタリングや重み付けを行うための貴重なツールとなっている。

RedPajamaの前リリースであるRedPajama-1Tの影響は言語モデルコミュニティにおいて非常に大きなものとなった。この5TBの高品質英語トークンのデータセットは、19万人以上の人々にダウンロードされ、彼らはその可能性を創造的な方法で活用している。

RedPajama-1Tは、言語モデルのトレーニングのためのオープンなデータセットを作成するというゴールへの足がかりとなったが、RedPajama-Data-v2は、30兆トークンという巨大なウェブデータセットによって、この道のりを更に一歩前進させる物だ。

RedPajama-Data-v2は、LLMトレーニングのために特別に作られた最大の公開データセットとして際立っており、この分野に大きく貢献している。最も注目すべき点は、40以上の事前計算された品質アノテーションが導入され、コミュニティがデータセットの実用性を高めることができるようになったことだ。このリリースには、84のCommonCrawlデータダンプから得られた1000億以上のテキスト文書が含まれており、合計100兆以上の生のトークンを構成している。

Together AIによると、このデータセットは、Llama、Mistral、Falcon、MPT、RedPajamaモデルなど、最先端のオープンLLMを発展させるための強固な基盤を提供する。

RedPajama-Data-v2は主にCommonCrawlデータに焦点を当てているが、WikipediaなどのデータソースはRedPajama-Data-v1で利用可能である。データセットをさらに充実させるために、ユーザはコード関連コンテンツ用のStack（by BigScience）と科学論文用のs2orc（by AI2）を統合することが推奨される。RedPajama-Data-v2は、一般に公開されているウェブデータから綿密に作成されており、プレーンテキストのソースデータ、40以上の高品質なアノテーション、重複排除クラスタというコア要素で構成されている。

ソースデータの作成プロセスは、各CommonCrawlスナップショットが、生のデータの完全性を維持する軽い処理アプローチのために選択されたCCNetパイプラインを通過することから始まる。この結果、データ保存という包括的な原則との整合性を維持しながら、1000億の個別のテキスト文書が生成される。

Source