30兆トークンを持つオープンソースデータセット「RedPajama-Data-v2」が登場

masapoco
投稿日 2023年10月31日 14:06
red pajama

Together AIは、言語モデルのトレーニングを促進することを目的としたウェブデータの巨大なリポジトリであるデータセットの最新バージョン、「RedPajama-Data-v2」を発表した。このデータセットは、英語、フランス語、スペイン語、ドイツ語、イタリア語を含む5ヶ国語の84のCommonCrawlデータダンプから入手した100兆を超えるトークンの生プールから綿密にフィルタリングされ、重複排除された30兆という驚異的なトークンを網羅している。

RedPajama-Data-v2は、40以上の事前計算されたデータ品質アノテーションが追加されており、データのフィルタリングや重み付けを行うための貴重なツールとなっている。

RedPajamaの前リリースであるRedPajama-1Tの影響は言語モデルコミュニティにおいて非常に大きなものとなった。この5TBの高品質英語トークンのデータセットは、19万人以上の人々にダウンロードされ、彼らはその可能性を創造的な方法で活用している。

RedPajama-1Tは、言語モデルのトレーニングのためのオープンなデータセットを作成するというゴールへの足がかりとなったが、RedPajama-Data-v2は、30兆トークンという巨大なウェブデータセットによって、この道のりを更に一歩前進させる物だ。

RedPajama-Data-v2は、LLMトレーニングのために特別に作られた最大の公開データセットとして際立っており、この分野に大きく貢献している。最も注目すべき点は、40以上の事前計算された品質アノテーションが導入され、コミュニティがデータセットの実用性を高めることができるようになったことだ。このリリースには、84のCommonCrawlデータダンプから得られた1000億以上のテキスト文書が含まれており、合計100兆以上の生のトークンを構成している。

Together AIによると、このデータセットは、Llama、Mistral、Falcon、MPT、RedPajamaモデルなど、最先端のオープンLLMを発展させるための強固な基盤を提供する。

RedPajama-Data-v2は主にCommonCrawlデータに焦点を当てているが、WikipediaなどのデータソースはRedPajama-Data-v1で利用可能である。 データセットをさらに充実させるために、ユーザはコード関連コンテンツ用のStack(by BigScience)と科学論文用のs2orc(by AI2)を統合することが推奨される。RedPajama-Data-v2は、一般に公開されているウェブデータから綿密に作成されており、プレーンテキストのソースデータ、40以上の高品質なアノテーション、重複排除クラスタというコア要素で構成されている。

ソースデータの作成プロセスは、各CommonCrawlスナップショットが、生のデータの完全性を維持する軽い処理アプローチのために選択されたCCNetパイプラインを通過することから始まる。この結果、データ保存という包括的な原則との整合性を維持しながら、1000億の個別のテキスト文書が生成される。


Source



この記事が面白かったら是非シェアをお願いします!


  • consideration
    次の記事

    なぜ人間はあなたが思っているほど自己中心的ではないのか?

    2023年10月31日 14:31
  • 前の記事

    Samsung、1.4nmプロセスの技術について一部を明かす

    2023年10月31日 13:45
    samsung foundry tenstorrent

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事