NVIDIA、Hugging Faceらが新しいコーディングLLM「StarCoder2」を発表、CPU上でも動作可能な軽量LLM

masapoco
投稿日
2024年3月2日 8:55
starcoder2 banner

ServiceNow、Hugging Face、NVIDIAの3社は、コードを生成するためにローカルで実行できるLLM、「StarCoder2」をリリースした。StarCoder2には、3B、7B、15Bのパラメータを持つ3つの異なるサイズが存在する。フラッグシップモデルであるStarCoder2-15Bは、The Stack v2の4兆以上のトークンと619のプログラミング言語で学習されている。すべてのモデルは、16,384個のトークンのコンテキストウィンドウと4,096個のトークンのスライディングウィンドウアテンションを持つGrouped Query Attentionを使用し、Fill-in-the-Middle目的語を使用して学習されている。

それぞれ、30億パラメータモデル、Hugging Faceによってトレーニングされた70億パラメータモデル、NVIDIAによってNVIDIA NeMoを使用してNVIDIAアクセラレーションインフラストラクチャ上でトレーニングされた150億パラメータモデルの3つのモデルサイズがある。

StarCoder2はBigCodeコミュニティによって構築された。このプラットフォームの背後にあるインスピレーションは、GitHub上の開発者の意思を尊重しつつ、透明性と費用対効果を考慮していることだ。訓練されたソースコードのコレクションは「The Stack v2」と呼ばれ、67.5TBのコードが含まれている。重複を除いたバージョンは32.1TBのコードで、それでもまだ多い。

コーディングのために特別に訓練されたLLMの利点は、パラメータを大幅に小さくできるため、移植性が高くなることだ。StarCoder2の研究論文では、150億パラメータ・モデルは、その2倍のサイズのモデルであるCodeLlama-34Bと一貫して一致するか、それを上回ることさえあると述べられている。StarCoder2の30億パラメータ・モデルでさえ、オリジナルのStarCoderの150億パラメータ・モデルを凌駕している。

小型、中型、大型モデルの違いについては、主にプログラミング言語とトレーニングデータに起因する。最大のモデルには619のプログラミング言語があるが、70億と30億のパラメータモデルでは、これをわずか17に減らしている。その17言語以下の通りだ:

  • C, C++
  • C#
  • Go
  • Java
  • JavaScript
  • Kotlin
  • Python
  • Lua
  • PHP
  • Python
  • R
  • Ruby
  • Rust
  • SQL
  • Shell
  • Swift
  • TypeScript

StarCoder2のコンテキストウィンドウは16,000トークンで、小規模から中規模のコードベースに最適となっている。また、150億パラメータモデルは、HumanEvalベンチマークで46.3%のスコアを達成した。競争力を維持するため、StarCoder2の150億パラメータはDeepSeekCoder-33B(最高のコーディングモデルと広く評価されている)を上回ることはできないが、半分のサイズのモデルとしてはかなり近いものだ。

研究論文の中で、StarCoder2の開発チームは、「モデルの重みを公開するだけでなく、トレーニングデータに関する完全な透明性を確保することで、開発したモデルに対する信頼を高め、他のエンジニアリングチームや科学者が我々の取り組みを基に構築できるようにしたいと考えています」と述べている。

StarCoder2の使い方

StarCoder2はHugging Faceで見ることができ、NVIDIAは自分でモデルをカスタマイズして展開する方法についても説明している。CPU上でもNVIDIAのグラフィックカード上でも実行可能で、RAMの少ないプラットフォームでも実行できるように、より小さなバリエーションが用意されている。これらはすべてPythonを使用してデプロイすることができ、Hugging Faceには各モデルの説明と、自宅のコンピュータで使用する方法が掲載されている。


論文

参考文献

研究の要旨

BigCodeプロジェクトは、コードのための大規模言語モデル(Code LLMs)の責任ある開発に焦点を当てたオープンサイエンス共同研究であり、StarCoder2を紹介する。Software Heritage (SWH)とのパートナーシップにより、私たちはThe Stack v2をSWHのソースコードアーカイブのデジタルコモンズ上に構築する。619のプログラミング言語にまたがるSWHのリポジトリに加え、GitHubのプルリクエスト、Kaggleのノートブック、コードドキュメントなど、その他の高品質なデータソースも厳選している。この結果、最初のStarCoderデータセットよりも4倍大きい学習セットが得られた。3.3兆から4.3兆のトークンに対して3B、7B、15BのパラメータでStarCoder2モデルを学習し、包括的なCode LLMベンチマークセットで徹底的に評価する。我々の小型モデルであるStarCoder2-3Bは、ほとんどのベンチマークで同規模の他のCode LLMを凌駕し、StarCoderBase-15Bも凌駕することがわかった。我々の大型モデルであるStarCoder2- 15Bは、同規模の他のモデルを大幅に上回っている。さらに、このモデルの2倍以上のサイズのCodeLlama-34Bに匹敵するか、上回っています。DeepSeekCoder-33Bは、高リソース言語のコード補完で最高のパフォーマンスを発揮するモデルだが、StarCoder2-15Bは、数学とコード推論のベンチマーク、およびいくつかの低リソース言語で、これを上回ることがわかる。我々は、OpenRAILライセンスの下でモデルの重みを利用可能にし、ソースコードデータのSoftWare Heritage persistent IDentifier (SWHID)を公開することで、学習データに関する完全な透明性を確保している。



この記事が面白かったら是非シェアをお願いします!


  • average
    次の記事

    「平均値」は科学研究に革命をもたらしたが、それへの過度の依存は差別と傷害につながった

    2024年3月2日 9:30
  • 前の記事

    中国Baidu「もう二度と最先端GPUは入手出来ない」

    2024年3月2日 8:23
    baidu logo
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事