今知っておくべきオープンソース大規模言語モデル一覧

この数ヶ月、大規模言語モデル（LLM）の話題を聞かない日はない程だ。世界を大きく変えると言われるChatGPTの登場から、最新のGPT-4の登場、そしてより大きく、より優れたリソースの探求は終わりを告げていない。そこで、ここではこれまでに登場したオープンソースのLLMを一挙に紹介しよう。

Dolly & Dolly 2.0

Databricksは、Dollyのリリースから数週間で、APIアクセスや第三者とのデータ共有に支払いを必要としない商用利用可能なモデル、Dolly 2.0を発表した。このモデルは、これまでChatGPTの出力でトレーニングされていた大規模な言語モデルをめぐる法的な曖昧さを解決する可能性があるものである。

BLOOM

Hugging Faceがリリースしたのは、世界最大のオープンソース大規模言語モデル「BLOOM」だ。世界中から集まった1,000人の優秀な頭脳の共同作業により、BigScienceはBLOOMを誕生させた。

GLM-130B

このモデルは、様々なベンチマークでGPT-3や中国語最大のモデルを印象的に上回り、まさにゲームチェンジャーと言えるだろう。しかし、それだけではなく、手頃な価格のGPUで効率的な推論を可能にする独自のスケーリング特性も誇っている。さらに素晴らしいのはモデルの重み、コード、トレーニングログが全て公開されていることだ。

GPT-Neo, GPT-NeoX & GPT-J

自然言語処理（NLP）の領域では、GPT-Neo、GPT-J、GPT-NeoXの各モデルが相次いで登場し、強力なツールを提供する。

EleutherAIは、OpenAIが鍵をかけて管理していたGPT-3をオープンソースとして公開し、これらのモデルを作成した。GPT-JとGPT-Neoは、様々なドメインにまたがる言語データのコレクションである強大なPileデータセットで学習され、様々な自然言語処理タスクに汎用的に適応できるようになっている。

GPT-NeoXは、Megatron-LMとMetaのDeepSeedを土台に、GPUの利用で輝くためのモデルだ。200億もの膨大なパラメータを持つこのモデルは、公開されているモデルの中では最大規模となる。GPT-NeoXは、少数精鋭学習の限界をさらに押し広げる概念実証だ。

GPT-2

GPT-2は、偽情報、スパム、フェイクニュースを拡散する可能性があるとの懸念から、当初9ヶ月間公開を控えていたが、OpenAIはテスト目的で、より小さく複雑でないバージョンを公開した。OpenAIは、「悪用された強い証拠はない」と報告し、その結果、GPT-2のフルモデルを使用できるようにしている。

Google AIは、パラメータ数の多寡が注目を集めるLLMレースにおいて、この「大きければ大きいほど良い」という仮定に異を唱えるものだ。この研究では、より大きな言語モデルの方が、過去のタスクからより効果的に学習できるため、より効果的であることを発見した。これに基づいてGoogleが作ったPaLM（Pathways Language Model）は、5,400億のパラメータを持つ、デコーダのみのTransformerモデルとなる。