Meta、GPT-3より遥かに小型で同等の性能を実現する大規模言語モデル「LLaMA」を発表

MicrosoftやOpenAI、Googleの相次ぐAIチャットボットの話題に埋もれてしまっているが、忘れてはならないのがMeta（Facebook）である。同社はこの分野で、これまでにも重要な研究を行ってきていたし、現在も進行中であり、そして本日、同社が新しい「最先端のAI大規模言語モデル」とする、「LLaMA」をリリースした。

ただし、LLaMAはChatGPTやBingとは異なり、誰もが会話できるオープンなシステムではない。これは、Metaが「この重要で変化の激しい分野でのアクセスを民主化する」ことを期待して共有する研究ツールなのだという。つまり、AI言語モデルの問題点である、偏りや毒性、単純に情報を作り上げる傾向などを、専門家が解明するためのものであるとのことだ。

このため、Meta社はLLaMA（実際には単一のシステムではなく、サイズの異なる4つのモデル）を「研究用途に特化した非商用ライセンス」の下で公開し、大学、NGO、企業の研究所などのグループにアクセスを許可している。

本日、私たちは研究者の研究を進めるために設計された新しい最先端のAI大規模言語モデル「LLaMA」をリリースします。LLMは、テキストの生成、会話、文章資料の要約、そして数学の定理を解いたりタンパク質の構造を予測したりといったより複雑なタスクにおいて、多くの可能性を示してきました。Metaはこのオープンな研究モデルにコミットしており、私たちの新しいモデルをAI研究コミュニティに提供する予定です。
Mark Zuckerberg

LLaMAは、70億から650億のパラメータを持つ、4つの言語モデルで構成されている。これに対し、OpenAIのGPT-3モデル（ChatGPTの基礎となるモデル）は、1750億のパラメータを有している。

LLaMAモデルの2番目に小さいバージョンであるLLaMA-13Bは、OpenAIのGPT-3言語モデルよりも”10倍小さい”にもかかわらず、性能が優れていると、Metaは述べている。

また、最大のLLaMA-65Bは、DeepMindのChenchilla70BやGoogleのPaLM 540Bといった「最高のモデルと競争できる」としている。

Metaは、Common Crawl、Wikipedia、C4といった一般に公開されているデータセットを使用してLLaMAモデルを学習させた。これは、同社がモデルとその重みをオープンソースで公開できる可能性があることを意味する。これは、これまでAI競争においてビッグテックが最も強力なAI技術を独占してきた業界において、劇的な新展開と言えるだろう。

「Chinchilla、PaLM、GPT-3とは異なり、我々は公開されているデータセットのみを使用しているため、我々の仕事はオープンソースに適合し、再現可能です。」と、プロジェクトメンバーのGuillaume Lample氏は述べている。

Today we release LLaMA, 4 foundation models ranging from 7B to 65B parameters.
LLaMA-13B outperforms OPT and GPT-3 175B on most benchmarks. LLaMA-65B is competitive with Chinchilla 70B and PaLM 540B.
The weights for all models are open and available at https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq
— Guillaume Lample (@GuillaumeLample) February 24, 2023

Metaは、LLaMAを「基礎モデル」と位置づけている。これは、OpenAIがGPT-3を基礎としてChatGPTを構築したように、このモデルを基礎として、将来、より洗練されたAIモデルが作られることを意図しているようだ。同社は、LLaMAが自然言語の研究に役立ち、「質問応答、自然言語理解または読解、現在の言語モデルの能力と限界の理解」などのアプリケーションに力を発揮する可能性があることを期待している。

今回のLLaMAの中で最も重要なのは、前述のように、単一のGPU（NVIDIA Tesla V100 GPU）で実行可能でありながら、GPT-3を上回るとされるLLaMA-13Bモデルだろう。GPT-3のようにデータセンターレベルの処理能力を必要とする言語モデルとは異なり、LLaMA-13Bは近い将来、コンシューマレベルのハードウェアでChatGPT並みの性能を実現する扉を開くものだ。

AIでは、パラメータの大きさが大きな問題となる。パラメータとは、機械学習モデルが入力データに基づいて予測や分類を行うために使用する変数のことだが、言語モデルのパラメータ数は、その性能を左右する重要な要素であり、一般に大きなモデルは、より複雑なタスクを処理し、より首尾一貫した出力を生成することができる。しかし、パラメータが多ければ多いほど、より多くのスペースを占め、実行に必要な計算機資源も多くなる。そのため、より少ないパラメータで他のモデルと同じ結果を得ることができれば、それは大きな効率アップにつながる。

つい先日、QualcommがStable Diffusionを独自にAIでカスタマイズすることで、Androidスマートフォン（QualcommのSnapdragon 8 Gen 2搭載機）において、画像生成をデスクトップPC並の速度で行う事に成功しているが、Qualcommが言うように、ポータブルデバイスにおいてAIモデルを実行できる「エッジAI」の時代に繋がる重要な研究は今後も続いていくことだろう。

現在、LLaMAの簡素化されたバージョンはGitHubで利用可能だ。完全なコードと重み（ニューラルネットワークにおける「学習済み」学習データ）を入手するには、Metaは関心のある研究者がアクセスをリクエストできるフォームを提供しており、そちらから希望を出すことが出来る。Metaは現時点では、モデルと重みの広範なリリースの計画を発表していない。

論文

Meta Research: LLaMA: Open and Efficient Foundation Language Models

参考文献

Facebook: Mark Zuckerberg
via NeoWin: Mark Zuckerberg says Meta is releasing LLaMA AI language model for researchers

研究の要旨

我々は、7Bから65Bのパラメータを持つ基礎言語モデルのコレクションであるLLaMAを紹介する。我々は数兆個のトークンを使ってモデルを学習し、独自でアクセスできないデータセットに頼ることなく、一般に入手可能なデータセットのみを用いて最先端のモデルを学習することが可能であることを示している。特に、LLaMA-13BはほとんどのベンチマークでGPT-3（175B）を上回り、LLaMA-65Bは最高のモデルであるChinchilla70BやPaLM-540Bに匹敵する性能を有している。私たちは、すべてのモデルを研究コミュニティに公開している。