OpenAIのGPT-4のパラメータ数が驚異の1兆超えである可能性が専門家より報告される

驚くべき事実として、OpenAIの最新の大規模言語モデルGPT-4は、驚異的な1兆7,600億のパラメータを持つことが報告されている。信頼できる情報源に基づくこの情報は、この新しいモデルの驚異的な能力と人工知能の未来を垣間見せてくれる。

GPTモデルの進化

OpenAIは言語モデル開発の最前線に立ち、2018年に最初のGenerative Pretrained Transformer（GPT）を発表した。その後のモデルであるGPT-2とGPT-3はそれぞれ2019年と2020年にリリースされ、そのたびにパラメータサイズが大きくなっている。言語モデルのパラメータサイズは、予測生成とクエリ解決の能力を定義する重要な要素だ。

GPT-1は1億1700万パラメータで始まり、GPT-2は15億、GPT-3は1750億パラメータを誇った。現在、GPT-4は1兆7,600億のパラメータを持つと報告されており、AIアプリケーションの広範な発展と進歩を示す大きな飛躍を遂げた。

GPT-4に関する情報は、自律走行スタートアップであるComma.aiの創設者、George Hotz氏によるものだ。Hotz氏はAIの専門家であり、他のAI専門家もHotz氏のツイートにコメントしており、彼の情報は真実である可能性が非常に高いと述べている。

i might have heard the same ? — I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.

Though, at this point, GPT-4 is… https://t.co/mfsK7a6Bh7
— Soumith Chintala (@soumithchintala) June 20, 2023

Mixture of Expertsアーキテクチャ

興味深いことに、GPT-4は「MoE（Mixture of Experts）アーキテクチャ」をベースにしていると言われている。

このアーキテクチャは、各モデルをエキスパートモデルとも呼ばれる異なるコンポーネントにする。これらのモデルはそれぞれ、特定の目的や分野に合わせて微調整されており、その特定の分野に対してより良い回答を提供することができる。そして、すべてのエキスパート・モデルが連携し、MoEモデルにおける各エキスパートの出力の重みを決定し、エキスパート・モデルの集合知を活用した完全なモデルが完成する。

このアプローチには多くの利点がある。ひとつは、モデルがさまざまなテーマについて微調整されるため、より正確な回答が得られることだ。また、MoEアーキテクチャは更新が容易である。モデルの保守者は、モノリシックなモデルを更新するのとは対照的に、モジュール方式でモデルを改良することができるからだ。

Hotz氏はまた、このモデルはより良いアウトプットのために反復推論のプロセスに依存しているのではないかと推測している。このプロセスを通じて、モデルの出力、つまり推論結果は、何度も繰り返されることで洗練されていく。

またこの方法によって、GPT-4はそれぞれのエキスパートモデルからインプットを得ることができ、モデルによる幻覚を減らすことができるかもしれない。Hotz氏は、このプロセスは16回行われる可能性があり、モデルの運用コストが大幅に増加すると述べた。

より大きなモデルの影響

パラメータサイズの増加は印象的だが、パラメータの総数が必ずしも言語モデルの全体的な性能に影響を与えるわけではないことに注意することが重要だ。パラメータ数の多いモデルが常に最高の性能を発揮するとは限らない。例えば、5,000億以上のパラメータを持つMegatron-Turing NLGは、重要ではあるがベストパフォーマーではない。

さらに、より大きなモデルの微調整にはコストがかかる。GPT-3の学習コストはすでに高かったため、GPT-4のモデル・サイズの大幅な増加は、自然言語処理、AI研究、テキスト要約、言語翻訳に大きな影響を与える可能性がある。

また、MoEアーキテクチャはOpenAIの悩みの種になっているようだ。現在は削除されたインタビューの中で、OpenAIのCEOであるSam Altman氏はOpenAIが直面しているスケーリングの問題、特にGPU不足の問題を認めている。

MoEアーキテクチャのモデルで推論を16回実行すると、同様の規模でクラウドコストが増加するのは確実だ。ChatGPTの数百万ユーザー規模に拡大すると、Azureのスーパーコンピューターでさえパワー不足に陥るのは当然だ。これはOpenAIが現在直面している最大の問題の1つのようで、Altman氏はより安価で高速なGPT-4が現時点での最優先事項だと述べている。

この結果、ChatGPTの出力品質の低下も報告されている。インターネット上では、ChatGPT Plusのレスポンスの品質さえも低下していることが報告されている。これを裏付けるかのように、ChatGPTのリリースノートには「より多くのユーザーにサービスを提供するため、無料プランのChatGPTモデルのパフォーマンスを更新しました」と、述べている。同じメモの中で、OpenAIはまた、Plusユーザーは推論速度が最適化されたモデルの “Turbo”バリアントがデフォルトになることをユーザーに知らせた。

GPT-4のリリースは、人工知能分野での新時代を告げるものである。非常に大きなパラメータサイズとMoEアーキテクチャへの依存により、GPT-4は言語モデルが達成できることの限界を押し広げることになるだろう。ただし、OpenAIが直面しているスケーリングの問題は根深く、これを解決するのも容易ではなさそうだ。

Source

The Decoder: GPT-4 is 1.76 trillion parameters in size and relies on 30 year old technology