カーネギーメロン大学(CMU)の最近の研究によれば、Googleの最新の大規模言語モデルであるGemini Proは、ベンチマークにおいてGPT-3.5に遅れをとり、GPT-4にも大きく遅れをとっているという。
この結果は、GeminiのプレゼンテーションでGoogleが提供した情報と矛盾している。この結果は、中立的なベンチマーク機関やプロセスの必要性を強調している。
Gemini Pro、ベンチマークでGPT-3.5に敗北
Google DeepMindのGeminiは、同社の一連の主要言語モデルの最新版である。Geminiチームは、来年初頭にリリース予定の「Ultra」バージョンは、様々なタスクでGPT-4を上回ると主張しているが、同社の主張は額面通りに受け取ることが難しそうだ。
Googleの利用可能な最新の大規模言語モデルGemini Proは、OpenAIのGPT-3.5と同等かそれ以上だと主張されていた。しかし、CMUの調査によると、Gemini Proは、調査時にテストされたすべてのベンチマークでOpenAIのGPT-3.5 Turboよりもパフォーマンスが悪かった。
いくつかの不一致は、Googleの保護メカニズムに起因している可能性があり、MMLU評価でモデルがいくつかの質問に答えられなかった。これらの欠落した回答は、各モデルで不正解として採点された。
しかし、研究者たちは、Gemini Proが、形式論理学や初等数学のタスクで必要とされる基本的な数学的推論の分野では、成績が悪いことも発見した。
科目別では、Gemini ProがGPT-3.5を上回ったのは、安全保障研究と高校ミクロ経済学のみであった。他のすべてのカテゴリーでは遅れをとったという。
GoogleはGemini ProのMMLU 5-ShotとChain of Thought(CoT)のスコアをそれぞれ71.8と79.13と報告したが、CMUの研究者はそれぞれ64.1と60.6と報告している。Googleが報告したBig Bench Hardベンチマークのスコアは75.0であったのに対し、CMUの研究者は65.6であった。これらは有意な差であるが、その原因はまだ不明である。
中立的なモデルベンチマークの必要性
本研究の結果は、大企業の自己申告によるベンチマークのみを使用することは、LLMのパフォーマンスの信頼できる尺度ではないことを示している。
また、GPT-3.5を搭載したOpenAI(無料のChatGPTの背後にあるモデル)は、依然としてGoogle、ひいてはGoogle Bardを大きく引き離している。そして、GoogleによればGPT-4よりも優れているはずのGemini Ultraの最初の中立的なベンチマークも、あまり芳しくないようだ。
いずれにせよ、Googleが最善を尽くしてもOpenAIに確実に追いつくことさえできていないことは、AI業界にとって良いニュースではない。
Gemini Proモデルは、モデル・サイズとクラスにおいてGPT 3.5 Turboに匹敵するが、性能面では概してGPT 3.5 Turboに匹敵するがやや劣り、GPT 4よりはるかに悪い精度を達成します。
特に、Gemini ProはGPT 3.5 Turboよりも平均的にやや劣っていましたが、特に、多肢選択問題における回答順序の偏り(注:モデルがA、B、C、Dのいずれかを選択しなければならない場合、通常はDを選択しました)、桁数の大きな数学的推論、エージェントタスクの早期終了、および積極的なコンテンツフィルタリングによる回答の失敗という問題がありました。
一方、明るい点もありました:Geminiは、特に長くて複雑な推論タスクではGPT3.5 Turboよりも優れた結果を示し、また、回答がフィルタリングされないタスクでは多言語に堪能でした。
この研究では、おそらくGPT-4 Turboの最初のMMLUベンチマークも示されている。これによると、最新のOpenAIモデルは、重要な言語理解ベンチマークにおいて、オリジナルのGPT-4に大きく遅れをとっている(GPT-4 Turbo 80.48 対 GPT-4 86.4)。
この結果は、実世界での使用による最初の報告によって部分的に確認されている。一方、GPT-4 Turboは現在、チャットボット分野で圧倒的に評価の高いモデルだ。このことは、ベンチマークは限られた価値しかないことを示している。
論文
参考文献
研究の要旨
最近リリースされたGoogle Geminiクラスのモデルは、様々なタスクにおいてOpenAI GPTシリーズに匹敵する結果を包括的に報告した最初のモデルである。本論文では、Geminiの言語能力を徹底的に調査し、2つの貢献を行う。第一に、OpenAI GPTとGoogle Geminiモデルの能力を、再現可能なコードと完全に透明な結果を用いて、第三者による客観的な比較を提供する。2つ目は、結果を詳しく見て、2つのモデルクラスのどちらかが優れている分野を特定することだ。推論、知識ベースの質問への回答、数学の問題の解決、言語間の翻訳、コードの生成、命令に従うエージェントとしての行動など、様々な言語能力をテストする10のデータセットに対してこの分析を行う。この分析から、Gemini Proは、ベンチマークを行ったすべてのタスクにおいて、対応するGPT 3.5ターボに近いがわずかに劣る精度を達成していることがわかった。さらに、桁数の多い数学的推論の失敗、多肢選択式の解答順序に対する敏感さ、積極的なコンテンツフィルタリングなど、この性能不足のいくつかについて説明する。また、非英語言語への生成や、より長く複雑な推論チェーンの処理など、Geminiが比較的に高いパフォーマンスを示す分野も特定する。再現のためのコードとデータは、このURLで見ることができる。
コメントを残す