GPT-4がついに王座陥落、AnthropicのClaude 3がベンチマークで1位に輝く

masapoco
投稿日 2024年3月28日 10:11
854f82b63ec3ff5c24f3787df5d0afc3

ベンチマーク・プラットフォーム「チャットボット・アリーナ」のリーダーボードにおいて、これまで長い間王座を守ってきたOpenAIのGPT-4が、ついにその座を明け渡したようだ。先日Anthropicが発表した「Claude 3」シリーズの高性能モデル「Claude 3 Opus」がGPT-4を抑えて1位に輝くと言う快挙を成し遂げたことが報告されている。

GPT-4に代表される大規模言語モデルとそれを使用するChatGPTなどのチャットボットの客観的な評価は難しい。事実誤認や文法エラー、処理速度を数える以外に、世界的に認められた客観的な評価基準はない。そこで、カリフォルニア大学バークリー校、カリフォルニア大学サンディエゴ校、カーネギーメロン大学の研究者らは、大規模言語モデルの相対的な能力を測定するための組織、LMSYS Organg(または単にLMSYSと呼ばれる)を結成した。

チャットボット・アリーナ(Chatbot Arena)は、大規模言語モデルのパフォーマンスを比較するために、LMSYSによって作成されたベンチマーク・プラットフォームだ。チェスのようなゼロサムゲームでプレイヤーをランク付けするために広く使われているEloレーティングシステムを採用し、アリーナでは、さまざまなモデルが無作為に秘密裏に対戦する。ユーザーはモデルを評価し、最も気に入った答えに投票する。このため、ランキングはユーザーの好みに基づいているため、非常に有用と判断される。

GPT-4は昨年のリリース以来、チャットボット・アリーナで1位の座を守り続けていた。その後に登場したLLMについて評価する際も、「GPT-4」並みと表現されるなど、業界のゴールドスタンダードにさえなっている。しかし先日、AnthropicのClaude 3 Opusが1253対1251という僅差でGPT-4を破ったことで、OpenAIのLLMがついにトップの座を追われた。この勝敗は非常に僅差だったため、誤差の範囲では、GPT-4の別のプレビュービルドと、Claude 3とGPT-4が三つ巴の1位タイとなっている。

さらに印象的なのは、Claude 3 Haikuのトップ10入りだろう。HaikuはAnthropicの「ローカルサイズ」モデルで、GoogleのGemini Nanoに匹敵する。何兆ものパラメータを持つOpusよりも指数関数的に小さく、その性能とコストを考えればGPT-4よりはるかに優れており、コストはGPT-4の約10倍安く比較するとはるかに高速だ。LMSYSによると、Haikuはリーダーボードの7位に入り、GPT-4クラスに昇格した。

Anthropicはおそらく長くトップの座を維持することはないだろう。リークによれば、OpenAIは早ければ今夏にもGPT-4.5もしくはGPT-5となる「よりスマートな」モデルを発表する可能性があるという。新しいLLMモデルはGPT-4より飛躍的に優れており、特定のタスクを実行するために複数の「外部AIエージェント」を採用しており、複雑な問題をより速く確実に解決できるはずとのことだ。


Sources



この記事が面白かったら是非シェアをお願いします!


  • amazon anthropic
    次の記事

    Amazon、AIスタートアップのAnthropicに“現金”27億5千万ドルを投資

    2024年3月28日 10:32
  • 前の記事

    ユークリッド宇宙望遠鏡の除氷が成功し、視界が回復した

    2024年3月28日 7:11
    Euclid looking into the Universe

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事