Intel Gaudi2チップが機械学習トレーニングでのNVIDIA GPU一強を終わらせる存在になり得るかも知れない

masapoco
投稿日 2023年6月28日 11:52
gaudi2 mezzanine card

MLCommonsは、MLPerfトレーニング3.0ベンチマークの最新結果を発表した。このベンチマークは、機械学習(Machine Learning: ML)モデルのトレーニング性能に関する業界標準の測定セットを提供することを目的としているものだ。MLCommonsは、AIの開発を加速するためのMLベンチマーク、データセット、ベストプラクティスに焦点を当てたオープンなエンジニアリングコンソーシアムであり、MLPerf推論を含む一連のMLベンチマークを提供している。

この結果の興味深い点は、これまでNVIDIAの一強だったこの分野に、IntelのGaudi2チップが存在感を表してきている点だ。ここ数週間のNVIDIAの株価高騰は、大規模言語モデル(LLM)のトレーニングにおいて、同社のGPUが人気のあるLLMのほとんどを訓練するために使用されているため、その需要に後押しされる形での結果だ。しかし、IntelのGaudi2チップが、今やNVIDIAのGPUに代わる唯一の現実的な選択肢であり、今回のベンチマークはそれを証明する物である。

Intel Gaudi2はNVIDIA A100(FP16)と同程度の価格/性能で、FP8負荷では9月までにH100を打ち負かす見込み

現在のLLMの中心的存在はChatGPTであり、これはGPT3.5をベースにしている。そして、GPT3.5はGPT-3をベースにしている。有料のChatGPT PlusはGPT-4をベースにしているが、GPT-4に関する情報は非常に少なく、ベンチマークも存在しない。そのため、GPT-3を十分な精度でトレーニングする(または損失関数を減らす)ことが、トレーニング用CPU/GPUとして何を使うかを決定する際に最も重視される点で、そのベンチマークとなる物がMLPerfだ。これまでは、この分野でNVIDIAのH100 GPUが絶対的な支配者であったが、ついに代替手段が登場した:それが、Intel Gaudi2だ。

Intelは、FP16ワークロードにおいてGaudi2がA100よりも価格性能比が優れていると主張しており、9月までに(FP8ワークロードにおいて)NVIDIAのH100を上回ることを目標としている。これはかなり野心的な目標だが、同社にはこれを裏付けるベンチマークがある。以下は、その結果の簡単な概要である:

  • Gaudi2は、GPT-3で驚異的なtime-to-trainを達成した:384のアクセラレータで311分。
  • GPT-3モデルにおいて、256から384アクセラレータまで95%のほぼ直線的なスケーリングを実現。
  • コンピュータビジョン(ResNet-50 8アクセラレータおよびUnet3D 8アクセラレータ)および自然言語処理モデル(BERT 8アクセラレータおよび64アクセラレータ)において優れたトレーニング結果を達成。
  • BERTとResNetモデルの性能は、11月に提出されたものと比較して、それぞれ10%と4%向上しており、Gaudi2ソフトウェアの成熟度が高まっていることを証明している。
  • Gaudi2の結果は “out of the box”で提出された。これは、顧客がGaudi2をオンプレミスまたはクラウドで実装する際に、同等のパフォーマンス結果を達成できることを意味する。

NVIDIAのエントリーは、GPT-3を45分でトレーニングすることができるが、はるかに多くのGPUを使用している。結局、適切な比較を行う唯一の方法は、TCOを使用し、正確なコストとTDP/熱の制約を知ることだろう。しかし、この分野では需要が供給をはるかに上回っているため、そのすべては関係ないかもしれない。NVIDIAのGPUは飛ぶように売れるだろうが、その供給は限られており、市場はLLMをトレーニングできるシリコンに飢えている。

Intelはまた、Xeon PlatinumクラスのCPUの結果も発表した。このCPUは現在、GPT-3で10時間強という、LLMトレーニングのMLPerfサブミッションで最高のパフォーマンスを発揮している。結果のハイライトは以下の通り:

  • クローズド部門では、第4世代XeonはBERTおよびResNet-50モデルをそれぞれ50分未満(47.93分)、90分未満(88.17分)でトレーニングすることができた。
  • オープン部門のBERTでは、Xeonは16ノードにスケールアウトした場合、約30分(31.06分)でモデルを訓練できたことを示している。
  • より大規模なRetinaNetモデルの場合、Xeonは16ノードで232分の時間を達成することができ、顧客は、午前中、昼食後、または夜間に、オフピークのXeonサイクルを使用してモデルを柔軟にトレーニングすることができる。
  • Intel Advanced Matrix Extensions(Intel AMX)を搭載した第4世代Xeonは、複数のフレームワーク、エンドツーエンドのデータサイエンス・ツール、スマート・ソリューションの幅広いエコシステムにまたがる、すぐに使える大幅なパフォーマンス向上を実現する。

Sources



この記事が面白かったら是非シェアをお願いします!


  • ancient human cannibal
    次の記事

    遙か昔、人類の祖先は共食いをしていたかもしれない

    2023年6月28日 13:25
  • 前の記事

    ストックホルムに “世界最大の木造建築都市”が建設へ

    2023年6月28日 10:37
    20230612 hla sickla 02 terrace

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事