Intel Gaudi2チップが機械学習トレーニングでのNVIDIA GPU一強を終わらせる存在になり得るかも知れない

MLCommonsは、MLPerfトレーニング3.0ベンチマークの最新結果を発表した。このベンチマークは、機械学習（Machine Learning: ML)モデルのトレーニング性能に関する業界標準の測定セットを提供することを目的としているものだ。MLCommonsは、AIの開発を加速するためのMLベンチマーク、データセット、ベストプラクティスに焦点を当てたオープンなエンジニアリングコンソーシアムであり、MLPerf推論を含む一連のMLベンチマークを提供している。

この結果の興味深い点は、これまでNVIDIAの一強だったこの分野に、IntelのGaudi2チップが存在感を表してきている点だ。ここ数週間のNVIDIAの株価高騰は、大規模言語モデル（LLM)のトレーニングにおいて、同社のGPUが人気のあるLLMのほとんどを訓練するために使用されているため、その需要に後押しされる形での結果だ。しかし、IntelのGaudi2チップが、今やNVIDIAのGPUに代わる唯一の現実的な選択肢であり、今回のベンチマークはそれを証明する物である。

Intel Gaudi2はNVIDIA A100（FP16）と同程度の価格/性能で、FP8負荷では9月までにH100を打ち負かす見込み

現在のLLMの中心的存在はChatGPTであり、これはGPT3.5をベースにしている。そして、GPT3.5はGPT-3をベースにしている。有料のChatGPT PlusはGPT-4をベースにしているが、GPT-4に関する情報は非常に少なく、ベンチマークも存在しない。そのため、GPT-3を十分な精度でトレーニングする（または損失関数を減らす）ことが、トレーニング用CPU/GPUとして何を使うかを決定する際に最も重視される点で、そのベンチマークとなる物がMLPerfだ。これまでは、この分野でNVIDIAのH100 GPUが絶対的な支配者であったが、ついに代替手段が登場した：それが、Intel Gaudi2だ。

Intelは、FP16ワークロードにおいてGaudi2がA100よりも価格性能比が優れていると主張しており、9月までに（FP8ワークロードにおいて）NVIDIAのH100を上回ることを目標としている。これはかなり野心的な目標だが、同社にはこれを裏付けるベンチマークがある。以下は、その結果の簡単な概要である：

Gaudi2は、GPT-3で驚異的なtime-to-trainを達成した：384のアクセラレータで311分。
GPT-3モデルにおいて、256から384アクセラレータまで95%のほぼ直線的なスケーリングを実現。
コンピュータビジョン（ResNet-50 8アクセラレータおよびUnet3D 8アクセラレータ）および自然言語処理モデル（BERT 8アクセラレータおよび64アクセラレータ）において優れたトレーニング結果を達成。
BERTとResNetモデルの性能は、11月に提出されたものと比較して、それぞれ10%と4%向上しており、Gaudi2ソフトウェアの成熟度が高まっていることを証明している。
Gaudi2の結果は “out of the box”で提出された。これは、顧客がGaudi2をオンプレミスまたはクラウドで実装する際に、同等のパフォーマンス結果を達成できることを意味する。

NVIDIAのエントリーは、GPT-3を45分でトレーニングすることができるが、はるかに多くのGPUを使用している。結局、適切な比較を行う唯一の方法は、TCOを使用し、正確なコストとTDP/熱の制約を知ることだろう。しかし、この分野では需要が供給をはるかに上回っているため、そのすべては関係ないかもしれない。NVIDIAのGPUは飛ぶように売れるだろうが、その供給は限られており、市場はLLMをトレーニングできるシリコンに飢えている。

Intelはまた、Xeon PlatinumクラスのCPUの結果も発表した。このCPUは現在、GPT-3で10時間強という、LLMトレーニングのMLPerfサブミッションで最高のパフォーマンスを発揮している。結果のハイライトは以下の通り：

クローズド部門では、第4世代XeonはBERTおよびResNet-50モデルをそれぞれ50分未満（47.93分）、90分未満（88.17分）でトレーニングすることができた。
オープン部門のBERTでは、Xeonは16ノードにスケールアウトした場合、約30分（31.06分）でモデルを訓練できたことを示している。
より大規模なRetinaNetモデルの場合、Xeonは16ノードで232分の時間を達成することができ、顧客は、午前中、昼食後、または夜間に、オフピークのXeonサイクルを使用してモデルを柔軟にトレーニングすることができる。
Intel Advanced Matrix Extensions（Intel AMX）を搭載した第4世代Xeonは、複数のフレームワーク、エンドツーエンドのデータサイエンス・ツール、スマート・ソリューションの幅広いエコシステムにまたがる、すぐに使える大幅なパフォーマンス向上を実現する。

Sources

Habana Labs: New MLCommons Results Highlight Impressive Competitive AI Gains for Intel
MLCommons: MLPerf Results Show Rapid AI Performance Gains