Intelは先週、第4世代のXeon Scalableプロセッサ、通称「Sapphire Rapids」を発表した。新たなSapphire Rapidsでは、人工知能と機械学習の改善の拡大を支援するために、全く新しいISA、Advanced Matrix Extensionsなどが導入されたが、AIやHPC、MLでの利用もあるAVX-512命令セットについてのパフォーマンス向上については言及されていなかった。
この命令セットはIntelが開発したもので、これまでIntelの独自技術だったが、AMD Zen4アーキテクチャもライセンスを受けてRyzen 7000シリーズなどでのサポートを開始し、AMDの大きなセールスポイントにもなっている。
Linux関連の情報サイトPhoronixでは、この新しいプロセッサをAMDのGenoaプロセッサーや、Sapphire Rapidsの先輩であるIce Lakeと比較のベンチマークテストを行い、その真実を確かめてくれている。
Phoronixがテストを行ったのは、IntelのXeon 8380、Xeon 8490H、そして、AMDのEPYC 9654となる。
3つのCPUで実施されたテストは、すべて次のようなワークロードでAVXの性能をテストすることに基づいている。
- Neural Magic DeepSparse – ニューラルネットワークに見られるスパース性を利用する CPU ランタイムは、計算量を減らすという副産物をもたらす。
- LCzero – Leela Chess Zeroとしても知られているこのチェスソフトウェアはUCIプロトコルを実装しており、Arena Chess GUI, BanksiaGUI, Cutechess, Nibbler, Chessbaseに似たチェスGUIが必要となる。
- Embree – Intelによって作成された Embree はレイトレーシングのカーネルセットで、フォトリアリスティックレンダリングアプリケーションのパフォーマンスを向上させるためにグラフィックアプリケーションエンジニアを支援するためのものだ。
- OpenVKL -同じくIntelによって作成されたOpen VKLは、Open VDBで保存されたデータを理解し、変換せずにアクセスできるオープンソースソフトウェアで設計されている。
- Open Image Denoise – Intel Open Image Denoise は Intel oneAPI Deep Neural Network Library (別名 oneDNN) 上に構築されている。リアルタイムで、Intel SSE4、AVX2、AVX-512のような最新の命令セットを悪用することができる。これは、exploitingが高いノイズ除去性能を達成するために行われる。
- OSPRay (Studio) – Intel の OSPRay Studio は、オープンソースのインタラクティブなレイトレーシングとビジュアライゼーションのプログラムだ。
- oneDNN – Intel oneAPI Deep Neural Network Library (または oneDNN) は、最適化されたディープラーニングのビルディングブロックのパフォーマンスを提供する。
- Cpuminer-opt – Cpuminer-opt は CPU マイニングソフトウェアで、Raptoreum 暗号通貨に使われている Cpuminer-opt と Cpuminer-gr にフォークされている。
- OpenVINO – Open Visual Inference and Neural network Optimization は、単一のフレームワークから深層学習モデルの最適化を支援し、推論エンジンを利用してIntelハードウェア上に展開する無料のツールキットで、Intelはこのツールキットを作成した会社だ。
- miniBUDE – 他のHPCプログラミングモデルで見られるブリストル大学ドッキングエンジンのコアコンピュテーションだ。
- SMHasher – SMHasherは、”非暗号化ハッシュ関数の分布、衝突、パフォーマンス特性をテストするために設計されたテストスイート”となる。
ほとんどのテストでAVX-512命令セットがアクティブになり、すべてのCPUで良好な上昇を示したが、Sapphire Rapids Xeon CPUはAVX-512で最大44%の性能向上を示し、EPYC Genoaは21%の性能向上を示した。
この結果に対し、Phoronixでは以下のように述べている。
幾何平均は、第4世代EPYC GenoaがHPCワークロードで第4世代Xeon Scalableに対して競争力を持つために、AVX-512がいかに重要であるかも示しています。もしZen 4がAVX-512を追加していなかったら、EPYC 9654 2P AVX-512無効の結果は、AVX-512有効のXeon Platinum 8490H 2Pにわずかに及ばない結果になっていた。AVX-512を搭載しないZen 4サーバープロセッサであれば、より多くのワークロードでSapphire RapidsとGenoaの首位争いが繰り広げられたことでしょう。しかし、AVX-512を搭載したEPYC 9654 2Pは、このセットのベンチマークで、Xeon Platinum 8490Hプロセッサよりも19%高速になりました。
Intelが第4世代Xeon Scalableの発売時にAVX-512の改良をもっとアピールしなかったことに、私はむしろ驚いています。しかしいずれにせよ、AVX-512がより高い性能を発揮しながら、前世代のAVX-512プロセッサで見られたような電力消費への大きな影響もないのは、良いことです。これは、AMXと新しいアクセラレータを使用するために適応しなければならないのと比較して、多くの既存のソフトウェアにすぐに利益をもたらすことができます。より効率的なAVX-512とSapphire Rapids、そしてAVX-512を搭載したAMD Zen 4 CPUの組み合わせにより、より多くのソフトウェア開発者が自分のソフトウェアにAVX-512の最適化を考慮するようになることを期待しています。
Phoronix
AMDがEPYC GenoaチップでAVX-512のマーケティングに力を入れたのに対し、IntelがSapphire RapidsチップでAVX-512についてあまり触れなかったことを考えると、IntelはAVX-512で大きな性能向上を実現しただけではなく、最高の効率性も実現したのは驚きだろう。AVX-512を有効にすると、Intel Sapphire Rapids CPUはGenoaチップと同等かそれ以上の性能を発揮し、AVX-512によってのみ、EPYCチップはブーストアップを実現することができたのだ。
Phoronixでは、開発者がすでに市場に出ているAVX-512互換のソフトウェアを引き続き利用し、より新しいAMX拡張セットに適応するための負担を軽減できると予測している。
Source
コメントを残す