中国は、384コアの新しいプロセッサを搭載し、13.8テラフロップス(TFLOPS)を実行できる最新のスーパーコンピュータを発表した。
Sunway SW26010 Pro CPUは、中国のスーパーコンピューティング能力を高め、外国技術への依存を減らすことを目的とした国産チップである。しかし、専門家によると、このプロセッサはまだキャッシュとメモリ性能の課題に直面しているという。
Sunway SW26010 Pro
Sunway SW26010 Pro CPUは最近、SC23カンファレンスで展示され、スーパーコンピュータを運営する無錫のNational Supercomputing Centerがそのアーキテクチャと設計の詳細を明らかにした。
Chips and Cheeseによると、このCPUは独自の64ビットRISC命令セットをベースにしており、6つのコアグループ(CG)とプロトコル処理ユニット(PPU)を備えている。各CGは、64個のコンピュート・プロセッシング・エレメント(CPE)と1個のマネジメント・プロセッシング・エレメント(MPE)で構成されている。CPEは512ビットのベクトルエンジンと256KBのスクラッチパッドキャッシュを持ち、MPEはスカラーエンジンと256KBのL2キャッシュを持つ。また、各CGは128ビットDDR4-3200メモリ・インターフェースと16 GBのDDR4メモリを搭載している。
このCPUは、2016年と2017年に世界最速のスーパーコンピューターにランクインした「Sunway TaihuLight」スーパーコンピューターに採用された「Sunway SW26010」のアップグレード版である。新CPUは、前世代のクロック速度、命令セット、メモリ帯域幅を向上させ、その結果、FP64性能が4倍に向上した。Sunway SW26010 Pro CPUは13.8 TFLOPSのピークFP64性能を達成することができ、これはAMDの96コアEPYC 9654 CPUのピークFP64性能が約5.4 TFLOPSであることと比較すると驚異的である。
しかし、Sunway SW26010 Pro CPUには欠点もある。このCPUはキャッシュとメモリ階層が限られているため、アプリケーションによってはパフォーマンスに影響を与える可能性がある。CPEのスクラッチパッドキャッシュは、ベクトルエンジンが必要とするすべてのデータを格納するために大きくする必要があり、適切なL2キャッシュがないため、データをメインメモリから頻繁にフェッチする必要がある。
CPUのメモリサブシステムも不十分で、各コアが最大16 FP64 FLOPS/サイクルの性能を持つ384コアの高い帯域幅需要をサポートするには、さらに増やす必要がある。これらのボトルネックは、CPUとスーパーコンピュータのスケーラビリティと効率を制限する可能性がある。
SunwayのSW26010 Pro CPUは、世界のリーダーと競争するためにプロセッサとシステムを開発してきた中国のスーパーコンピューティング業界にとって一つの成果だろう。このCPUは、科学研究、人工知能、国家安全保障などさまざまな分野で応用されている高性能コンピューティングにおける中国の革新と野心を示すものだ。しかし、このCPUは、最適なパフォーマンスとエネルギー効率を達成するために重要なキャッシュとメモリの設計に関して、中国にはまだいくつかのギャップがあることも示している。SunwayのSW26010 Pro CPUは強力なプロセッサーだが、中国のスーパーコンピューティングが世界と戦うためには、さらなる改良が必要だ。
Source
- Chips and Cheese: China’s New(ish) SW26010-Pro Supercomputer at SC23
コメントを残す