AI企業Cerebras は、完成時に9カ所に分散配置され、合計36エクサフロップスのFP16性能を発揮する分散型クラスター「Condor Galaxy」スーパーコンピューターを発表した。
このシステムの第一段階は、アラブ首長国連邦のG42(AIの研究開発に重点を置く多国籍コングロマリット)向けに構築されている。システムにはCerebras のCS-2アクセラレータが使用されているが、このアクセラレータは、現在の多くのAIクラスターに見られるGPUやAIアクセラレータとは異なり、NVIDIAのH100のようなPCIeカードやSXMモジュールとして提供されるものではないのだ。
その代わり、同社のWSE-2はディナープレートサイズの巨大なもので、それぞれが85万個のコアと40GBのSRAMを搭載し、20PBpsの帯域幅を実現している。これは、他のアクセラレーターで一般的なHBMよりも桁違いに高速だ。これらのウェハーにはそれぞれ12個の100Gbpsインターフェイスが搭載されており、システムを最大192システムまで拡張することができる。
現在、Condor Galaxy 1(CG-1)は32ラックに及び、各ラックにはチップメーカーのウェハースケールCS-2アクセラレータが搭載されている。これは、Cerebrasの以前のシステム「Andromeda」の2倍のサイズとなる。このマシンは、41TBのメモリ、194Tbpsの内部バンド幅、2エクサフロップスのピーク性能を誇る。しかし、これは従来のHPCシステムに期待されるエクサフロップスとは異なる。
HPCシステムは倍精度(FP64)で測定され、多くの場合LINPACKベンチマークを使用します。一方、AIシステムはこのレベルの精度の恩恵は受けず、FP32、FP16、FP8、場合によってはInt8の計算で済ませることができる。この場合、Cerebrasのシステムは、FP16のスパース性で最も優れた数値を達成している。
完全に組み立てられると、約1億ドルのシステムは64ラックに及び、それぞれにCS-2アクセラレーターが搭載される。このシステムはリニアにスケールすることが期待されており、完全なクラスターはスパースFP16で4エクサフロップス、Andromedaの4倍の性能を発揮することになる。最後の32ラックは、今後3ヶ月以内に設置される予定である。
このシステムは、高性能計算とAI/MLアプリケーションに特化したコロケーション・プロバイダーである Colovoreのサンタクララ施設に設置される。さらに2つの米国拠点がノースカロライナ州アッシュビル(CG-2)とテキサス州オースティン(CG-3)に建設され、2024年前半に完成する予定だ。これらのシステムはネットワーク化され、拠点間でモデルを分散できるようになる。これは、特定の大規模でレイテンシ耐性のあるワークロードに対して可能なプロセスである。
最終段階では、さらに6つのサイトを建設する予定で、その場所はまだ公表されていない。完成したCondor Galaxyシステムには、576基のCS-2アクセラレーターが搭載され、36エクサフロップスのスパースFP16性能を発揮するという。Cerebras社は、2024年末までに9カ所すべての設置を完了することを目指している。
Cerebrasはシステムの運用と管理を行うが、システムの所有権はG42にあり、G42はシステムを社内のワークロードに使用する予定である。G42社で消費されずに残ったリソースは、G42社とCerebras社の顧客双方に提供されるとのことだ。
Sources
コメントを残す