世界最速のスーパーコンピューターは、障害により丸1日の連続稼働ができないらしい

(Image Credit: OLCF)

スポンサーリンク

オークリッジ国立研究所(ORNL)には、スーパーコンピュータ「Frontier」が設置されている。Frontierは、AMDのEPYC Trento CPUとInstinct MI250X compute Acceleratorsを使って作られた最初のエクサスケールレベルのシステムとして注目されている。システム全体には、HPEのSlingshotインターコネクトが使用されている。また、世界最速のスーパーコンピュータであり、世界で唯一稼働中のエクサスケールデザインであることが予定されている。

HPEによるCray EXアーキテクチャは、2023年から科学研究を支援するために研究者がアクセスできる大規模アプリケーションのために作られたものだ。しかし、このスーパーコンピューターは、ハードウェア内のいくつかの障害により、丸1日稼働させることができないという。

ORNL Frontierは、起動はするが、1.685 FP64 ExaFLOPSを実現するように設計されたシステムに対し、最大で1 FP64 ExaFLOPSしか出せないのだ。具体的な問題点については何も語られていないが、いくつかの噂が明らかになってきている。

まず、HPE Crayスーパーコンピュータ用に作られたネットワークであるSlingshotインターコネクトが、HPEクラスタと競合している。残念ながら、この問題の正確な特定は不明だ。次に、AMD Instinct MI250XコンピュートGPUとEPYC Trento CPUが、Slingshotインターコネクトと競合すると噂されている。ここでも、ORNL Frontierスーパーコンピュータのプロジェクトリーダーや研究者からの正式な発表はない。

米国エネルギー省(DOE)のExascale Computing ProjectのMike Bernhardt氏は、ORNL Frontierの完全統合は来年から研究者に提供されると述べているが、Frontierスパコンの完全立ち上げに懸念や問題があるとはしていない。

ORNLのエクサスケール構想のパートナーであるHPEとAMDは、このファルのために新しいFrontierシステムを予定より早くORNLに納品しました。Frontierのインストールと統合は巨大で複雑な作業ですが、現在の進捗状況を見ると、来年にはFrontierをオープンサイエンスのためにユーザーに提供できるように、すべてが予定通りに進んでいることがわかります。

Mike Bernhardt (DOE’s Exascale Computing Projectコミュニケーション・リード)

Bernhardt氏が「complex effort」と述べている配置は、このプロジェクトに関する噂が絶えない理由につながる可能性がある。また、AMDのMI250XコンピュートGPUは一部の顧客にしか提供されていないため、噂の裏付けとなるベンチマークが不足していることも指摘されている。DOEはFrontierに関して、Oak RidgeのLeadership Computing Facilityと密接に連携している。

ORNL Frontierスーパーコンピュータは、当初の2022年という期限に間に合わず、2023年1月1日までにフル稼働する予定である。

TEXALでは、テクノロジー、サイエンス、ゲーム、エンターテインメントなどからその日の話題のニュースや、噂、リーク情報、レビューなど、毎日配信しています。最新のニュースはホームページで確認出来ます。GoogleニュースTwitterFacebookでTEXALをフォローして、最新情報を入手する事も出来ます。記事の感想や、お問い合わせなども随時受け付けています。よろしくお願いいたします。

スポンサーリンク

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA