NVIDIA、H200 GPUを発表:HBM3eを採用し最大141GBの大容量と4.8TB/秒の帯域幅を実現

masapoco
投稿日 2023年11月14日 6:16
nvidia hgx h200

2024年に、現行の物より高速で大容量のHBM3eメモリが各社から利用可能になる中で、このメモリの最大の消費者であるAIトレーニング分野において、GPUで独占的地位を築いているNVIDIAは既に8月の時点でGrace Hopper GH200 SuperchipのHBM3e搭載バージョンを明らかにしていた。そして本日、NVIDIAはスタンドアロンアクセラレータチップ H100のHBM3eメモリ対応バージョンである「H200 」チップを市場に投入する計画を明らかにし、AI分野における同社の地位を堅固な物にしようとしている。

H200は、メモリ以外はH100と実質的に同じ物と見える。H200の目的は、より高速で大容量のメモリを搭載したバージョンのチップを展開することで、Hx00製品ラインの中間世代のアップグレードとして機能することだ。NVIDIAは、Micronや他の企業がNANDを展開する予定のHBM3eメモリを利用することで、メモリ帯域幅に制約のあるワークロードにおいて、より優れた実パフォーマンスを持つアクセラレータを提供できるようになるだけでなく、より大きなワークロードを処理できるパーツも提供できるようになる。これは、これまでH100アクセラレータのほぼすべての需要を牽引してきた生成AIの分野で特に役立つだろう。

H200H100A100(80GB)
FP32 CUDA コア16896?168966912
Tensorコア528?528432
ブーストクロック1.83GHz?1.83GHz1.41GHz
メモリクロック~6.5Gbps HBM3E5.24Gbps HBM33.2Gbps HBM2e
メモリバス幅6144-bit5120-bit5120-bit
メモリ帯域幅4.8TB/sec3.35TB/sec2TB/sec
VRAM141GB80GB80GB
FP64 ベクトル33.5 TFLOPS?33.5 TFLOPS9.7 TFLOPS
INT8 テンソル1979 TOPS?1979 TOPS624 TOPS
FP16 テンソル989 TFLOPS?989 TFLOPS312 TFLOPS
FP64 テンソル66.9 TFLOPS?66.9 TFLOPS19.5 TFLOPS
相互接続NVLink 4
18 Links (900GB/sec)
NVLink 4
18 Links (900GB/sec)
NVLink 3
12 Links (600GB/sec)
GPUGH100
(814mm2)
GH100
(814mm2)
GA100
(826mm2)
トランジスタ数800億800億542億
TDP700W700W400W
製造プロセスTSMC 4NTSMC 4NTSMC 7N
インターフェースSXM5SXM5SXM4
アーキテクチャHopperHopperAmpere

HBM3eの採用により、GPUのメモリ帯域幅はH100の3.35TB/秒から4.8TB/秒に、総メモリ容量は前モデルの80GBから141GBに増加している。

NVIDIAのハイパフォーマンス・コンピューティング製品担当副社長であるIan Buck氏は、ビデオ・プレゼンテーションで、「より高速で広範なHBMメモリの統合は、GPUの使用率と効率を最適化しながら、生成AIモデルや(ハイパフォーマンス・コンピューティング)アプリケーションを含む、計算負荷の高いタスク全体のパフォーマンスを加速させる役割を果たす」と述べた。

NVIDIAがこれまでに開示している情報からは、H200が前モデルよりも計算スループットが向上するとは示されていない。メモリの変更により、実際の性能は向上するはずだが、NVIDIAがHGX H200クラスタに対して提示している32 PFLOPSのFP8性能は、現在市販されているHGX H100クラスタと同じだ。

HBM3Eを搭載したGH200システムと同様、NVIDIAはH200アクセラレータが2024年第2四半期に利用可能になることしている。

HGX H200

H200アクセラレータと並行して、NVIDIAはHGX H200プラットフォームも発表した。これは、新しいアクセラレータを使用する8ウェイHGX H100の更新バージョンとなる。NVIDIAのH100/H200ファミリーの真のバックボーンであるHGXキャリアボードは、8個のSXMフォームファクタ・アクセラレータを搭載し、あらかじめ配置された完全接続トポロジーでリンクされている。HGXボードはスタンドアロンであるため、適切なホスト・システムに接続することができ、OEMはハイエンド・サーバーの非GPU部分をカスタマイズすることができる。

Quad GH200:4つのGH200をシングルボードに統合

NVIDIAは現在、GraceとHopper(およびGrace Hopper)の両チップを大量に出荷しており、これらのチップを使用した、いくつかの追加製品も発表している。その最新のものが、NVIDIAが単に「Quad GH200」と呼んでいる4ウェイGrace Hopper GH200ボードだ。

Quad GH200は、その名の通り4つのGH200アクセラレータを1枚のボードに搭載し、より大きなシステムに取り付けることができる。個々のGH200は、8チップ、4ウェイのNVLinkトポロジーで互いに配線されており、これらのボードをより大規模なシステムの構成要素として使用することを想定している。

実際には、Quad GH200は、HGXプラットフォームと同等のGrace Hopperで構成される。Grace CPUを搭載することで、GPUのみのHGXボードとは異なり、技術的には各ボードが独立することになるが、ホストインフラに接続する必要性は変わらない。

Quad GH200ノードは、288のArm CPUコアと合計2.3TBの高速メモリを提供する。注目すべきことに、NVIDIAはここでGH200のHBM3eバージョンを使用することに言及していない(少なくとも当初は)ため、これらの数値はオリジナルのHBM3バージョンと思われる。つまり、Grace CPUあたり480GBのLPDDR5X、Hopper GPUあたり96GBのHBM3、合計1920GBのLPDDR5Xと384GBのHBM3メモリということになる。

JUPITERスーパーコンピューター:18.2メガワットで24K GH200、2024年設置予定

最後に、NVIIDAは、JUPITERと呼ばれる新たなスーパーコンピュータ設計を明らかにした。EuroHPC Joint Undertakingが発注したJUPITERは、23,762 GH200ノードからなる新しいスーパーコンピュータである。オンラインになれば、JUPITERはこれまで発表されたHopperベースのスパコンで最大となり、これまで発表されたHopperベースのスパコンを定義するようになった低精度テンソル駆動のAIワークロードだけでなく、標準的なHPCワークロードを明確に(そして公に)ターゲットにした最初のスパコンとなる。

EvidenとParTecと契約したJUPITERは、NVIDIAのテクノロジーを余すところなく披露している。NVIDIAが本日発表したQuad GH200ノードをベースに、Grace CPUとHopper GPUがスーパーコンピューターの中核を担っている。個々のノードは、NVIDIAのConnectXアダプタをベースとしたQuantum-2 InfiniBandネットワークによって支えられている。

同社は具体的なコア数やメモリ容量の数字を開示していないが、1枚のQuad GH200ボードが何を提供するかわかっているので、計算は簡単だ。トップエンドでは(歩留まりを考慮してサルベージ/ビニングを行わないと仮定すると)、23,762個のGrace CPU、23,762個のHopper H100クラスGPU、およそ10.9PBのLPDDR5X、さらに2.2PBのHBM3メモリとなる。

このシステムは、AI用途には93EFLOPSの低精度性能を、従来のHPCワークロードには1EFLOPS以上の高精度(FP64)性能を提供する予定だ。後者の数値は特に注目すべきもので、これによりJUPITERはHPCワークロード向けの初のNVIDIAベースのエクサスケールシステムとなる。

1EFLOPSは、23,762基のH100がFP64テンソル演算でしか提供できないものだからだ。理論的なHPCスーパーコンピュータのスループットの伝統的な指標は、行列性能ではなくベクトル性能であるため、この数値は他のシステムと完全に比較できるものではない。とはいえ、HPCワークロードも部分的に行列演算を多用しているため、まったく無関係な主張でもない。その他、Frontierとの比較のために、JUPITERのストレートベクター性能は約800TFLOPSであるのに対し、Frontierはその2倍以上である。一方、この2つのシステムが実環境でどの程度近づくかは、それぞれのワークロードでどの程度行列演算が使われているかによるだろう(LINPACKの結果は興味深い)。

このシステムの価格は発表されていないが、消費電力は18.2メガワット(フロンティアより3メガワット少ない)となっている。


Sources



この記事が面白かったら是非シェアをお願いします!


  • microsoft edge chromium
    次の記事

    Microsoft Edgeに動画のリアルタイム翻訳機能がまもなく搭載される

    2023年11月14日 6:32
  • 前の記事

    Google、AIチャットボットサービスCharacter.AIへ数億ドル規模の投資を検討中と報じられる

    2023年11月13日 15:54
    FireShot Capture 246 character.ai beta.character.ai

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事