NVIDIA、ChatGPTなどのLLM駆動向けに設計されたGPU「H100 NVL」を発表

NVIDIAは、OpenAIのGPT-4ような大規模言語モデル（LLM）専用に設計されたHopper GPUの新しいバリエーションである、「H100 NVL」を発表した。

H100 NVLは、時流を適切に捉え、NVIDIAのAI分野での更なる成功を実現するために、大規模言語モデル（LLM）での利用という単一の市場を対象としている。このカードがNVIDIAの通常のサーバー向け製品とは異なるのは、すでにブリッジ接続された2枚のH100 PCIeボードであることもさることながら、大きな特徴として、大きなメモリ容量が挙げられる。このデュアルGPUカードは、188GBのHBM3メモリ（カードあたり94GB）を提供し、H100ファミリーの中だけでなく、これまでのどのNVIDIA製品よりもGPUあたりのメモリ容量が多くなっている。

	H100 NVL	H100 PCIe	H100 SXM
FP32 CUDAコア数	2 x 16896?	14592	16896
Tensorコア数	2 x 528?	456	528
ブーストクロック	1.98GHz?	1.75GHz	1.98GHz
メモリ周波数	~5.1Gbps HBM3	3.2Gbps HBM2e	5.23Gbps HBM3
メモリバス幅	6144-bit	5120-bit	5120-bit
メモリ帯域幅	2 x 3.9TB/sec	2TB/sec	3.35TB/sec
VRAM	2 x 94GB (188GB)	80GB	80GB
FP32 Vector	2 x 67 TFLOPS?	51 TFLOPS	67 TFLOPS
FP64 Vector	2 x 34 TFLOPS?	26 TFLOPS	34 TFLOPS
INT8 Tensor	2 x 1980 TOPS	1513 TOPS	1980 TOPS
FP16 Tensor	2 x 990 TFLOPS	756 TFLOPS	990 TFLOPS
TF32 Tensor	2 x 495 TFLOPS	378 TFLOPS	495 TFLOPS
FP64 Tensor	2 x 67 TFLOPS?	51 TFLOPS	67 TFLOPS
インターコネクト	NVLink 4 18 Links (900GB/sec)	NVLink 4 (600GB/sec)	NVLink 4 18 Links (900GB/sec)
GPU	2 x GH100 (814mm2)	GH100 (814mm2)	GH100 (814mm2)
トランジスタ数	800億 × 2	800億	800億
TDP	700W	350W	700-800W
製造プロセス	TSMC 4N	TSMC 4N	TSMC 4N
インターフェース	2 x PCIe 5.0 (Quad Slot)	PCIe 5.0 (Dual Slot)	SXM5
アーキテクチャ	Hopper	Hopper	Hopper

このSKUの提供は、まさにChatGPTの爆発的ヒットや、その後のBing、Bardの登場によるAI需要の急増を見据えたものだろう。GPTファミリーのような大規模言語モデルは、多くの点でメモリ容量に制約があり、すべてのパラメータ（最大のGPT-3モデルの場合、175B）を保持するために、H100アクセラレータでさえすぐにいっぱいになってしまうからだ。その結果、NVIDIAは、GPUあたり80GBを上限とする通常のH100パーツよりも、GPUあたりでもう少し多くのメモリを提供する新しいH100 SKUを用意したのだ。

すべてのGH100 GPUには、6スタックのHBMメモリ（HBM2eまたはHBM3）が搭載されており、1スタックあたり16GBの容量がある。しかし、歩留まりの関係で、NVIDIAは6つのHBMスタックのうち5つを有効にした状態で通常のH100パーツを出荷するだけだ。したがって、各GPUには公称96GBのVRAMが搭載されているが、通常のSKUでは80GBしか使用出来ない。

H100 NVLは、6つのスタックすべてが有効化された特別なSKUとなる。6番目のHBMスタックをオンにすることで、NVIDIAは、それがもたらす追加メモリと追加メモリ帯域幅にアクセスすることが出来る。価格もそれに伴い高額になるが、LLM市場の活況を考えれば、ほぼ完璧なGH100パッケージに対して十分に高いプレミアムを支払ってでも手に入れようとする需要はあるだろう。

ただし、1枚のカードで96GBをすべて利用できるわけではない。むしろ、総容量188GBのメモリでは、カード1枚あたり実質94GBを利用できることになる。NVIDIAは、本日の基調講演に先立つ事前説明会で、この設計上の癖について詳しく説明していないが、これも歩留まりを考慮して、HBM3メモリスタック内の不良セル（またはレイヤー）を無効にするためにNVIDIAに多少の余裕を持たせているものと思われる。その結果、新しいSKUは、GH100 GPUあたり14GBのメモリを提供し、17.5%のメモリ増加を実現した。一方、このカードの総メモリ帯域幅は7.8TB/秒であり、個々のボードでは3.9TB/秒になる。

メモリ容量の増加に加えて、多くの点で、より大きなデュアルGPU/デュアルカードH100 NVL内の個々のカードは、PCIeカードに配置されたH100のSXM5バージョンによく似ている。通常のH100 PCIeは、より低速なHBM2eメモリの使用、より少ないアクティブSM/テンソルコアの使用、およびより低いクロックスピードによって、いくらか足かせとなっているが、NVIDIAがH100 NVLについて提示しているTensorコア性能値は、すべてH100 SXM5と同等で、このカードが通常のPCIeカードのようにさらに削減されていないことを表している。この製品の最終的な完全な仕様はまだ決まっていないが、ここで提示されたものがすべてだとすると、H100 NVLに搭載されるGH100は、現在入手可能なGH100の中で最も高いビンディングを持つことになる。

H100 NVLはシングルGPUパーツではなく、むしろデュアルGPU/デュアルカードパーツであり、ホストシステムにはそのように提示される。ハードウェア自体は、2つのPCIeフォームファクターH100をベースにしており、3つのNVLink 4ブリッジを使用して一緒に縛られている。物理的には、NVIDIAの既存のH100 PCIeデザイン（NVLinkブリッジを使用してすでにペアリング可能）とほぼ同じであるため、違いは2ボード/4スロットという巨大な構造ではなく、むしろ内部のシリコンの品質にある。別の言い方をすれば、今日、通常のH100 PCieカードを組み合わせることが出来るが、H100 NVLのメモリ帯域幅、メモリ容量、テンソルスループットには敵わないだろう。

驚くべきことに、大きなスペックアップにもかかわらず、TDPの上昇は少ない。H100 NVLは700Wから800Wのパーツで、ボードあたり350Wから400Wとなり、その下限は通常のH100 PCIeと同じTDPとなる。この場合、NVIDIAはピーク性能よりも互換性を優先しているように見える。350W以上（400W以上）のPCIeカードを扱えるサーバー・シャーシはほとんどなく、TDPを維持する必要があることを意味する。それでも、より高い性能数値とメモリ帯域幅を考えると、NVIDIAがどのように余分な性能を負担しているのかは不明だ。

それ以外の点では、本質的に最高のH100バリエーションをリリースするというNVIDIAの決定は、SXMパーツに対する一般的な好みからすると異例の選択だが、LLM顧客のニーズという文脈では理にかなっている決定と言えるだろう。大規模なSXMベースのH100クラスタは、8GPUまで簡単にスケールアップできるが、2つのGPU間で利用できるNVLinkバンド幅は、NVSwitchを経由する必要があるため、制約がある。2GPUの構成であれば、1組のPCIeカードを組み合わせる方がはるかに直接的で、固定リンクによってカード間の帯域幅は600GB/秒が保証されるだろう。

しかし、それ以上に重要なのは、既存のインフラにH100 NVLを迅速に導入できることだ。GPUをペアリングするために特別に作られたH100 HGXキャリアボードをインストールする必要があるのではなく、LLMの顧客は、新しいサーバー構築にH100 NVLを放り込むか、既存のサーバー構築の比較的早いアップグレードとして、H100 NVLを使用出来る。NVIDIAは、ここでは非常に特殊な市場を狙っているので、SXMの通常の利点（およびNVIDIAが総力を挙げて取り組む能力）は、ここでは適用されないかも知れない。

全体として、NVIDIAは、H100 NVLが、前世代のHGX A100の12倍のGPT3-175B推論スループットを提供すると宣伝している（H100 NVL 8個対A100 8個）。LLMワークロード用にシステムをできるだけ早く導入し、スケールアップしたいと考えている顧客にとっては、魅力的なことであることは間違いないだろう。しかし、H100 NVLは、最速のPCIe H100オプションであり、最大のGPUメモリプールを持つオプションとして、特定のニッチに貢献することになるだろう。

最後に、NVIDIAによると、H100 NVLカードは今年の後半に出荷が開始される予定だ。同社は価格を提示していないが、実質的にGH100のトップモデルであることから、最高値で取引されることが予想される。特に、LLMの爆発的な普及が、サーバーGPU市場の新たなゴールドラッシュとなりつつあることを考えれば、なおさらだ。

Source

NVIDIA: NVIDIA Launches Inference Platforms for Large Language Models and Generative AI Workloads

NVIDIA、ChatGPTなどのLLM駆動向けに設計されたGPU「H100 NVL」を発表

IntelのチーフアーキテクトRaja Koduri氏が退社しジェネレーティブAIスタートアップを設立

NVIDIA、ブラウザ経由でアクセスしAIのトレーニングに使えるスパコン「DGX Cloud」を発表

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

NVIDIA、ChatGPTなどのLLM駆動向けに設計されたGPU「H100 NVL」を発表

IntelのチーフアーキテクトRaja Koduri氏が退社しジェネレーティブAIスタートアップを設立

NVIDIA、ブラウザ経由でアクセスしAIのトレーニングに使えるスパコン「DGX Cloud」を発表

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル