NVIDIA、ChatGPTなどのLLM駆動向けに設計されたGPU「H100 NVL」を発表

masapoco
投稿日 2023年3月22日 11:08
nvidia inference platforms

NVIDIAは、OpenAIのGPT-4ような大規模言語モデル(LLM)専用に設計されたHopper GPUの新しいバリエーションである、「H100 NVL」を発表した。

H100 NVLは、時流を適切に捉え、NVIDIAのAI分野での更なる成功を実現するために、大規模言語モデル(LLM)での利用という単一の市場を対象としている。このカードがNVIDIAの通常のサーバー向け製品とは異なるのは、すでにブリッジ接続された2枚のH100 PCIeボードであることもさることながら、大きな特徴として、大きなメモリ容量が挙げられる。このデュアルGPUカードは、188GBのHBM3メモリ(カードあたり94GB)を提供し、H100ファミリーの中だけでなく、これまでのどのNVIDIA製品よりもGPUあたりのメモリ容量が多くなっている。

H100 NVLH100 PCIeH100 SXM
FP32 CUDAコア数2 x 16896?1459216896
Tensorコア数2 x 528?456528
ブーストクロック1.98GHz?1.75GHz1.98GHz
メモリ周波数~5.1Gbps HBM33.2Gbps HBM2e5.23Gbps HBM3
メモリバス幅6144-bit5120-bit5120-bit
メモリ帯域幅2 x 3.9TB/sec2TB/sec3.35TB/sec
VRAM2 x 94GB (188GB)80GB80GB
FP32 Vector2 x 67 TFLOPS?51 TFLOPS67 TFLOPS
FP64 Vector2 x 34 TFLOPS?26 TFLOPS34 TFLOPS
INT8 Tensor2 x 1980 TOPS1513 TOPS1980 TOPS
FP16 Tensor2 x 990 TFLOPS756 TFLOPS990 TFLOPS
TF32 Tensor2 x 495 TFLOPS378 TFLOPS495 TFLOPS
FP64 Tensor2 x 67 TFLOPS?51 TFLOPS67 TFLOPS
インターコネクトNVLink 4
18 Links (900GB/sec)
NVLink 4
(600GB/sec)
NVLink 4
18 Links (900GB/sec)
GPU2 x GH100
(814mm2)
GH100
(814mm2)
GH100
(814mm2)
トランジスタ数800億 × 2800億800億
TDP700W350W700-800W
製造プロセスTSMC 4NTSMC 4NTSMC 4N
インターフェース2 x PCIe 5.0
(Quad Slot)
PCIe 5.0
(Dual Slot)
SXM5
アーキテクチャHopperHopperHopper

このSKUの提供は、まさにChatGPTの爆発的ヒットや、その後のBing、Bardの登場によるAI需要の急増を見据えたものだろう。GPTファミリーのような大規模言語モデルは、多くの点でメモリ容量に制約があり、すべてのパラメータ(最大のGPT-3モデルの場合、175B)を保持するために、H100アクセラレータでさえすぐにいっぱいになってしまうからだ。その結果、NVIDIAは、GPUあたり80GBを上限とする通常のH100パーツよりも、GPUあたりでもう少し多くのメモリを提供する新しいH100 SKUを用意したのだ。

すべてのGH100 GPUには、6スタックのHBMメモリ(HBM2eまたはHBM3)が搭載されており、1スタックあたり16GBの容量がある。しかし、歩留まりの関係で、NVIDIAは6つのHBMスタックのうち5つを有効にした状態で通常のH100パーツを出荷するだけだ。したがって、各GPUには公称96GBのVRAMが搭載されているが、通常のSKUでは80GBしか使用出来ない。

H100 NVLは、6つのスタックすべてが有効化された特別なSKUとなる。6番目のHBMスタックをオンにすることで、NVIDIAは、それがもたらす追加メモリと追加メモリ帯域幅にアクセスすることが出来る。価格もそれに伴い高額になるが、LLM市場の活況を考えれば、ほぼ完璧なGH100パッケージに対して十分に高いプレミアムを支払ってでも手に入れようとする需要はあるだろう。

ただし、1枚のカードで96GBをすべて利用できるわけではない。むしろ、総容量188GBのメモリでは、カード1枚あたり実質94GBを利用できることになる。NVIDIAは、本日の基調講演に先立つ事前説明会で、この設計上の癖について詳しく説明していないが、これも歩留まりを考慮して、HBM3メモリスタック内の不良セル(またはレイヤー)を無効にするためにNVIDIAに多少の余裕を持たせているものと思われる。その結果、新しいSKUは、GH100 GPUあたり14GBのメモリを提供し、17.5%のメモリ増加を実現した。一方、このカードの総メモリ帯域幅は7.8TB/秒であり、個々のボードでは3.9TB/秒になる。

メモリ容量の増加に加えて、多くの点で、より大きなデュアルGPU/デュアルカードH100 NVL内の個々のカードは、PCIeカードに配置されたH100のSXM5バージョンによく似ている。通常のH100 PCIeは、より低速なHBM2eメモリの使用、より少ないアクティブSM/テンソルコアの使用、およびより低いクロックスピードによって、いくらか足かせとなっているが、NVIDIAがH100 NVLについて提示しているTensorコア性能値は、すべてH100 SXM5と同等で、このカードが通常のPCIeカードのようにさらに削減されていないことを表している。この製品の最終的な完全な仕様はまだ決まっていないが、ここで提示されたものがすべてだとすると、H100 NVLに搭載されるGH100は、現在入手可能なGH100の中で最も高いビンディングを持つことになる。

H100 NVLはシングルGPUパーツではなく、むしろデュアルGPU/デュアルカードパーツであり、ホストシステムにはそのように提示される。ハードウェア自体は、2つのPCIeフォームファクターH100をベースにしており、3つのNVLink 4ブリッジを使用して一緒に縛られている。物理的には、NVIDIAの既存のH100 PCIeデザイン(NVLinkブリッジを使用してすでにペアリング可能)とほぼ同じであるため、違いは2ボード/4スロットという巨大な構造ではなく、むしろ内部のシリコンの品質にある。別の言い方をすれば、今日、通常のH100 PCieカードを組み合わせることが出来るが、H100 NVLのメモリ帯域幅、メモリ容量、テンソルスループットには敵わないだろう。

驚くべきことに、大きなスペックアップにもかかわらず、TDPの上昇は少ない。H100 NVLは700Wから800Wのパーツで、ボードあたり350Wから400Wとなり、その下限は通常のH100 PCIeと同じTDPとなる。この場合、NVIDIAはピーク性能よりも互換性を優先しているように見える。350W以上(400W以上)のPCIeカードを扱えるサーバー・シャーシはほとんどなく、TDPを維持する必要があることを意味する。それでも、より高い性能数値とメモリ帯域幅を考えると、NVIDIAがどのように余分な性能を負担しているのかは不明だ。

それ以外の点では、本質的に最高のH100バリエーションをリリースするというNVIDIAの決定は、SXMパーツに対する一般的な好みからすると異例の選択だが、LLM顧客のニーズという文脈では理にかなっている決定と言えるだろう。大規模なSXMベースのH100クラスタは、8GPUまで簡単にスケールアップできるが、2つのGPU間で利用できるNVLinkバンド幅は、NVSwitchを経由する必要があるため、制約がある。2GPUの構成であれば、1組のPCIeカードを組み合わせる方がはるかに直接的で、固定リンクによってカード間の帯域幅は600GB/秒が保証されるだろう。

しかし、それ以上に重要なのは、既存のインフラにH100 NVLを迅速に導入できることだ。GPUをペアリングするために特別に作られたH100 HGXキャリアボードをインストールする必要があるのではなく、LLMの顧客は、新しいサーバー構築にH100 NVLを放り込むか、既存のサーバー構築の比較的早いアップグレードとして、H100 NVLを使用出来る。NVIDIAは、ここでは非常に特殊な市場を狙っているので、SXMの通常の利点(およびNVIDIAが総力を挙げて取り組む能力)は、ここでは適用されないかも知れない。

全体として、NVIDIAは、H100 NVLが、前世代のHGX A100の12倍のGPT3-175B推論スループットを提供すると宣伝している(H100 NVL 8個対A100 8個)。LLMワークロード用にシステムをできるだけ早く導入し、スケールアップしたいと考えている顧客にとっては、魅力的なことであることは間違いないだろう。しかし、H100 NVLは、最速のPCIe H100オプションであり、最大のGPUメモリプールを持つオプションとして、特定のニッチに貢献することになるだろう。

最後に、NVIDIAによると、H100 NVLカードは今年の後半に出荷が開始される予定だ。同社は価格を提示していないが、実質的にGH100のトップモデルであることから、最高値で取引されることが予想される。特に、LLMの爆発的な普及が、サーバーGPU市場の新たなゴールドラッシュとなりつつあることを考えれば、なおさらだ。


Source



この記事が面白かったら是非シェアをお願いします!


  • 1597330454 intel 2020 architecture day 19 story
    次の記事

    IntelのチーフアーキテクトRaja Koduri氏が退社しジェネレーティブAIスタートアップを設立

    2023年3月22日 11:25
  • 前の記事

    NVIDIA、ブラウザ経由でアクセスしAIのトレーニングに使えるスパコン「DGX Cloud」を発表

    2023年3月22日 10:55
    nvidia dgx cloud

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事