NVIDIA 次世代GPUアーキテクチャ「Hopper」及びGPU「NVIDIA H100」を発表~Ampereの最大6倍の処理性能を達成

masapoco
投稿日 2022年3月23日 18:12
NVIDIA Hopper GPU
NVIDIA Hopper GPU

NVIDIAは、現在開催中のGTC2022において、同社の次世代GPUアーキテクチャ「Hopper」及び、その「Hopper」ベースのデータセンター向けGPU「NVIDIA H100」を発表した。

アメリカのコンピューター科学者である 「Grace Hopper (グレース ホッパー) 」にちなんで名付けられたこの新しいアーキテクチャは、前世代「Ampere」アーキテクチャから実に2年ぶりのアップデートとなる。

NVIDIA H100 GPU

NVIDIAはH100において、6つのテクノロジーブレイクスルーを実現しているという。

4nmプロセスで製造され、総トランジスタ数800億

H100は、PCI Express(以下,PCIe) 5.0 をサポートする最初のGPUであり、16レーン接続での理論帯域幅は128GB/sとなる。また、グラフィックメモリに「HBM3」をサポートする最初の GPU となっている。メモリの総容量は80GBまでサポート。また、GPU-HBM間では3TB/s のメモリ帯域幅になり、前世代のA100から1.5倍の高速化を実現している。

新しい Transformer Engine

H100は、FP16で最大2,000TFLOPS、TF32で最大1,000TFLOPS、汎用FP64で60TFLOPSの計算が可能だ。また、FP8 のサポートも強化しており、最大 4,000 TFLOPS の演算が可能で、A100(ネイティブの FP8 サポートがないため FP16 に頼らざるを得なかった)の 6 倍の速度を実現している。パフォーマンスを最適化するために、NVIDIAは新しい「Transformer Engine」を搭載しており、ワークロードに応じてFP8とFP16のフォーマットを自動的に切り替えられるという。

第 2 世代の Secure Multi-Instance GPU

 Multi-Instance GPU(MIG)テクノロジーにより、単一の GPU を 7 つの小さな独立したインスタンスに分割し、多様なジョブを処理できる。「Hopper」アーキテクチャは、各 GPU インスタンスのクラウド環境で安全なマルチテナント構成を提供することにより、MIG の能力を前世代の最大 7 倍に拡張する。

コンフィデンシャル コンピューティング

H100 は、処理中に AI モデルと顧客データを保護するコンフィデンシャル コンピューティング機能を備えた世界初のアクセラレータとなる。これにより、GPU内部のデータをすべて暗号化して取り扱う事が出来るという。顧客は、共有クラウド インフラストラクチャだけでなく、ヘルスケアや金融サービスなどプライバシーに特に敏感な業界のために、連合学習 (Federated Learning) にコンフィデンシャル コンピューティングを適用することも可能だ。

第 4 世代 NVIDIA NVLink

最大規模の AI モデルを高速化するために、NVLink は新しい外部 NVLink Switch と組み合わせて、サーバーを超えたスケールアップ ネットワークとして NVLink を拡張し、NVIDIA HDR Quantum InfiniBand を使用する前世代の 9 倍の帯域幅で最大 256 基の H100 GPU を接続する。

DPX 命令

H100では、CUDAのプログラミングモデルが新しい「DPX」命令に対応した。これにより、動的計画法(ゲノミクス、量子コンピューティング、ルート最適化などのアルゴリズムで使用される問題解決手法)を、CPUと比較して最大40倍高速化するという。

動的計画法とは、膨大な計算量が必要となる主問題を複数の小さな問題に分割し、その小さな問題の計算結果を記録しながら最終的に主問題を解いていくポピュラーなアルゴリズムだ。これにより、時間と計算量を節約することが可能となる。

動的計画法を活用した物には、倉庫環境で自律動作ロボット群の最適なルートを見つけるための Floyd-Warshall アルゴリズム、および DNA やタンパク質の分類と折りたたみのシーケンス アラインメントで使用される Smith-Waterman アルゴリズムが含まれる。

NVIDIA H100 GPUにおいて対応した「DPX」命令は、NVIDIA Ampere アーキテクチャベースの GPU と比較して、動的計画法のアルゴリズムを最大で 7 倍、また一般的なCPUと比較して、最大40倍加速させることができるという。

NVIDIA H100の幅広い製品展開

H100の発表に伴い、搭載製品なども多数発表された。

「DGX H100」と派生商品

DGX H100」は、H100を8基搭載したAI開発の基本システムだ。大規模言語モデル、レコメンダー システム、ヘルスケア研究、気候科学の大規模なコンピューティング用途を想定している。

また、NVLink Switchを用いてDGX H100を32基相互接続することで、計256基のH100を搭載したスーパーコンピュータシステム「DGX POD with DGX H100」も発表された。

さらに,18台のDGX SuperPOD with DGX H100を,360基のNVLink Switchと500基のQuantum-2 InfiniBandスイッチで相互接続した巨大なスーパーコンピュータシステム「NVIDIA EOS」も発表された。NVIDIA EOSにおけるH100 GPUの総数は4608基となり、FP8で18 EFLOPS,FP64で275 PFLOPSという世界最速のAI開発向けスーパーコンピュータになるとのことだ。

その他、既存のサーバーに搭載できるH100システムとして、PCIe 4.0 x16接続で使える「H100 CNX」が発表となった。

「Grace Hopper Superchip」

2021年に発表したArmアーキテクチャベースのサーバ向けCPU「Grace」と、今回発表となったH100と同じHopperアーキテクチャーベースのGPUを1パッケージ化した「Grace Hopper Superchip」を発表した。

またGraceを2ダイ1パッケージにまとめた「Grace CPU Superchip」も同時に発表となっている。

ゲーム向けGeForceへの影響

今回発表されたのは、あくまで「サーバー向けGPU」となり、ゲーム向けのコードネーム「Ada Lovelace」とは異なる物になるが、アーキテクチャとしては同じ「Hopper」が採用されるため、一定の参考にはなるだろう。

PCIe5.0の採用や、HBM3への対応などは可能性が高そうだ。また、Tensor CoreのFP8対応、CUDA CoreのDPX命令対応、AES256暗号化対応セキュリティ機能と言った機能も実装される可能性がある。

年末には発売されるとされる、GeForce RTX 4000シリーズだが、その性能を想像し、今から楽しみだ。

NVIDIAデータセンター向けGPU仕様一覧

GH100GA100GV100GP100
トランジスタ数800億個542億個211億個153億個
ダイサイズ814mm²828mm²815mm²610mm²
アーキテクチャHopperAmpereVoltaPascal
製造プロセスルールTSMC N4TSMC N712nm FFN16nm FinFET +
GPUクラスター132/114*1088056
CUDAコア16896/14592*691251203584
L2キャッシュ50MB40MB6MB4MB
Tensorコア528/456*432320
メモリバス5120ビット5120ビット4096ビット4096ビット
メモリー容量80 GB HBM3 / HBM2e *40 / 80GB HBM2e16/32 HBM216GB HBM2
TDP700W / 350W *250W / 300W / 400W250W / 300W / 450W250W / 300W
インターフェースSXM5 / * PCIe Gen5SXM4 / PCIe Gen4SXM2 / PCIe Gen3SXM / PCIe Gen3
発売年2022202020172016

Source



この記事が面白かったら是非シェアをお願いします!


  • ahamo 大盛り
    次の記事

    ahamoに100GBの「大盛りプラン」が登場。月額4,950円

    2022年3月23日 18:19
  • 前の記事

    Amazonが新型スマートディスプレイ「Echo Show 15」を本日から予約販売開始

    2022年3月23日 12:41
    sub4 1
この記事を書いた人
masapoco

スポンサーリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • what is ai pc

    Intel、「AI PC」の要件は40TOPS以上の性能を持つNPUが必要と述べる、ただしMeteor Lakeはこれを満たさず

  • amazon anthropic

    Amazon、AIスタートアップのAnthropicに“現金”27億5千万ドルを投資

  • 854f82b63ec3ff5c24f3787df5d0afc3

    GPT-4がついに王座陥落、AnthropicのClaude 3がベンチマークで1位に輝く

  • gpt store

    OpenAI、カスタムGPT制作者に対する報酬プログラムのテストを開始

  • openai sora balloon man

    OpenAI、動画生成AI「Sora」を使ったアーティストによるファーストインプレッションと短編動画を多数公開

今読まれている記事