Meta、24,000個のNVIDIA H100 GPUを用いた“AI特化”データセンターの詳細を公開

masapoco
投稿日
2024年3月14日 16:10
data center

Metaは、NVIDIAの最先端アクセラレータを用いて、同社の大規模言語AIモデル「Llama 3」のトレーニングに使用している、2つの新しいデータセンター・クラスタを構成するハードウェア、ネットワーク、ストレージ、デザイン、パフォーマンス、ソフトウェアの詳細を発表した。

Datacenter Dynamicsが報じたように、最適なコンピューティング・パワーを達成するため、Metaは音声認識や画像認識といった消費者向けアプリケーションにおけるAI研究とLLM開発を唯一の目的として、2つの新しいデータセンター・クラスターを開発した。同社は、NVIDIAのH100 AI GPUを統合することを決定し、両クラスタには24,576ユニットが搭載されている。

2つのクラスタはそれぞれ、24,576個のNVIDIA H100 GPUを搭載する。1つはRDMA over RoCE 400Gbpsイーサネットネットワークシステムで、Arista 7800スイッチとWedge400およびMinipack2 OCPラックスイッチを使用し、もう1つはNVIDIA Quantum2 400Gbps InfiniBandファブリックを搭載し、シームレスな相互接続を実現している。

もう一つのクラスタはMeta独自のGrand Teton OCPハードウェア・シャーシにはGPUが搭載され、MetaのTectonic分散型フラッシュ最適化エクサバイト・スケール・ストレージ・システムに依存している。

これは、Metaが開発したユーザー空間のLinuxファイルシステム(FUSE)APIを介してアクセスされ、AIモデルのデータニーズとモデルのチェックポイントに使用される。ブログによると、”このソリューションは、何千ものGPUがチェックポイントを同期して保存・ロードすることを可能にし(どのストレージソリューションにとっても課題である)、同時にデータロードに必要な柔軟で高スループットのエクサバイトスケールのストレージを提供する”とのことだ。

ここでMetaは、Hammerspaceと提携している。「このAIクラスターの開発者体験要件を満たすために、並列ネットワークファイルシステム(NFS)展開を共同開発しました。Hammerspaceは、コードの変更が環境内のすべてのノードに即座にアクセスできるため、エンジニアが何千ものGPUを使用してジョブのインタラクティブなデバッグを実行することを可能にします。当社のTectonic分散ストレージソリューションとHammerspaceを組み合わせることで、スケールに妥協することなく、高速な反復速度を実現できます」と、述べている。

TectonicとHammerspaceの両社のストレージは、MetaのYV3 Sierra Pointサーバーに大容量のE1.SフォーマットSSDを搭載している。これらは、耐障害性とともに、「サーバーあたりのスループット容量、ラック数の削減、関連する電力効率の適切なバランスを達成するためにカスタマイズされた」OCPサーバーである。

Metaの取り組みは更に続く。同社によれば、この発表は、我々の野心的なインフラロードマップの一歩とのことだ。Metaは2024年末までには、約60万台のH100に相当する計算能力を有する事を目指しており、35万台のNVIDIA H100 GPUを含むインフラ構築を継続的に成長させることを目標としている。


Source



この記事が面白かったら是非シェアをお願いします!


  • devin
    次の記事

    世界初のAIソフトウェア開発者「Devin」は独自のAIを訓練して作り出し、人間に頼らずソフトウェア開発を行える

    2024年3月14日 17:39
  • 前の記事

    暗号通貨マイナーがAMD Ryzen 7950X CPUを買い占めている

    2024年3月14日 11:00
    amd ryzen cpu
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • Intel glass substrate 5

    Appleがガラスコア基板の採用に向けて協議を進めている

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • sibelco spruce pine

    世界の半導体は米国のたった1カ所の鉱山に支えられている

今読まれている記事