Cloudflareは、次世代サーバー群であるGen-12サーバーのデータセンター全体への展開に向けて、その設計についていくつかの情報を明らかにした。この展開時期は2024年を計画しており、プロセッサ自体だけでなく、サーバーの多くのコンポーネントもアップグレードされる予定とのことだ。これには、Workers AIの推論を駆動するGPUを収容できるようにすること、最新のメモリ、ストレージ、セキュリティの進歩を活用することが含まれる。この大きな刷新は、来るAI時代に備えての布石だ。
Cloudflareは2年前にAMD EPYC Milan x86プロセッサをベースにしたGen-11サーバー群を展開した。x86 CPUベンダー全体で直面している継続的な課題は、世代ごとに急速に増加するCPUの熱設計電力(TDP)だ。AMD EPYC 9004シリーズSKUスタックのデフォルトTDPは最大360Wで、最大400Wまで設定可能である。Intel Sapphire Rapid SKUスタックのデフォルトTDPは最大350Wである。この傾向は続き、AMDとIntelの次世代x86 CPUの提供は最大500WのTDPで指定されている。
Cloudflareは、長い間1Uサーバー設計を活用してきた。最大400WのTDPを持つCPUをサポートできると判断したが、上記の様に次世代CPUはGen12サーバーでは最大500WのTDPまで上昇することが見込まれる。そのためCloudflareは、Gen-12サーバー群で2U設計に移行することを決定した。
Cloudflareは、第4世代Intel Xeon Scalableを使用しているのか、AMD Zen 4(Genoa/Genoa-XまたはBergamo)を使用しているのか、まだ公にはしていないが、ブログ投稿では、Cloudflareサービスでは、128コア/256スレッドまでスケールアップしていると述べている。また、CPUのTDPスイートスポットが約340ワットであることも指摘している。128コア/256スレッドへのスケールアップにより、今日EPYC 9754のような128コア/256スレッドを特徴とするAMD EPYC “Bergamo”設計を採用したとしても全く不思議ではない。
1Uから2Uフォームファクターに変更することで、ラックよりも広いスペースが確保できるようになった。第12世代サーバーで2Uレイアウトを採用することで、より大きなファン、放熱を助けるより大きなヒートシンク、より少ないエアインピーダンス、より多くのPCIe接続アクセラレータ/GPU/アドオンカードのためのスペースを享受することになる。
Cloudflareはさらに、2Uの利点についてブログで次のように述べている:
Cloudflareベンダーが提供した熱シミュレーションによると、60mmファン4台または80mmファン4台で、ファン1台あたり40ワット未満でシステムを冷却するのに十分である。これは、1U設計の40mmファン8台と比較すると、理論的には少なくとも150ワットの節約となり、運用コスト(OPEX)の大幅な節約とTCOの改善につながります。また、2Uフォームファクターに変更することで、ラック電源予算とラックスペースをフルに活用できるようになり、デュアルスロットフォームファクターオプションを含め、PCIe接続のアクセラレータ/GPUを追加するための十分なスペースが得られます。
…
直感に反するように思えるかもしれませんが、私たちの観察によれば、サーバー・シャーシを大きくし、ノードあたりのスペースをより多く利用することで、実際にラック密度が向上し、より優れた熱設計が可能になるため、旧世代の導入よりも全体的なTCOメリットが改善されます。私たちは、この技術的な準備調査の結果に非常に満足しており、第12世代コンピュート・サーバーの検証を積極的に行い、間もなく本番稼動させる予定です。
最終的には、Gen 12サーバーの仕様やその他の技術的な詳細がどのように公表されるかが興味深い。少なくとも、これまでに発表された詳細からは、AMDのBergamoを採用した可能性が高いだろう。
Source
コメントを残す