MENU

あなたの知的好奇心を刺激する、テック・科学の最新ニュースサイト | TEXAL

Google、AI処理能力が最大5倍となる「TPU v5e」やNVIDIA H100 GPUを展開し生成AIに特化したクラウドサービスを追加

2023年8月30日 7:38

Googleは、同社のクラウドプラットフォーム「Google Cloud」向けに人工知能（AI)に焦点を当てたツールやサービスを発表したが、その中で自社製Tensor Processing Unitの最新版である「TPU v5e」を発表した。

Googleによると、TPU v5eは、2021年にリリースされたTPU v4と比較すると、大規模言語モデル（LLM)や生成AIモデルに対して、1ドルあたりの学習性能が最大2倍、推論性能が最大2.5倍高速になっているという。

また、Cloud TPU v5eは、JAX、PyTorch、TensorFlowなどの主要なAIフレームワークや、Hugging FaceのTransformersやAccelerate、PyTorch Lightning、Rayなどの人気のあるオープンソースツールのビルトインサポートも提供している。このリリースには、Cloud TPU v5eのサポートや、大規模なモデルトレーニングのためのモデルとデータの並列処理などの新機能が含まれているという。

新しいTPUは8つの異なる仮想マシン構成で提供され、1つのスライスで1つのTPUチップから250以上のTPUチップまで利用できる。より多くの計算が必要なユーザーのために、同社は数万個のTPUチップにモデルを販売する方法である「Multislice」を展開している。

「これまでは、TPUを使用したトレーニングジョブはTPUチップの1スライスに制限されており、TPU v4の最大スライスサイズは3,072チップまででした」と、GoogleのML・システム・クラウドAI担当副社長Amin Vahdat氏と、コンピュート・MLインフラ担当副社長Mark Lohmeyer氏は共同ブログ投稿で述べている。

「Multisliceを使えば、開発者は単一のポッド内でチップ間相互接続（ICI）を介して、あるいはデータセンターネットワーク（DCN）を介して複数のポッド間で、ワークロードを最大数万チップまで拡張することができます」。

新しいTPUと並んで、Googleは、8個のNVIDIA H100 GPU、デュアル第4世代Intel Xeon Scalableプロセッサ、2TBのメモリを搭載したA3仮想マシン（VM）が来月から一般利用可能になると発表した。このインスタンスは5月に発表されたもので、NVIDIA H100 Hopper GPUを26,000個まで増やすことができる。

Googleによると、生成AIのスタートアップ企業Anthropicは、新しいTPU v5eとA3 VMの初期ユーザーだという。Googleはこのスタートアップに3億ドルを投資したが、Amazon Web Servicesのユーザーでもある。

Anthropicの共同設立者であるTom Brown氏は、「Google Cloudと協業できることをうれしく思います。我々のモデルを効率的に訓練し、デプロイし、共有するために協力してきたGoogle Cloudと協力できることを嬉しく思います。A3とTPU v5e with Multisliceを搭載したGoogleの次世代AIインフラは、AIの次の波を構築し続ける私たちのワークロードに、価格性能のメリットをもたらすでしょう」と、述べている。

Source

Google Cloud Blog: Expanding our AI-optimized infrastructure portfolio: Introducing Cloud TPU v5e and announcing A3 GA

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

コメント

コメントするコメントをキャンセル