Googleは、同社のクラウドプラットフォーム「Google Cloud」向けに人工知能(AI)に焦点を当てたツールやサービスを発表したが、その中で自社製Tensor Processing Unitの最新版である「TPU v5e」を発表した。
Googleによると、TPU v5eは、2021年にリリースされたTPU v4と比較すると、大規模言語モデル(LLM)や生成AIモデルに対して、1ドルあたりの学習性能が最大2倍、推論性能が最大2.5倍高速になっているという。
また、Cloud TPU v5eは、JAX、PyTorch、TensorFlowなどの主要なAIフレームワークや、Hugging FaceのTransformersやAccelerate、PyTorch Lightning、Rayなどの人気のあるオープンソースツールのビルトインサポートも提供している。このリリースには、Cloud TPU v5eのサポートや、大規模なモデルトレーニングのためのモデルとデータの並列処理などの新機能が含まれているという。
新しいTPUは8つの異なる仮想マシン構成で提供され、1つのスライスで1つのTPUチップから250以上のTPUチップまで利用できる。より多くの計算が必要なユーザーのために、同社は数万個のTPUチップにモデルを販売する方法である「Multislice」を展開している。
「これまでは、TPUを使用したトレーニングジョブはTPUチップの1スライスに制限されており、TPU v4の最大スライスサイズは3,072チップまででした」と、GoogleのML・システム・クラウドAI担当副社長Amin Vahdat氏と、コンピュート・MLインフラ担当副社長Mark Lohmeyer氏は共同ブログ投稿で述べている。
「Multisliceを使えば、開発者は単一のポッド内でチップ間相互接続(ICI)を介して、あるいはデータセンターネットワーク(DCN)を介して複数のポッド間で、ワークロードを最大数万チップまで拡張することができます」。
新しいTPUと並んで、Googleは、8個のNVIDIA H100 GPU、デュアル第4世代Intel Xeon Scalableプロセッサ、2TBのメモリを搭載したA3仮想マシン(VM)が来月から一般利用可能になると発表した。このインスタンスは5月に発表されたもので、NVIDIA H100 Hopper GPUを26,000個まで増やすことができる。
Googleによると、生成AIのスタートアップ企業Anthropicは、新しいTPU v5eとA3 VMの初期ユーザーだという。Googleはこのスタートアップに3億ドルを投資したが、Amazon Web Servicesのユーザーでもある。
Anthropicの共同設立者であるTom Brown氏は、「Google Cloudと協業できることをうれしく思います。我々のモデルを効率的に訓練し、デプロイし、共有するために協力してきたGoogle Cloudと協力できることを嬉しく思います。A3とTPU v5e with Multisliceを搭載したGoogleの次世代AIインフラは、AIの次の波を構築し続ける私たちのワークロードに、価格性能のメリットをもたらすでしょう」と、述べている。
Source
コメントを残す