Google、TPUベースの自社製スーパーコンピューターでNVIDIAのAIチップに勝てると主張

Googleは、自社のコンピューティング能力が増え続けるジェネレーティブAIアプリケーションに対応できる事を証明したいようだ。本日、Googleの研究者は、AI用途に用いられることの多いNVIDIAのA100チップを使用したシステムと比較して、同社のTPU v4スーパーコンピューターは「1.2倍～1.7倍速く、1.3倍～1.9倍少ない電力を使用」するという論文を発表した。

Googleは、現在最も注目を集めているこの市場で、NVIDIAに対抗しようとしている。NVIDIAは現在、AIベースの開発の90％以上が同社のチップを使用しており、この分野では圧倒的な強さを誇っている。Googleは、企業が代わりに同社のTensor Processing Units（TPU）を使用するスーパーコンピューターを使用することを望んでいる。実際、Googleは、人気のAI生成画像メーカー「Midjourney」がTPUベースのチップを使用していると述べている。

論文ではTPU v4とA100を比較しているが、GoogleはNVIDIAのH100チップを使用したものとスーパーコンピュータを比較したわけではないという。NVIDIAのH100は、MicrosoftがBing ChatやMicrosoft 365 Copilotなど、自社のAIアプリケーションに使用されている、NVIDIAの最新世代のプロセッサだ。

Googleが、AIとそのアプリケーションを動かすスーパーコンピュータが、コンピューティングとテクノロジーの未来だと感じていることは明らかだ。しかし、この新しいTPU v4でも、この分野でNVIDIAのリードに対抗するのは難しいだろう。

論文

arXiv: TPUv4: AnOptically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings

参考文献

CNBC: Google reveals its newest A.I. supercomputer, says it beats Nvidia

研究の要旨

機械学習（ML）モデルの革新に対応して、生産ワークロードは根本的かつ急速に変化した。TPU v4は、5番目のGoogleドメインスペシフィックアーキテクチャ（DSA）であり、そのようなMLモデル向けの3番目のスーパーコンピュータです。光回路スイッチ（OCS）は、インターコネクトトポロジーを動的に再構成して、規模、可用性、利用率、モジュール性、展開、セキュリティ、電力、性能を改善する。ユーザーは必要に応じて、ねじれた3Dトーラストポロジーを選ぶことができる。Infinibandよりもはるかに安価で、低消費電力、高速なOCSと基礎となる光コンポーネントは、システムコストの5%未満、システム消費電力の3%未満だ。各TPU v4にはSparseCoresというデータフロープロセッサが搭載されており、エンベッディングに依存するモデルを5倍から7倍高速化しながら、ダイ面積と電力はわずか5%に抑えられている。2020年から展開されているTPU v4は、TPU v3を2.1倍上回り、性能/ワットを2.7倍向上させる。TPU v4スーパーコンピュータは、4096チップと4倍の大きさであるため、全体として～10倍速く、OCSの柔軟性とともに大規模言語モデルを支援します。同規模のシステムでは、Graphcore IPU Bowよりも4.3倍から4.5倍速く、NVIDIA A100よりも1.2倍から1.7倍速く、1.3倍から1.9倍少ない電力消費量だ。Google Cloudのエネルギーに最適化されたウェアハウススケールコンピュータ内のTPU v4は、典型的なオンプレミスデータセンター内の現代のDSAと比較して、エネルギー使用量が～3倍、CO2排出量が～20倍少なくなっている。