Cerebras、第3世代ウェハースケールチップ「WSE-3」を発表、NVIDIA H100 GPU約62個分に相当

masapoco
投稿日
2024年3月14日 6:32
cerebras wse 3

AIスーパーコンピューター企業Cerebras Systemsは、最大24兆個のパラメータ・サイズのニューラルネットワーク・モデルをトレーニングすることが可能な90万個のAI最適化コアを提供する、第3世代のウェハースケール・エンジン・チップ「WSE-3」を発表した。

Cerebrasによると、WSE-3には4兆個のトランジスタが搭載されており、TSMCの5nmクラスの製造プロセスの採用により、性能は前世代より50%以上向上、同等の消費電力で前世代の2倍の性能を発揮できるとのことだ。

スペックの概要は以下の通りだ:

  • 4兆個のトランジスタ
  • 90万AIコア
  • 125ペタフロップスのAIピーク性能
  • 44GBのオンチップSRAM
  • 5nm TSMCプロセス
  • 外部メモリ:1.5TB、12TB、1.2PB
  • 最大24兆個のパラメータでAIモデルを学習
  • 最大2048 CS-3システムのクラスタ・サイズ

同社によると、WSE-3は新世代のAIコンピューター「Cerebras CS-3」に使用される予定だ。CS-3は125 ペタフロップスのピーク AI パフォーマンスを持ち、1.5TB、12TB、または1.2PBの外部メモリをサポートすることができ、パーティショニングやリファクタリングを行うことなく、巨大なモデルを単一の論理空間に格納することが出来る。これとは別に、CerebrasはQualcommと共同開発契約を締結し、AI推論の価格と性能の指標を10倍に高めることを目指している。

WSE-3は“ウェハー・スケール”というその名の通り、一辺が21.5センチの正方形のチップで、300ミリのシリコンウェハーをほぼ丸ごと使って1チップを作っている。ダイサイズは46,225mm2で、NVIDIA H100の826mm2より57倍大きい。どちらのチップもTSMC 5nmプロセスノードをベースにしている。H100は、16,896コアと528Tensorコアを搭載し、市場で最高のAIチップの1つとみなされているが、WSE-3はチップあたり90万個のAI最適化コアを提供し、その数は52倍となる。

WSE-3はまた、メモリ帯域幅が毎秒21ペタバイト(H100の7,000倍)、ファブリック帯域幅が毎秒214ペタビット(H100の3,715倍)だ。このチップには44GBのオンチップ・メモリが搭載されており、H100の880倍となっている。

2019年にデビューした最初のチップは、TSMCの16nmプロセスを使って作られた。2021年に登場したWSE-2では、CerebrasはTSMCの7nmプロセスに移行した。WSE-3はTSMCの5nmプロセスで製造される。

トランジスタの数はWSE-1から3倍以上に増えている。その一方で、トランジスタが何に使われるかも変化している。例えば、チップに搭載されるAIコアの数は大幅に減少し、メモリの量や内部帯域幅も減少した。とはいえ、1秒あたりの浮動小数点演算(flops)のパフォーマンス向上は、他のすべての指標を上回っている。

WSE-2と比較して、WSE-3チップはコア数が2.25倍(900,000対400,000)、SRAMは2.4倍(44GB対18GB)、およびはるかに高速なインターコネクトを、すべて同じパッケージサイズで提供する。また、WSE-3のトランジスタ数は54%増加している(4兆対2.6兆)。

この新しいAIチップを搭載したコンピューター「CS-3」は、OpenAIのGPT-4やGoogleのGeminiの10倍の大きさを持つ、新世代の巨大言語モデルを学習するために設計されている。同社によると、CS-3は、他のコンピューターが必要とする一連のソフトウェアトリックに頼ることなく、現在最大のLLMの10倍以上である24兆パラメーターサイズまでのニューラルネットワークモデルを訓練できるという。Cerebrasによれば、CS-3で1兆パラメータのモデルを訓練するのに必要なソフトウェアは、GPUで10億パラメータのモデルを訓練するのと同じくらい簡単だということだ。

これは、人気のあるLLM Llama 70Bをゼロからトレーニングするのに1日かかるような構成である。しかし、同社によれば、そこまで大規模なものはまだ開発中だという。最初のCS-3ベースのスーパーコンピューター、Condor Galaxy 3は64台のCS-3で構成され、8エクサフロップスのAI演算性能を実現する。CS-2ベースの兄弟システムと同様、アブダビのG42がこのシステムを所有している。Condor Galaxy 1、2と合わせると、16エクサフロップスのネットワークとなる。

Cerebras のコンピューターはトレーニング用に作られているが、Cerebras のCEOであるAndrew Feldman氏は、AI導入の本当の限界は推論、つまりニューラルネットワークモデルの実行にあると言う。Cerebras の試算によると、地球上のすべての人がChatGPTを使用した場合、年間1兆ドルのコストがかかるという。(運用コストはニューラルネットワークモデルのサイズとユーザー数に比例する)

そこでCerebras とQualcomm は、推論コストを10分の1にすることを目標にパートナーシップを結んだ。Cerebras によると、このソリューションは、重みデータの圧縮やスパース性(不要な接続の刈り込み)、投機的デコーディング、MX6、ネットワーク・アーキテクチャ検索などといったニューラルネットワークの技術を応用するものだという。

スパース性を適切に実装すれば、アクセラレーターの性能を2倍以上にできる可能性がある。投機的デコーディングとは、初期応答を生成するために小型で軽量なモデルを使用し、その応答の精度をチェックするために大型のモデルを使用することで、展開中のモデルの効率を向上させるプロセスだ。

両社はモデルのメモリフットプリントを削減するためにMX6に注目している。MX6は量子化の一種で、重みを低精度に圧縮することでモデルを縮小するために使用できる。一方、ネットワーク・アーキテクチャ検索とは、特定のタスクに対応するニューラルネットワークの設計を自動化し、その性能を高めるプロセスである。

Cerebras が訓練したネットワークは、Qualcomm の新しい推論チップ「AI 100 Ultra」上で効率的に実行されるという。


Source



この記事が面白かったら是非シェアをお願いします!


  • tiktok
    次の記事

    米下院、TikTok禁止法案が賛成多数で可決、上院の対応に注目が集まる

    2024年3月14日 6:56
  • 前の記事

    新たな宇宙膨張データは「我々が宇宙を誤解していた」ことを意味するとノーベル賞受賞者は述べている

    2024年3月13日 17:58
    Webb Hubble confirm Universe s expansion rate

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • Intel glass substrate 5

    Appleがガラスコア基板の採用に向けて協議を進めている

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • sibelco spruce pine

    世界の半導体は米国のたった1カ所の鉱山に支えられている

今読まれている記事