Arm、次世代フラッグシップコア「Cortex-X4」を発表

masapoco
投稿日
2023年5月29日 10:29
cortex x4 hero

本日、Armは、同社の次世代フラッグシップ・パフォーマンス・コアであり、これまでに設計されたArmコアの中で最も高性能な「Cortex-X4」を発表した。

Cortex-X4は、Armの最新フラッグシップコアだ。Armによると、現行世代で、Snapdragon 8 Gen 2等に採用されているCortex-X3と比較して15%の性能向上を実現しているという。Armは、Cortex-Xシリーズの登場以来、“2桁のIPC向上を実現するのは4世代連続である”と述べている。Cortex-X4の性能向上は、同一のキャッシュサイズにおいて10%未満という最小限の面積コストで実現されている。

Cortex-X4は、前モデルと同様に、さまざまなワークロードにおいてCortex-A720が提供する性能以上に必要とされるピーク性能に焦点を当てている。Cortex-X4は、パイプライン全体に及ぶ多くの変更によって性能向上を実現しているとのことだ。

フロントエンド

Armによれば、Cortex-X4のフロントエンドには大きな変更が加えられているとのことだ。具体的には、命令フェッチ配信が完全に再設計されたのだ。

Cortex-A715と同様に、Cortex-X3も、マクロオペレーションキャッシュを完全に廃止したという。その代わり、Cortex-X4ではパイプラインを広げ、最大10命令までサポートするようにした。それに伴い、命令キャッシュも強化された。帯域幅は1サイクルあたり10命令まで向上している。

Armによると、新しい分岐予測器の精度も向上し、実際のワークロードで観察されたストールも測定可能なほど減少している。命令キャッシュとマクロオペレーションキャッシュの変更により、分岐予測ミスのペナルティは統一され、10サイクルに削減された。

バックエンド

アウトオブオーダーのバックエンドも強化されている。実行ユニットの整数側で、Armは前世代のMULユニットをフルMACユニットに更新した。つまり、X4には2つの整数MACユニットがあることになる。また、3つ目のブランチユニットも追加されました。最後に、2つの整数型ALUが追加され、合計8個になった(うち6個は専用パイプ)。

Cortex-X4のアウトオブオーダーバッファは、Cortex-X3の320から、ここでは384に20%増加した。実は、Armは世代ごとにROBを10~30%ずつ増やしている。Cortex-X4のROBは、352エントリーのIntelのSunny Coveコアよりも大きくなっており、512エントリーのROBを持つGolden Coveには及ばないものの、その大きさを物語っている。

Reorder Buffer(ROB)
uArchCortex-X1Cortex-X2Cortex-X3Cortex-X4
Dispatch8/cycle8/cycle8/cycle10/cycle
Max In-flight224288320384

浮動小数点側では、Armはdivider/sqrtユニットを完全にパイプライン化した。パイプやユニット自体に変更はない。

メモリ

メモリサブシステム側では、Armはパイプのバランスを見直した。Cortex-X3では、2つの汎用AGUと1つの専用ロードAGUがあったが、Cortex-X4では、1つの汎用AGUと、2つのロードAGUと1つのストアAGUがある。

命令キャッシュと同様に、Cortex-X4ではデータプリフェッチャも強化された。Armによれば、新たにL1 temporal data prefetcherも追加されたという。また、Armによれば、L1の変更点として、L1データバンクの競合を減らし、L1 TLBを2倍にしたという。

Cortex-X4のプライベートL2キャッシュも拡大されている。システムインテグレータは、最大2MiBのL2キャッシュを統合することができるようになり、前世代に比べてL2キャッシュが倍増した。システム設計者は、より制限された環境で、より小さなキャッシュサイズを使用することも可能だ。Armは、より大きなキャッシュにはレイテンシヒットがないとしている。このオプションは、頻繁に参照するためにコアの近くにあることを利用できる、大きなメモリフットプリントを持つアプリケーションでより高いパフォーマンスを可能にする。

全体として、Cortex-X4はISO-frequencyとL3(L2が大きいとはいえ)で約13%のIPC向上を実現している。

Armは、Cortex-X4は、たとえばTSMCのN3E 3nm製造プロセスを使用して製造できると述べており、このCPUコアがどの程度ハイエンドに設定されているかが窺える。

コアクラスタを束ねるDSU-120は、最大32MBの共有L3キャッシュに対応したほか、リーク電力の低減に役立つ新しい電力モードを搭載した。これには、CPUコアがアイドル状態のときにメモリを低電力状態にする機能が含まれている。

また、DSU-120は、Cortex-X4、Cortex-A720、Cortex-A520を自由に組み合わせたより柔軟なコア構成を可能にし、ノートパソコンによく搭載されるCortex-X4 10個とCortex-A720 4個の構成も可能だ。

new dynamiq shared unit dsu 120
(Credit: Arm)

Source



この記事が面白かったら是非シェアをお願いします!


  • arm a720 a520
    次の記事

    Arm、最新世代ビッグコア「Cortex-A720」と、高効率な小型コア「Cortex-A520」を発表

    2023年5月29日 11:11
  • 前の記事

    運動は本当に脳にいいのか?科学的にはどうなのだろうか?

    2023年5月29日 7:11
    jogging

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • google chrome arm hero

    Google、“遥かに高速な”ArmネイティブなChromeブラウザを正式リリース

  • UXL logo

    NVIDIAのAI市場支配からの脱却を目指しGoogle、Intel、Qualcommらが協力

  • snapdragon x elite hero

    Qualcomm、「Snapdragon X Eliteを搭載したノートPCでほとんどのゲームが実行可能になる」と発表

  • snapdragon x elite hero

    QualcommのSnapdragon X EliteはIntel Core Ultraを最大で10倍も上回るAI性能を発揮

  • arm neoverse

    Arm、AI性能の大幅向上を謳う「Neoverse V3/N3/E3」を発表

今読まれている記事