IBMリサーチは、AIシステムの効率に革命をもたらす可能性のある新しいチップ・プロトタイプ「NorthPole」を開発した。このチップは20年近く開発が続けられており、フォン・ノイマン・ボトルネックを克服することを目的としている。フォン・ノイマン・ボトルネックとは、ノイマン型コンピュータでは記憶装置に命令を格納するので、プロセッサが命令を実行するには必ずバスを通して記憶装置(メモリなど)にアクセスしなければならず、プロセッサと記憶装置のアクセス速度が遅ければコンピュータ全体のボトルネックになってしまうというものだ。
従来のTrueNorthチップを拡張したNorthPoleは、テストにおいて優れたエネルギー効率、スペース効率、低レイテンシーを実証した。このチップのメモリはチップ自体に搭載されており、より高速なAI推論を可能にしている。しかし、オンボードメモリからしか引き出せないため、用途が限定される可能性がある。このチップはコンピューター・ビジョン関連の用途に適しており、自律走行車、ロボット工学、デジタル・アシスタント、空間コンピューティングに使用できる可能性がある。研究チームは現在、この設計をより小型のチップ製造プロセスに転用する方法を模索し、アーキテクチャーの可能性をさらに探っている。
IBMのAI脳にインスパイアされたチップ
人工知能は、莫大な計算能力を必要とするエネルギーモンスターだ。行動モニタリング、顔認識ソフトウェア、ライブ・オブジェクト・トラッキングのようなAIアプリケーションをリアルタイムで実行するには、より高速で正確な推論を行うコンピューティング・システムが必要だ。そしてAIのエネルギーコストの多くは、メモリと実行ユニットの分離に起因する。ニューラルネットワークの重要な構成要素である「ニューロン」の異なる層間の接続の重みはメモリに保持されているため、従来のプロセッサーやGPUで実行する場合、重みをメモリから実行中に使用できる場所に移動させるだけで多くのエネルギーを消費する。
この問題は現在でも続いている。
この問題を解決するために、研究者たちは、脳に着想を得たコンピューティングと半導体技術の交差点に位置するアーキテクチャーの革新を開発した。NorthPoleと呼ばれるこのアーキテクチャは、シングルチップ上でコンピュートとメモリを絡み合わせるため、消費エネルギーが少なく、効率的にデータを処理する。
NorthPoleチップAIハードウェアへの新しいアプローチ
Modha氏は、NorthPoleと呼ぶニューラル推論用の新しいタイプのデジタルAIチップに取り組んでいる。このチップは、Modha氏が2014年以前に取り組んでいた最後の脳に着想を得たチップであるTrueNorthを拡張したものだ。一般的な画像認識と物体検出モデルのテストにおいて、この新しいプロトタイプデバイスは、現在市販されているどのチップよりも高いエネルギー効率、高いスペース効率、低いレイテンシを実証した。また、TrueNorthよりも大幅に高速である。
NorthPoleは、それ以前のTrueNorthのように、それぞれがローカル・メモリとコード実行能力の両方を含む計算ユニットの大きな配列(16×16)で構成されている。そのため、ニューラルネットワークのさまざまな接続の重みはすべて、必要な場所に正確に保存することができる。
もうひとつの特徴は、少なくとも4つの異なるネットワークを持つ、広範なオンチップ・ネットワーキングである。そのうちのいくつかは、完了した計算から次に必要とされるコンピュート・ユニットに情報を運ぶ。他のネットワークは、コンピュート・ユニットのアレイ全体を再構成するために使用され、前のレイヤーの計算がまだ進行中である間に、ニューラルネットワークの1つのレイヤーを実行するのに必要なニューラル・ウェイトとコードを提供する。最後に、隣接するコンピュートユニット間の通信が最適化される。これは、画像内のオブジェクトのエッジを見つける場合などに便利だ。隣接するピクセルが隣接する演算ユニットに行くように画像を入力すれば、隣接するピクセルにまたがる特徴を特定するために、演算ユニットがより簡単に協力できるようになる。
計算リソースも変わっている。各ユニットは、2ビットから8ビット精度の低精度計算を実行するように最適化されている。トレーニングではより高い精度が要求されることが多いが、実行時に必要とされる値は一般的にそこまでの正確さは要求されない。このような実行ユニットを使い続けるために、変数の値に基づく条件分岐を実行することができない。つまり、コードに “if “ステートメントを含めることができない。これにより、投機的分岐実行に必要なハードウェアが不要になり、投機が間違っていることが判明するたびに、間違ったコードが実行されることになる。
この実行の単純さにより、各コンピュート・ユニットは超並列実行が可能になる。2ビット精度の場合、各ユニットは8,000以上の計算を並列に実行できる。
「より高度な技術プロセスを使用したものも含め、他の同等のアーキテクチャと比較して、より高い性能、エネルギー効率、面積効率を達成しています」と研究者らは説明する。
NorthPoleの開発チームは、このような特徴的な設計の選択のために、各レイヤーで成功裏に操作するために必要な最小レベルの精度などを計算する独自のトレーニング・ソフトウェアを開発しなければならなかった。
チップ上でニューラルネットワークを実行するのも、比較的珍しいプロセスだ。ニューラルネットワークの重みと接続がチップ上のバッファに配置されると、実行には外部コントローラー(通常はCPU)が必要で、操作対象のデータ(画像など)をアップロードし、開始を指示するだけでよい。それ以外はCPUが関与することなく完了まで実行されるため、システムレベルの消費電力も抑えられるはずだ。
NorthPoleのテストチップは12nmプロセスで作られており、最先端からはかなり遅れている。それでも、それぞれ768キロバイトのメモリを搭載した256個の演算ユニットを、220億トランジスタのチップに収めることに成功した。このシステムを、同様のプロセスで製造されたNVIDIA V100 Tensor Core GPUと比較したところ、NorthPoleは同じ電力で25倍の計算を実行できることがわかった。また、同じ測定方法で、最先端のGPUを約5倍上回ることができた。このシステムを使ったテストでは、広く使われているニューラルネットワークのタスクも効率的に実行できることが示された。
「最も野心的なことは、NorthPoleチップの大規模なネットワークを構想することが可能になったことです」。
NorthPoleチップの今後
NorthPoleチップの研究はまだ進行中だが、その構造は、より確立されたものだけでなく、新たなAIのユースケースにも適している。テストにおいて、NorthPoleチームは主にコンピューター・ビジョン関連の用途に焦点を当てた。しかし、自然言語処理や音声認識など、他の分野でもテストされた。
NorthPoleチップの潜在的な使用例としては、自律走行車、ロボット工学、デジタルアシスタント、空間コンピューティングなどがある。リアルタイムで大量のデータ処理を必要とする多くのエッジ・アプリケーションは、NorthPoleに適している可能性がある。例えば、自律走行車を、決められた地図とルートを必要とする機械から、現実世界の状況に応じて考え、反応する機械へと移行させるために必要なデバイスとなる可能性がある。
CPUの現在の技術水準は3nmであり、すでに2nmノードの研究が進められている。つまり、12nmノードのNorthPoleは、基本的なアーキテクチャの革新に加えて、効率と性能の向上を発見し続けるために、数世代にわたって実装される可能性があるということだ。
Modha氏にとって、これは彼のプロとしてのキャリアを支配してきた連続体に沿った重要なマイルストーンにすぎない。脳が最もエネルギー効率の高いプロセッサーであることを知りながら、それをデジタルで再現する方法を模索してきた。Modha氏によれば、その答えは「脳から着想を得たコンピューティングをシリコンのスピードで実現する」ことだった。
この8年間、Modha氏と彼の同僚たちは、このビジョンを現実のものにするという目標にひたすら没頭してきた。チームは今年になるまで、講演をしたり論文を発表したりすることはなかった。一人ひとりが異なるスキルと視点を持ちながら、全員が協力し、チーム全体としての貢献は部分の総和よりもはるかに大きかった。現在、NorthPoleで何ができるかを示すと同時に、設計をより小さなチップの製造プロセスにどのように反映させるかを模索し、アーキテクチャの可能性をさらに追求する計画だ。
論文
参考文献
- IBM: A new chip architecture points to faster, more energy-efficient AI
- NewScientist: IBM’s brain-inspired chip could be the fastest at running AI yet
研究の要旨
コンピューティングはその誕生以来、プロセッサ中心で、メモリはコンピュートから切り離されてきた。有機的な脳から着想を得て無機シリコンに最適化されたNorthPoleは、オフチップ・メモリを排除し、コンピュートとオンチップ・メモリを絡み合わせ、アクティブ・メモリ・チップとして外部に現れることで、この境界を曖昧にするニューラル推論アーキテクチャである。NorthPoleは、低精度、超並列、高密度相互接続、エネルギー効率、空間コンピューティングアーキテクチャであり、協調最適化された高利用率のプログラミングモデルを備えています。ResNet50ベンチマーク画像分類ネットワークにおいて、NorthPoleは同等の12nmテクノロジープロセスを使用したGPUと比較して、25✕高いエネルギー指標(フレーム・パー・秒/ワット)、5✕高い空間指標(フレーム・パー・秒/トランジスタ)、22✕低い時間指標(レイテンシ)を達成しました。同様の結果がYolo-v4検出ネットワークでも報告されている。NorthPoleは、より高度な技術プロセスを使用したものであっても、すべての一般的なアーキテクチャを凌駕しています。
コメントを残す