IBMは、人間の脳のように働き、さまざまなディープ・ニューラル・ネットワーク(DNN)のタスクで複雑な計算を行う事が可能な、新たなアナログAIチップのプロトタイプを発表した。
IBMによれば、この最新チップはAI処理を著しく効率化し、コンピューターやスマートフォンのバッテリー消耗を抑えることができるという。
IBM Researchが発表した論文の中で、同社はこのチップを紹介している:「この完全集積チップは、オンチップ通信ネットワークで相互接続された64個のAIMCコアを備えています。また、個々の畳み込み層と長期短期記憶ユニットに関わるデジタル活性化関数と追加処理も実装している」。
AI処理を刷新する
この新しいAIチップは、IBMのAlbany NanoTech Complexで開発され、64個のアナログ・インメモリ・コンピューティング・コアで構成されている。IBMは、神経ネットワークが生物学的な脳で実行される方法の主な特徴を借りることで、アナログとデジタルの世界を移行するために、各タイルまたはコアにコンパクトな時間ベースのアナログ・デジタル変換器をチップに組み込んだと説明している。
各タイル(またはコア)には、単純な非線形ニューロン活性化関数とスケーリング演算を実行する軽量デジタル処理ユニットも統合されているとのことだ。
アナログチップはデジタルチップに取って代わるか?
将来的には、このIBMのアナログAIプロトタイプチップは、コンピューターやスマートフォンの重いAIアプリケーションを動かす現在のチップに取って代わる可能性がある。同社は、「グローバル・デジタル・プロセッシング・ユニットがチップの中央に統合され、ある種のニューラルネットワークの実行に不可欠な、より複雑な演算を実装します」と、ブログの中で述べている。
より多くの基礎モデルや生成AIツールが市場に参入する中、これらのモデルが動作する従来のコンピューティング手法のパフォーマンスやエネルギー効率は、既に限界に達している。
IBMはそのギャップを埋めたいと考えている。同社によると、現在開発されているチップの多くは、メモリとプロセッシング・ユニットが分割されているため、計算速度が低下しているという。「つまり、AIモデルは通常、離散的なメモリロケーションに保存され、計算タスクはメモリとプロセッシングユニットの間で常にデータをシャッフルする必要があります」。
BBCの取材に対し、スイスにあるIBMの研究所を拠点とする科学者Thanos Vasilopoulos氏は、人間の脳を従来のコンピューターと比較し、前者は “ほとんど電力を消費しないのに驚くべきパフォーマンスを達成できる “と述べた。
同氏は、(IBMチップの)優れたエネルギー効率は、例えば自動車、スマートフォン、カメラなど、「大規模でより複雑なワークロードを、低消費電力またはバッテリーに制約のある環境で実行できる」ことを意味すると述べた。
「さらに、クラウドプロバイダーはこのチップを使うことで、エネルギーコストを削減し、二酸化炭素排出量を削減することができる」と付け加えている。
論文
- Nature Electronics: A 64-core mixed-signal in-memory compute chip based on phase-change memory for deep neural network inference
参考文献
- IBM: IBM Research’s latest analog AI chip for deep learning inference
- via BBC: Prototype ‘Brain-like’ chip promises greener AI, says tech giant
研究の要旨
抵抗メモリデバイスを用いたアナログインメモリコンピューティング(AIMC)は、メモリ内で計算を直接実行することで、ディープニューラルネットワーク推論タスクのレイテンシとエネルギー消費を削減できる可能性がある。しかし、遅延とエネルギー消費をエンドツーエンドで改善するためには、AIMCをオンチップデジタル演算やオンチップ通信と組み合わせる必要がある。本論文では、14nmの相補型金属酸化膜半導体技術で設計・製造され、バックエンドに相変化メモリを集積したマルチコアAIMCチップについて報告する。この完全集積チップは、オンチップ通信ネットワークで相互接続された64個のAIMCコアを備えている。また、個々の畳み込み層と長期短期記憶ユニットに関わるデジタル活性化関数と追加処理も実装している。このアプローチにより、ウェイト層と活性化関数に関連するすべての計算をチップ上に実装しながら、ResNetと長期短期記憶ネットワークでソフトウェアとほぼ同等の推論精度を実証した。8ビットの入出力行列-ベクトル乗算では、4相(高精度)または1相(低精度)の演算読み出しモードにおいて、チップはそれぞれ1ワット当たり2.48または9.76テラ演算/秒のエネルギー効率で、最大16.1または63.1テラ演算/秒のスループットを達成できる。
コメントを残す