インテル 世界最大規模のニューロモーフィック・システムを構築して サステナビリティーの高いAIを実現

効率性と拡張性の高いAIへの道を切り拓く業界初の11億5,000万ニューロン・ニューロモーフィック・システムHala Pointを構築

最新情報

インテル コーポレーション(米国カリフォルニア州サンタクララ)は、世界最大規模ニューロモーフィック・システムの構築完了を発表しました。「Hala Point(開発コード名)」と呼ばれるこの大規模ニューロモーフィック・システムは、インテルのLoihi 2プロセッサーを搭載し、最初にサンディア国立研究所に導入される予定です。このシステムは、人間の脳に着想を得た未来のAI研究での活用を目的に、現在のAIに立ちはだかる効率とサステナビリティーの課題解決に挑みます。インテルの第1世代大規模研究システムPohoiki Springs(開発コード名)を進化させたHala Pointは、アーキテクチャーの大幅な改良により、10倍以上のニューロン数と最大12倍のパフォーマンスを実現します。 

「現在のAIモデルにかかる演算コストは、サステナブルとは言えないペースで増大しています。業界が必要としているのは、拡張が可能な、根本的に新しいアプローチです。こうした理由から、ディープラーニングの効率に人間の脳から着想を得た新しい学習と最適化の機能を組み合わせ、Hala Pointを開発しました。インテルは、Hala Pointを活用した研究が、大規模AIテクノロジーの効率性と適応性における革新につながると期待しています」

–インテルラボ、ニューロモーフィック・コンピューティング・ラボ担当ディレクター、マイク・デイビス(Mike Davies)

Hala Pointは、メインストリームのAIワークロードで最先端の演算効率を実証する、初の大規模ニューロモーフィック・システムです。1秒間に20千兆回(つまり20 Peta-ops)の演算処理性能を特長とし、従来のディープ・ニューラル・ネットワークを実行した場合、ワット当たり1秒間に15兆回の8ビット演算(TOPS/W)を超える効率を示しています。これはGPUやCPUのアーキテクチャーが実現する効率に匹敵もしくは上回るレベルです。このHala Pointに備わる唯一無二の能力は、科学や工学の問題解決、物流、スマートシティーのインフラ管理、大規模言語モデル(LLM)、AIエージェントといったAIアプリケーションにおける、将来的なリアルタイムの継続学習に革新を起こす可能性があります。

可能性のある応用例

サンディア国立研究所のリサーチチームでは、Hala Pointを高度な脳スケールのコンピューティングに活用しようと計画中です。同研究所は、デバイス物理学、コンピューター・アーキテクチャー、コンピューター・サイエンス、情報学など、科学演算の問題解決に重点的に取り組んでいく意向を示しています。

「Hala Pointを連動させることで、サンディア研究チームには科学モデリングの問題を解決する貴重な能力が手に入りました。この規模のシステムで研究を行えば、AIの進歩と同じペースで、演算処理、モデリング、シミュレーション、データ分析を実行できます」
-    サンディア国立研究所、Hala Pointチーム リーダー クレッグ・ビネヤード(Craig Vineyard)

現時点でHala Pointは研究用のプロトタイプであり、将来的な商用システムへの適用を見込み、機能拡張されていく予定です。これらのプロトタイピングを経て、新しいデータから継続学習を行うLLMなど、実用的なブレークスルーにつながっていくとインテルは期待しています。こうした革新的な進歩により、現状、持続することが難しいとされる、広範囲導入済みAIモデルの継続的な学習という問題を軽減出来ると考えています。

注視すべき理由

数兆パラメーターにも及ぶディープラーニング・モデルの規模の拡大といった最近のトレンドは、AIが直面するサステナビリティーの手ごわい課題を浮き彫りにし、ローレベルなハードウェア・アーキテクチャーにおけるイノベーションの必要性を強調してきました。ニューロモーフィック・コンピューティングは、神経科学から洞察を得た根本的に新しいアプローチであり、メモリーとコンピューティングを極めて粒度の高い並列性で統合し、データの移動を最小限に抑えます。今月、音響/音声/信号処理分野の国際会議(ICASSP)で発表された研究結果では、Loihi 2により新しい小規模のエッジ・ワークロードで、効率、速度、適応性が桁違いに向上することが実証されています。[1]

前身となるPohoiki Springsに数々の改良を加えたHala Pointは現在、特にリアルタイムでワークロードを処理する動画配信、音声通話、ワイヤレス通信といった、メインストリームの従来型ディープラーニング・モデルで、ニューロモーフィック性能の向上と効率化を実現しています。例えば、Loihi 2を採用し通信インフラストラクチャーの効率を最適化したEricsson Researchは、世界最大のモバイル展示会MWCで注目を集めました。

Hala Pointについて

Hala Pointの基盤を形成するLoihi 2ニューロモーフィック・プロセッサーは、イベントベースの非同期スパイキング・ニューラル・ネットワーク(SNN)、メモリーとコンピューティングの統合、連続的に変化するスパース接続など、人間の脳に着想を得たコンピューティングの原理を取り入れて、桁違いの電力効率とパフォーマンスの向上を達成しました。ニューロン間はメモリーを介さず相互に直接通信するため、全体の電力消費は低下します。

Hala Pointは、6ラックユニットのデータセンター向けシャーシに、Intel 3プロセス・ノードで製造された1,152基のLoihi 2プロセッサーを積んだ、電子レンジほどのサイズです。140,544個を超えるニューロモーフィック・プロセシング・コアに分散された最大11億5,000万のニューロンを1,280億のシナプスで結合し、消費電力は最大でも2,600ワットに抑えられています。また、補助演算用に2,300基を超えるx86プロセッサーが組み込まれています。

Hala Pointでは、処理、メモリー、通信チャネルを1つの超並列化ファブリックに統合し、システム全体でメモリー帯域幅は毎秒16ペタバイト(PB/s)、コア間の通信帯域幅は3.5PB/s、チップ間の通信帯域幅は5TB/sに達しています。8ビットのシナプス演算は1秒間に380兆回以上、ニューロン演算は1秒間に240兆回以上処理することが可能です。

生物学にヒントを得たスパイキング・ニューラル・ネットワーク(SNN)モデルを適用することで、このシステムはフル容量の11億5,000万ニューロンを人間の脳の20倍高速に、より低容量の際には最大200倍高速に実行することが可能です。Hala Pointは、神経科学モデリング用ではないが、そのニューロン容量はフクロウの脳やオマキザルの皮質とほぼ同等です。

Loihi搭載システムでは、従来のCPUやGPUのアーキテクチャーと比べて消費電力を100分の1に抑えながら、約50倍の高速スピードでAI推論を実行し、最適化の問題を解決できます。[1] 初期段階の結果から示されるとおり、最大10:1のスパース性接続とイベント駆動型アクティビティーを利用することで、Hala Pointは入力データの一括収集を必要とせず、ディープ・ニューラル・ネットワークで約15 TOPS/Wという電力効率を実現しました。[2] この一括収集はGPUでよく見られる最適化の手法ですが、カメラで撮影した映像を取り込むなど、リアルタイムで受信したデータを処理するアプリケーションでは、大幅な遅延の原因となります。まだ研究段階ではありますが、継続学習の能力を備えた未来のニューロモーフィックLLMならば、増大し続けるデータセットを使用してモデルに周期的な再学習処理を行う必要性を排除することで、1時間にギガワット単位の省エネも不可能ではありません。

次のステップ

サンディア国立研究所でのHala Pointの採用は、新しい大規模ニューロモーフィック研究システムの最初の導入となり、インテルは今後このシステムを研究コラボレーターと共有していく予定です。さらなる開発を続け、現実世界におけるAI機能のリアルタイムの導入を妨げている電力効率とレイテンシーの制約を、ニューロモーフィック・コンピューティングのアプリケーションによって解消できると期待されています。

インテルは、先進の教育機関、政府研究所、研究機関、企業など、インテルのニューロモーフィック・リサーチ・コミュニティー(INRC)に参加する世界中の200社を超えるエコシステムのメンバー企業と連携し、脳型AIの限界を取り払い、このテクノロジーを研究用プロトタイプから業界最先端の商用製品へと進展させるよう取り組んでいます。

詳細情報:インテルラボのサイト(英語)を参照してください。

小さな活字:

[1] See “Efficient Video and Audio Processing with Loihi 2,” International Conference on Acoustics, Speech, and Signal Processing, April 2024, and “Advancing Neuromorphic Computing with Loihi: Survey of Results and Outlook,” Proceedings of the IEEE, 2021.

[2] Equivalent efficiency of a fully densely connected MLP network with 2048 neurons, 14,784 layers, 8-bit weights stimulated with random noise. The Hala Point implementation of the MLP network is pruned to exploit 10:1 sparsity offered by the architecture with sigma-delta neuron models providing 10% activation sparsity. Results as of testing in March 2024. Results may vary.