ジェフ・マクベイ(Jeff McVeigh)
エクサスケール時代に突入し、ゼタスケールに向かい加速する中で、テクノロジー業界が世界の炭素排出量に及ぼす影響も大きくなりつつあります。2030年までに世界全体のエネルギー生産量の3%~7%がデータセンターで消費されるようになると予測される中1、新たに電力利用を増大させている最大の要因はコンピューティング・インフラストラクチャーです。
今年に入ってインテルは、グローバル全体の事業活動において2040年までに温室効果ガス排出量の実質ゼロ(Net-Zero)を実現し、サステナビリティーをさらに向上させるテクノロジー・ソリューションを開発するというコミットメントを公表しました。高まり続けるコンピューティング需要に応えると同時に、持続可能な未来を創造することは、ハイパフォーマンス・コンピューティング(HPC)にとって最も大きな挑戦の1つです。手ごわい難題ではあるものの、HPCのコンピューティング・スタックを構成するシリコン、ソフトウェア、システムというそれぞれの要素において取り組めば、決して解決不可能な問題ではありません。
ドイツのハンブルク州で開催されているISC 2022の基調講演でお話しした核心部分もここにあります。 (See the replay at the top of this page.)
まずは、シリコンとヘテロジニアス・コンピューティングのアーキテクチャーからスタートを
インテルは、2024年に向けてヘテロジニアス・アーキテクチャーの多彩なポートフォリオを展開する、HPCの大胆なロードマップを作成しました。これらのアーキテクチャーによって、汎用ワークロードから、AIや暗号化、分析といった新たなワークロードまで幅広い用途にわたり、電力消費を抑えながらパフォーマンスを桁違いに大きく飛躍させることが可能になります。
広帯域幅メモリー(HBM)を内蔵したインテル® Xeon® スケーラブル・プロセッサー(開発コード名:Sapphire Rapids)はその1つの成果であり、最先端のパッケージング技術とシリコンのさまざまなイノベーション技術を活かし、HPCのパフォーマンスを格段に向上させ、帯域幅の拡大と省電力を実現します。最大64ギガバイトの広帯域幅HBM2eメモリーをパッケージ内に組み込み、複数のアクセラレーターをCPUに統合することで、メモリー帯域幅への負荷によるワークロードの制限を解放し、重要なHPCユースケースで大幅にパフォーマンスを向上させることが可能になりました。まもなく登場するHBMを搭載したインテル® Xeon® スケーラブル・プロセッサーは、第3世代インテル® Xeon® スケーラブル・プロセッサーに比べ、気象予報の研究からエネルギー、製造、物理学などあらゆるワークロードで2倍~3倍のパフォーマンス向上を示しています。2.また、ISC 2022の基調講演では、Ansysの最高技術責任者(CTO)を務めるプリス・バネルジー(Prith Banerjee)氏が、Ansys FluentやParSeNetなど実際のワークロードで、HBM搭載したインテル® Xeon® スケーラブル・プロセッサーが実現した最大2倍のパフォーマンス向上について紹介しました。3
HPCやAIのスーパーコンピューティング・ワークロードにおいてパフォーマンスを桁違いに飛躍させるために、もう1つ欠かせない要素がコンピューティング密度です。インテル初のデータセンター向けGPU(開発コード名:Ponte Vecchio)のフラッグシップ・モデルは、金融サービスの複雑なアプリケーションやAIの推論とトレーニングのワークロードで、すでに競合製品を大幅に上回るパフォーマンスを発揮しています。またインテルでは、OpenMCを使用した高精度シミュレーションでも、Ponte Vecchioが2倍の高速化を実現できることを確認しました。4
インテルのイノベーションはこれだけにとどまりません。本日、このデータセンター向け高性能GPUの後継となる、開発コード名「Rialto Bridge」を発表しました。Ponte Vecchioアーキテクチャーを進化させ、拡張タイルを次世代のプロセスノード技術と組み合わせることで、Rialto Bridgeは、ソフトウェアの整合性を維持しながら、密度、パフォーマンス、効率が格段にアップしました。
さらに未来を見据えたFalcon Shoresは、x86プロセッサーとインテル® Xe GPUアーキテクチャーを1つのソケットに組み込んだ、インテルのロードマップの中でもアーキテクチャーにおける次の重大なイノベーションです。このアーキテクチャーは2024年を目指し、5倍を上回るワット当たり性能、5倍のコンピューティング密度、5倍のメモリー容量と帯域幅の拡大を含め、さまざまなメリットが期待されます。5
ソフトウェア戦略を成功に導く基本原理:オープン性、選択肢、信頼性
シリコンは、ここに生命を吹き込むソフトウェアがなければ、ただの砂(シリコン”Si”の原料)にすぎません。インテルのソフトウェアに対するアプローチでは、スタック全体でオープンな開発を促し、開発者の生産性を向上させるツール、プラットフォーム、ソフトウェアIPを提供し、拡張性の高い高性能かつ高効率のコードを生成して、コードのリファクタリングの負担なく最新のシリコン・イノベーションに備わるアドバンテージを最大限に活かすことができます。oneAPIは業界イニシアチブとしてHPC開発者にクロスアーキテクチャーのプログラミングを提供するため、CPU、GPU、専用アクセラレーターを問わず透明性と移植性を確保しながらコードを適用することが可能です。
現在oneAPIのセンター・オブ・エクセレンスはトップレベルの研究組織から学術機関まで世界中で20拠点を越え、目を見張る進歩を遂げています。例えば、ブリストル大学理学部のサイモン・マッキントッシュ=スミス(Simon MacIntosh-Smith)教授率いるチームでは、クロスアーキテクチャーのプログラミングにoneAPIとKhronosグループのSYCL抽象レイヤーを用いて、エクサスケールでパフォーマンスの移植性を実現するベスト・プラクティスを開発中です。この研究によって、世界中の大規模なヘテロジニアス・スーパーコンピューティング・システムで、科学コードを高性能で実行できるようになると期待されています。
協働を通じた試行錯誤:持続可能なヘテロジニアス・コンピューティングを実現するシステム
データセンターとHPCのワークロードがますます分散型アーキテクチャーやヘテロジニアス・コンピューティングへと移行するにつれて、こうした複雑で多様なコンピューティング環境を効率的に管理できるツールが必要とされるようになっています。
本日リリースとなるインテル® XPU マネージャーは、インテルのデータセンターGPUをローカルでもリモートからでもモニタリングして管理できる、オープンソースのソリューションです。このソリューションは、管理の簡素化、総合的な診断による信頼性とアップタイム(稼働時間)の最大化、使用率の向上、ファームウェアの更新を目的に設計されました。
分散型非同期オブジェクト・ストレージ(DAOS)のファイルシステムは、データを転送して格納する電力消費の大きいタスクに対し、システム単位で最適化を行います。DAOSがファイルシステムのパフォーマンスに及ぼす影響は非常に大きく、全体的なアクセス時間とストレージ容量の両方を抑えるため、データセンターのフットプリントを縮小して、電力効率の向上につなげることが可能です。Lustreと比較したIO-500のベンチマーク評価によると、DAOSはハードディスク書き込みファイルシステムで70倍高いパフォーマンスを示していることが分かります。6
HPCのサステナビリティーに関する課題に対処
インテルは、同じ目的を共有するお客様企業や世界をけん引する研究機関とのパートナーシップにより、持続可能でオープンなHPCを開発できることを誇りに思っています。最近では、バルセロナ・スーパーコンピューティング・センター(BSC)とのパートナーシップを通じた最先端のRISC-Vゼタスケール・ラボの設立、現行のエクサスケール・ラボを新たにケンブリッジ・ゼタスケール・ラボへと発展させたケンブリッジ大学とDellとの長年にわたるコラボレーションも、その一部として挙げられます。いずれの協働も、欧州に強固なイノベーション・エコシステムを確立するという、コンピューティングの未来を見据えたインテルの計画に基づき築かれたものです。
結局のところ、こうした目的は1社だけで達成できるものではありません。製造、シリコン、インターコネクト、ソフトウェア、システムまですべてにわたり、エコシステム全体で平等に協力しあう必要があります。協働を通じ実行していくことで、HPCが直面する今世紀最大の難題をチャンスへと転換し、未来の世代のために世界を変えていくことができると考えています。
- インテル コーポレーション 副社長 兼 スーパーコンピューティング事業部長 ジェフ・マクベイ(Jeff McVeigh)
Notices and Disclaimers:
1 Andrae Hypotheses for primary energy use, electricity use and CO2 emissions of global computing and its share of the total between 2020 and 2030, WSEAS Trans Power Syst, 15 (2020)
2 As measured by the following:
CloverLeaf
-
Test by Intel as of 04/26/2022. 1-node, 2x Intel® Xeon® Platinum 8360Y CPU, 72 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04, Kernel 5.10, 0xd0002a0, ifort 2021.5, Intel MPI 2021.5.1, build knobs: -xCORE-AVX512 –qopt-zmm-usage=high
-
Test by Intel as of 04/19/22. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, ifort 2021.5, Intel MPI 2021.5.1, build knobs: -xCORE-AVX512 –qopt-zmm-usage=high
OpenFOAM
-
Test by Intel as of 01/26/2022. 1-node, 2x Intel® Xeon® Platinum 8380 CPU), 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, 0xd000270, Rocky Linux 8.5 , Linux version 4.18., OpenFOAM® v1912, Motorbike 28M @ 250 iterations; Build notes: Tools: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
-
Test by Intel as of 01/26/2022 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT Off, Turbo Off, Total Memory 128 GB (HBM2e at 3200 MHz), preproduction platform and BIOS, CentOS 8, Linux version 5.12, OpenFOAM® v1912, Motorbike 28M @ 250 iterations; Build notes: Tools: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512
WRF
-
Test by Intel as of 05/03/2022. 1-node, 2x Intel® Xeon® 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, ucode revision=0xd000270, Rocky Linux 8.5, Linux version 4.18, WRF v4.2.2
-
Test by Intel as of 05/03/2022. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, WRF v4.2.2
YASK
-
Test by Intel as of 05/9/2022. 1-node, 2x Intel® Xeon® Platinum 8360Y CPU, 72 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Rocky linux 8.5, kernel 4.18.0, 0xd000270, Build knobs: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
-
Test by Intel as of 05/03/22. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, >40 cores, HT ON, Turbo ON, Total Memory 128 GB (HBM2e at 3200 MHz), BIOS Version EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux version 5.16, Build knobs: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
3 Ansys Fluent
-
Test by Intel as of 2/2022 1-node, 2x Intel ® Xeon ® Platinum 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256 GB (16x16GB 3200MT/s, Dual-Rank), BIOS Version SE5C6200.86B.0020.P23.2103261309, ucode revision=0xd000270, Rocky Linux 8.5 , Linux version 4.18, Ansys Fluent 2021 R2 Aircraft_wing_14m; Build notes: Commercial release using Intel 19.3 compiler and Intel MPI 2019u
-
Test by Intel as of 2/2022 1-node, 2x Pre-production Intel® Xeon® Scalable Processor code names Sapphire Rapids with HBM, >40 cores, HT Off, Turbo Off, Total Memory 128 GB (HBM2e at 3200 MHz), preproduction platform and BIOS, CentOS 8, Linux version 5.12, Ansys Fluent 2021 R2 Aircraft_wing_14m; Build notes: Commercial release using Intel 19.3 compiler and Intel MPI 2019u8
Ansys ParSeNet
-
Test by Intel as of 05/24/2022. 1-node, 2x Intel® Xeon® Platinum 8380 CPU, 80 cores, HT On, Turbo On, Total Memory 256GB (16x16GB DDR4 3200 MT/s [3200 MT/s]), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04.1 LTS, 5.10, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)
-
Test by Intel as of 04/18/2022. 1-node, 2x Pre-production Intel® Xeon® Scalable Processor codenamed Sapphire Rapids Plus HBM, 112 cores, HT On, Turbo On, Total Memory 128GB (HBM2e 3200 MT/s), EGSDCRB1.86B.0077.D11.2203281354, CentOS Stream 8, 5.16, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)