TACC が主要な HPC コードをより高速に実行

インテル® Xeon® CPU マックス・シリーズの科学的アプリケーションでは、Frontera より優れており、メモリー帯域幅に制限されたコードが向上しています。

概要:

  • Texas Advanced Computing Center (TACC) は、米国の学術研究者向けの有数のスーパーコンピューティング施設です。

  • Stampede2 システムの交換を検討する際に、TACC は、高帯域幅メモリー (HBM) 搭載のインテル® Xeon® CPU マックス・シリーズで科学コードのパフォーマンスを評価しました。

author-image

投稿者:

エグゼクティブ・サマリー

2023年7月、テキサス大学オースティン校の Texas Advanced Computing Center (TACC) は、米国 National Science Foundation (NSF) が、米国全体の学術研究を支援する Stampede3 スーパーコンピューター向けの新しいハードウェアに対して、1,000 万ドルの助成金を授与したことを発表しました。

Stampede システムは、10 年以上にわたり、NSF アカデミック・スーパーコンピューティング・エコシステムにおけるフラッグシップでした。Stampede3 は、次のもので構成されます。

 

  • 高帯域幅メモリーを搭載したインテル® Xeon® CPU マックス・シリーズで構築された新しい 4 PFLOPS の処理能力を持つ 560 ノードによるハイエンド・シミュレーション向けのシステム。これらのノードは、パフォーマンス集約型のコンピューティング・ジョブ向けに、最大で約 63,000 コアを追加します。
  • AI/ マシンラーニング (ML) およびその他の GPU フレンドリーなアプリケーション向けの 40 台のインテル® データセンター GPU マックス・シリーズ を装備した 10 台の Dell PowerEdge XE9640 サーバーを含む新しい GPU/Artificial Intelligence (AI) サブシステム。
  • より高いメモリー・アプリケーション向けの 224 台の第 3世代インテル® Xeon® スケーラブル・プロセッサー・ノードと、Stampede2 の 1,000 以上の既存のインテル® Xeon® スケーラブル・プロセッサー・ファミリーを再統合。これらのプロセッサーは、高スループット・コンピューティング、インタラクティブ・ワークロード、その他の小規模なワークロードをサポートします。
  • 24TB/s バックプレーン帯域幅を備えた、Cornelis Networks の新しい Omni-Path Express 400Gb/s ファブリック・テクノロジーの追加。新しいファブリックは、アプリケーションの低レイテンシーと優れたスケーラビリティーと、I/O サブシステムへの高い接続性を実現するハイパフォーマンス・インターコネクトを提供します。
  • 新しく設計された Dell Technologies DLC7000 ラックにインストールされる PowerEdge C6620 サーバーと XE9640 サーバーは、各 CPU および GPU への直接液体冷却をサポートし、室内でニュートラルに近い温度を提供します。
  • Stampede3 の管理プラットフォームとなる Dell Technologies のネットワーキング。

「インテル® Xeon® CPU マックス・シリーズによるノードの高帯域幅メモリーにより、ユーザーがこれまでに見てきた他のどの CPU より優れたパフォーマンスを実現できると考えています。」- TACCディレクター、Dan Stanzione 氏

Stampede3 は、総計で 140,000 以上のインテル・コアを備えた 1,858 台のコンピューティング・ノード、330 TB 以上の RAM、13 ペタバイトの新しいストレージ、ほぼ 10 PFLOPS のピーク・ケイパビリティーで構成されます。すべてのコンポーネントは、同じファブリック、ファイルシステム、および割り当てに統合されます。

「インテル® Xeon® CPU マックス・シリーズ・ノードの高帯域幅メモリーにより、ユーザーがこれまでに見てきたどの CPU よりも優れたパフォーマンスを実現できると考えています」と TACC ディレクターの Dan Stanzione 氏 は述べています。「Stampede2 の第 2 世代および第 3 世代インテル® Xeon® プロセッサー・ノードと比較して、コア当たりのメモリー帯域幅パフォーマンスが 2 倍以上になります」

DDR5 搭載のインテル® Xeon® CPU マックス・シリーズのコミュニティー・アース・システム・モデルは、TACC の Frontera スーパーコンピューターよりも 2.5 倍高速でした。コードは、HBM のみのモードでインテル® Xeon® CPU マックス・シリーズを使用することでさらに 30% の改善を実現しました。1

課題

TACC は、米国の学術研究者向けの有数のスーパーコンピューティング施設です。科学が直面する壮大な課題をサポートし続けるため、センターは常に次世代のコンピューティング・ケーパビリティーに注目しています。米国のアカデミックな HPC コミュニティーを牽引しているインテル / Dell Technologies システム、Stampede2 システムの交換を検討する際に、TACC は、高帯域幅メモリー (HBM) を搭載したプロセッサー・ファミリーであるインテル® Xeon® CPU マックス・シリーズで科学コードのパフォーマンスを評価しました。

HBM は、GPU の台頭における重要な成分の一つです。また、HBM 搭載プロセッサーを含む、スーパーコンピュータ「富嶽」の 2020 年と 2021 年の世界ランキング Top500 の 1 位獲得にも貢献した。インテル® Xeon® CPU マックス・シリーズは、HBM を統合した最初の x86 CPU です。

新しいプロセッサーのパフォーマンスを評価するために、TACC は、NSF が資金援助する Characteristic Science Applications (CSA) プログラムの一部である実環境の HPC アプリケーションを多数使用しました。CSA プログラムを通じて、TACC は、2026 年に到着予定の機関の主力スーパーコンピューターであるコードネーム Horizon をホストするリーダーシップ・クラスのコンピューティング・ファシリティ (LCCF) の科学アプリケーションを準備するために、研究者と協力しています。アプリケーションは、大規模な科学コンピューティング・ユーザーのコミュニティによって特定されました。アプリケーションは、研究者たちが将来のスーパーコンピューターで実行する、言語から方法、ワークフローまで、幅広い科学領域と計算アプローチを反映しています。

表 1.ベンチマークのための Characteristic Science Application (CSA) と Weather Research and Forecasting (WRF) コードのリスト。

ソリューション

TACC の研究者らは、インテル® Xeon® CPU マックス・シリーズで、CSA コードと Weather Research and Forecasting (WRF) コードの 13 をベンチマークとしました。表 1 は、使用されるコードを示しています。TACC の最も強力なケイパビリティー・コンピューティング・システムであり、2023 年 6 月の Top500 リストで現在 21 位である Frontera の第 2 世代インテル® Xeon® プロセッサー・ファミリーで同じコードがベンチマークされました。

インテル® Xeon® CPU マックス・シリーズは、HBM のみモードと、DDR5 のみに依存して HBM をオフにできるフラットモードなど、さまざまなモードで実行できます。TACC は、HBM と DDR5 のパフォーマンス特性と利点を理解するために、これらの両方のメモリーモードでインテル® Xeon® CPU マックス・シリーズの有効性をテストしました。インテル® Xeon® CPU マックス・シリーズは、特にメモリー帯域幅制限アプリケーションで、両方のモードで大幅なパフォーマンス向上を実現しました。

3D 地震コード・非弾性波の伝搬コードは、Frontera よりもインテル MAX-Series CPU で 3.7 倍高速になり、HBM で 100% のブーストを示した。1

成果

どちらのモードも、TACC Frontera スーパーコンピューターを動かす第 2 世代インテル® Xeon® プロセッサー・ファミリーで大幅な利益をもたらしました。例えば、DDR5 メモリーのみでは、コードは平均して、以前のバージョンよりも 2 倍高速になりました。1 しかし、大幅に並列で、データ量が多く、メモリー帯域幅制限の問題に対して、HBM 搭載のインテル® Xeon® CPU マックス・シリーズは、平均速度が 2.6 倍とさらに優れていました。1

HBM 搭載のインテル® Xeon® CPU マックス・シリーズで稼働するコードの 3 分の 1 以上が、DDR5 のみを稼働させるよりも 50% 以上のパフォーマンス向上を実現しました。一部のコードは、HBM の追加により、パフォーマンスが最大 2 倍向上しました。

「新しいインテル® Xeon® CPU マックス・シリーズは、第 2 世代インテル® Xeon® プロセッサー・ファミリーとちょうど 2 倍のコア数を有しているので、少なくとも 2 倍良くなることが期待されます」と HPC の TACC ディレクター、John Cazes は述べました。「しかし、HBM を搭載すると、2.6 倍、素晴らしい乗数です。インテル® Xeon® CPU マックス・シリーズのコアが、HBM が提供するメモリー帯域幅の飽和を妨ぐのに十分なメモリー帯域幅があります。これは、CPU において非常にまれな問題です。」

より高速な、気候予測、発見された材料、モデル化された宇宙

評価された 14 のアプリケーションは IceCube Neutrino Observatory、地震と天体物理学のコミュニティから広く使用されているコード、機械学習とブラックホール・モデリングへの革新的なアプローチを探求するカスタムコードなど、大規模な国際実験のためのソフトウェアです。図 1 を参照してください。

図 1.Characteristic Science Applications (CSA) と Weather Research and Forecasting (WRF) コードとの正規化されたパフォーマンス比較。1

パフォーマンス・ハイライト

HBM で大幅なパフォーマンス向上をもたらすコードの 1 つは、コロラド州立大学が率いる、NSF がスポンサーの EarthWorks プロジェクトによって開発された、Community Earth System Model (CESM) の特別な構成で、季節的な気象と気候現象を超高解像度で研究しています。CESM は、地球科学コミュニティーが使用する主要な気候コードの 1 つです。CESM は、研究コミュニティーとの協力で、国立大気研究センター (NCAR) によって開発、維持されています。CESM の EarthWorks コンフィグレーションは Frontera よりも DDR5 搭載のインテル® Xeon® CPU マックス・シリーズで、2.5 倍とより高速でした。1 コードは、HBM のみモードでさらに 30% 向上 (3.2 倍) しました。1

「新しいテクノロジーの力を適用することで、気候変動に伴うリスクをより深く理解するのに役立つ、全球ストーム解像モデルを開発できます」と EarthWorks コンフィグレーションの開発者の一人、コロラド州立大学の David Randall は述べました。「2.5 ~ 3 倍の高速化により、回答をより速く見つけたり、モデルの解像度と精度をさらに向上させることができます。」

Weather Research and Forecasting Model (WRF) は、大気調査と運用予測アプリケーションの両方向けに設計された、もう一つの最新の数値気象予測システムです。WRF は、Frontera の CPUと比較して、DDR5 搭載のインテル® Xeon® CPU マックス・シリーズは、2.09 倍高速化されました。1 HBM 搭載のインテル® Xeon® CPU マックス・シリーズでは、WRF は、第 2 世代インテル® Xeon® プロセッサー・ファミリーよりも 3.5 倍速く、DDR5 で 70% 高速化されました。1

インテル® Xeon® CPU マックス・シリーズ・メモリー・モードの両方で優れたパフォーマンスを示すもうひとつのコードは 3D 地震コード、非弾性波伝搬 (AWP) です コードは、サンディエゴ・スーパーコンピューター・センターのYifeng Cui が開発しました。コードは、Frontera よりもインテル® Xeon® CPU マックス・シリーズで 3.7 倍高速で、HBM で 100% 向上しました。1

HBM を活用するためにまだ最適化されていないアプリケーションの場合、Cazes は、インテル® Xeon® CPU マックス・シリーズの可用性が、コードとアルゴリズムの変更につながると考えています。

「インテル® Xeon® CPU マックス・シリーズ・ノードの高帯域幅メモリーにより、ユーザーがこれまでに見てきたどの CPU よりも優れたパフォーマンスを実現できると考えています」と Stanzione は述べています。「Stampede2 の第 2 世代および第 3 世代インテル® Xeon® プロセッサー・ノードで、コア当たりメモリー帯域幅パフォーマンスが 2 倍以上になります。米国におけるすべてのオープン・サイエンス・リサーチ・プロジェクトが利用可能な国家サイバー・インフラストラクチャーで、次の高機能かつ高容量 HPC システムとして Stampede3 が導入されることを楽しみにしています」

コードの変更は必要ありません。

新しい CPU アーキテクチャーを見る際、ポーティング・コードは常に考慮されます。コードの開発と最適化にかかる時間と労力は、科学的な取り組みのために利用可能なサイクルを短縮します。多くの小規模チームにとって、複雑で多依存性のレガシーコードを GPU にポートすることは、極めて困難です。

「同じシステム・ライブラリーがあるため、Frontera で実行したバイナリを上げて、インテル® Xeon® CPU マックス・シリーズで実行することができ、それらはうまく機能しました。」- HPC の TACC ディレクター、John Cazes

TACC チームにとって、科学コードのパフォーマンスを評価して比較することは容易でした。Frontera CPU から最新世代のインテル データセンター・プロセッサー・ファミリーにコードをポートするために、コードの変更はほとんど、あるいは全く必要とされませんでした。これは、科学者が x86 プロセッサー向けに最適化した何千ものコードと数十億に及ぶ科学ソフトウェアのラインにとって有益です。

「同じシステム・ライブラリーがあるため、Frontera で実行したバイナリを上げて、インテル® Xeon® CPU マックス・シリーズ実行することができ、それらはうまく機能しました」と TACC の HPC 責任者、John Cazes は述べています。これは、ロス・アラモス・ナショナル・ラボラトリー や Numenta の研究者など、他の初期の顧客の感情を反映しました。

最新のインテル® Xeon® プロセッサー・ファミリーでのこれらのコードのパフォーマンスは、魅力的です。パフォーマンスに加えて、Frontera から最新の CPU に直接コードを取ることが容易になることで、研究者は、余分な作業なしで、より速い結果を得ることができます。

まとめ

CSA コードと WRF の 13 を割り当てる、TACC の評価は、Frontera と比較して、インテル® Xeon® CPU マックス・シリーズの、DDR5 および HBM のみモードの両方を使用して、大幅なパフォーマンス向上を示しています。最も興味深いのは、インテル® Xeon® CPU マックス・シリーズで実行された際の、多くのコードへの HBM のメリットです。また、科学者が、さまざまなシステムと CPU 全体でコードポートに時間を費やす必要がないような形で、高速化がなされます。

「アクセラレーターと GPU の使用は、HPC と AI で間違いなく増加していますが、高帯域幅メモリーによって多くの利点が提供されないかどうかは明らかではありません」と Stanzione は述べています。「私たちはハイパフォーマンス CPU も必要であり、ベンチマークに基づいて、インテル® Xeon® CPU マックス・シリーズは、ユーザーに明確な利点を提供します。」

インテル® Xeon® CPU マックス・シリーズのパフォーマンス・メリット

新しいインテル® Xeon® CPU マックス・シリーズで実行されるコードについて、TACC が目にしているパフォーマンスのいくつかの例を示します。

 

  • CESM の EarthWorks コンフィグレーションは Frontera よりも DDR5 搭載のインテル® Xeon® CPU マックス・シリーズで、2.6 倍とより高速でした。1 コードは、HBM のみモードでさらに 30% 向上 (3.2倍) しました。1
  • WRF は、Frontera の CPUと比較して、DDR5 搭載のインテル® Xeon® CPU マックス・シリーズでは、2.09 倍高速化されました。WRF は、第 2 世代インテル® Xeon® プロセッサー・ファミリーと比較して、インテル® Xeon® CPU マックス・シリーズでは、3.5 倍速く稼働した。1
  • 3D 地震コード、非弾性波伝搬 (AWP) は、Frontera よりもインテル® Xeon® CPU マックス・シリーズで 3.7 倍速く動作し、HBM で 100% のブーストを示した。1

重要なポイント:

  • TACC は、ほぼ 10 PFLOPS のピーク機能を提供する新しい Stampede3 スーパーコンピューターに、インテル® データセンター GPU マックス・シリーズを特徴とするインテル® Xeon® CPU マックス・シリーズと Dell PowerEdge XE9640 サーバーを搭載した Dell PowerEdge C6620 サーバーを選んでいます。
  • 選択は、最新のインテル® Xeon® CPU マックス・シリーズで、14 の主要な HPC コードの パフォーマンスの評価に基づいて行われました。
  • インテル® Xeon® CPU マックス・シリーズで 2.6 倍の平均速度示した。1 高帯域幅メモリーモード。
  • 40 台のインテル® データセンター GPU マックス・シリーズを搭載した AI、ML、GPU フレンドリーなアプリケーション向けの新しいサブシステム。

 

PDF をダウンロード ›