アルゴンヌ国立研究所の Aurora エクサスケール・システム

Aurora のパフォーマンスは、10 億 × 10 億 FLOPS を超えると予測されており、研究やエンジニアリングの取り組みを強化します。

概要:

  • アルゴンヌ国立研究所は、イリノイ州に拠点を置き、人間が直面する最も重要な疑問への取り組みに焦点を当てた総合的研究センターです。

  • HPE とインテル、および米国エネルギー省のサポートにより、Aurora のパフォーマンスは 1 秒あたり 10 億 × 10 億 の計算に値するエクサフロップスを超えることが期待されています。

author-image

投稿者:

エグゼクティブ・サマリー

アルゴンヌ国立研究所の Aurora は、発表される際、インテル® アーキテクチャーを搭載する国内初のエクサスケール HPC システムとなります。 協力会社の Hewlett Packard Enterprise (HPE) とインテル、米国エネルギー省 (DOE) のサポートにより、Aurora のパフォーマンスは 1 秒あたり 10 億 × 10 億 の計算に値するエクサフロップスを超えることが期待されています。その究極のスケールとパフォーマンス・レベルにより、Aurora は、生化学、エンジニアリング、天体物理学、エネルギー、ヘルスケアなどの分野における世界最先端の研究に必要とされるコンピューティング・パワーを科学界に提供します。

課題

アルゴンヌ国立研究所は、米国における主要な研究機関として、国家の取り組みの最前線で未来のエクサスケール・コンピューティングの能力を実現します。未来の Aurora の拠点となる Argonne Leadership Computing Facility (ALCF) は、HPC のコンバージェンス、ハイパフォーマンス・データ分析、AI により、科学技術計算を進化させています。

大学、業界、政府機関の研究者は、ALCF コンピューティング・リソースを利用できます。ALCF は、スーパーコンピューティングに関する多くの賞とユーザーサポート・サービスを通して、科学とエンジニアリングにおける世界最大かつ最も複雑な問題のいくつかを解決することを目的とした、大規模なコンピューティング・プロジェクトを可能にします。DOE と ALCF は、競争力を確保する要望に加え、大量のデータセットの AI ガイドによる分析やフルスケールのシミュレーションなどの課題に、研究者たちが対処できるようにしたいと考えています。

インテル® アーキテクチャー搭載の国内初のエクサスケール CPU の 1 つを発表する際、Argonne Leadership Computing Facility (ALCF) は、シミュレーション、データ、学習研究を新たなレベルへと推進する支援を行います。

ソリューション

インテルは、社内 HPC システムの専門知識と、インテグレーターとしてのアルゴンヌおよび HPE の HPC 専門家との緊密なパートナーシップの上に構築を行いました。彼らは共に、エクサスケール・システム Aurora を発表し、エクサフロップまたは 1 秒当たり 10 億 × 10 億 の計算機能を実現します。

このチームは、専用のソフトウェアとハードウェアのイノベーションによりシステムを設計し、最適化することに数年を費やし、高度な研究プロジェクトに必要なパフォーマンスを実現してきました。Aurora の設計のその他の要件には、長期的な信頼性とエネルギー効率を備えたコンポーネントが含まれます。

Aurora の発表時には、いくつかの新しいインテル® テクノロジーが搭載されます。それぞれ緊密に統合されたノードには、2 つの次世代のインテル® Xeon® スケーラブル・プロセッサー・ファミリー、および 6 つの次世代のインテル® Xe アーキテクチャー・ベースの GPU が搭載されます。また、各ノードは、8 つのファブリック・エンドポイント、統合メモリー・アーキテクチャー、および高帯域幅で低レイテンシーな接続によるスケーリング効率も提供します。システムは、エクサスケール・コンピューティングの要求に対して 10 ペタバイトのメモリーをサポートします。

Aurora ユーザーは、データ集約型のワークロードに関連するボトルネックを軽減する、インテル® Distributed Asynchronous Object Storage (DAOS) テクノロジーからも恩恵を受けます。インテル® Optane™ パーシステント・メモリーでサポートされる DAOS は、大規模な分散型不揮発性メモリー (NVM) 向けに構築された、ソフトウェア定義されたオブジェクト・ストアを有効化します。

システムは、次世代の HPE システム・ソフトウェアを組み込んだ HPE Cray Shasta スーパーコンピューター・アーキテクチャー上に構築され、処理の選択におけるモジュール性、拡張性、柔軟性とシームレスなスケーラビリティーを実現します。また、ネットワークのバックボーンとして HPE Slingshot インターコネクトを含んでおり、それによりアダプティブ・ルーティング、輻輳制御、イーサネット互換性など、多くの重要な新機能を提供します。

Cray ClusterStor E1000 パラレル・ストレージ・プラットフォームは、計 200 ペタバイト (PB) の新しいストレージを提供することで、研究者の増加するコンバージド・ワークロードをサポートします。新しいソリューションには、データ共有向けに Grand と呼ばれる 150 PB のセンター全体のストレージシステムと、Eagle と呼ばれる 50 PB のコミュニティー・ファイル・システムが含まれます。Aurora の運用が始まると、1 秒当たり 1 テラバイト (TB/s) の帯域幅に対応する Grand は、コンバージドされたシミュレーション科学と新しいデータ集約型のワークロードをサポートするようになります。

Aurora スーパーコンピューターは、米国発のエクサスケール・システムであり、次のようなインテルの今後の HPC と AI ハードウェアおよびソフトウェアのイノベーションを統合します。

  • 次世代のインテル® Xeon® スケーラブル・プロセッサー・ファミリー
  • 未来のインテル® Xe アーキテクチャー・ベースの GPU
  • Distributed Asynchronous Object Storage (DAOS) テクノロジー搭載の 230 ペタバイトのストレージ、帯域幅 > 25TB/S
  • 多様な CPU、GPU、FPGA、AI アーキテクチャー全体での開発を簡素化するよう設計された one API 統合プログラミング・モデル

アルゴンヌのチームは、異種アーキテクチャー上での開発を簡素化するために設計された oneAPI プログラミング・モデルに依存します。oneAPI は、多様な CPU、GPU、FPGA、AI アクセラレーター全体に、単一で統合されたプログラミング・モデルを提供します。

検索結果

現在チームは、新たなアーキテクチャー向けのエコシステムの開発に取り組んでいます。ALCF は、Aurora Early Science Program (ESP) を作成し、研究コミュニティーと重要な科学的アプリケーションが、導入時のエクサスケール・マシンのスケールとアーキテクチャー向けの準備ができていることを確保しました。

ESP は、HPC、ハイパフォーマンス・データ分析、AI にまたがる多様なプロジェクトへ試作の時間とリソースを提供しました。選択されたプロジェクトのほとんどは、その高度さにより、従来の HPC システムの性能を上回る研究成果を示しています。そのため、Aurora は、現在不可能なコンピューティング集約型の科学的取り組みを実現できる、新しい科学の時代へ突入するのに役立ちます。

Hewlett Packard Enterprise に注目
HPE は、コンピューティングと創造性を組み合わせており、ビジョンを持った人々は可能性の限界に挑戦する疑問を持ち続けることができます。HPE は、45 年以上の経験を活かし、世界先進のスーパーコンピューターを開発し、パフォーマンス、効率、スケーラビリティーの限界を押し上げます。HPE Cray EX スーパーコンピューティング・アーキテクチャー向け HPE Cray Program Environment や HPE Slingshot インターコネクトなどの開発により、HPE はデータのコンバージェンスと検出のための新しいソリューションを革新し続けます。HPE は、スーパーコンピューター、ハイパフォーマンス・ストレージ、データ分析、および人工知能ソリューションの包括的なポートフォリオを提供します。

次世代の科学には、究極の HPC システムが必要

Aurora で最初に予定されているプロジェクトは、最も困難で演算負荷の高い取り組みのいくつかを示しています。Aurora Early Science プログラムへの参加資格が認められている多くのプロジェクトの一部には、次のものが含まれます。

安全でクリーンな核融合炉の開発
太陽がエネルギーを生成する方法である核融合は、再生可能なエネルギー源として大きな可能性を提供します。あるタイプの核融合炉は、磁場を利用して、海水から派生する水素の同位体である、重水素を含む高温プラズマである燃料を保持します。Princeton Plasma Physics Lab の首席研究物理学者である William Tang 博士は、Aurora を使用して AI モデルをトレーニングし、原子炉運用の不要な混乱を予測することを計画しています。Aurora は、現在原子炉から大量のデータを取り込み、AI モデルをトレーニングします。その後、このモデルは実験に導入され、今後の混乱を防ぐ制御メカニズムに発展される可能性があります。エクサスケール・コンピューティング、AI の出現、ディープラーニングにより、Tang 博士は核融合エネルギーを実現するための取り組みを進める新しいインサイトを提供します。

ニューロンを電子顕微鏡法データの分析からレンダリングします。挿入図では、特定のセルを示す色付き領域のデータのスライスを表示しています。これらの領域を複数のスライスによりトレースすることで、関連する解剖学的構造に対応するサブボリュームを抽出します。(画像提供: Nicola Ferriermar、Narayanan (Bobby) Kasthuri、Rafael Vescovi、アルゴンヌ国立研究所)

神経科学研究
アルゴンヌ国立研究所の上級コンピューター・サイエンティストである Nicola Ferrier 博士は、シカゴ大学、ハーバード大学、プリンストン大学、Google の研究者と連携しています。この共同の取り組みでは、Aurora を活用して脳構造の全体像、および各ニューロンがどのようにお互いと接続して脳の認識経路を形成するかを理解する方法を探求しています。チームは、その懸命な取り組みが、神経疾患の治療など人類に利益をもたらす情報を明らかにすることを願っています。

より効果的なガン治療法の探求
デューク大学の医工学科で Alfred Winborne Mordecai and Victoria Stover Mordecai Assistant Professor を務める Amanda Randles 博士とその同僚たちは、「HARVEY」システムを開発しました。HARVEY は、非常に複雑な人間の循環システムを移動する血液細胞の流れを予測します。Aurora での取り組みにより、Randles 博士は、HARVEY を再利用してガンの転移をより理解することを目指しています。HARVEY は、転移した細胞が身体のどこを移動するかを予測することで、二次腫瘍が形成される可能性のある場所を早期に予想するのに役立ちます。

「暗黒」宇宙の理解
目に見える星、惑星、ガス、雲、その他のすべての組み合わせは、宇宙全体の 5% にしかすぎません。残りの 95% は、暗黒物質と暗黒エネルギーで構成されています。宇宙は成長しているだけではありません。その膨張速度は加速しています。アルゴンヌ国立研究所の物理学者でコンピューター・サイエンティストである Katrin Heitmann 博士には、Aurora での取り組みにおいて大きな目標があります。彼女の研究では、現在我々にとってほとんど未知の存在である暗黒宇宙についてのより深い理解を探求しています。

銀河団と呼ばれるこの大規模構造のシミュレーションは、早期の ESP の一環であるアルゴンヌの Theta システムで実行されました。オブジェクトの質量は 5.6e14 Msun です。色は温度を表し、白いエリアはバリオンの密度場を示しています。(画像提供: JD Emberson, HACC チーム)

より燃料効率の高い航空機の設計
コロラド大学ボルダー校の航空宇宙工学の教授である Kenneth Jansen 博士は、機体の周囲の乱気流を分析することで、より安全、高性能で燃料効率の高い航空機の設計方法を追求しています。 乱気流の変動は、それとの航空機全体の相互作用をシミュレートすることを困難にします。毎秒、飛行機のさまざまな部分が、空気の流れによる異なる影響を受けます。そのため、Jansen 博士とそのチームは、シミュレーションが進むにつれて、リアルタイムでデータを評価する必要があります。今日の HPC システムは、このタスク向けの機能が欠如しており、飛行機周囲の空気の流れを実際の 19 分の 1 でシミュレーションし、実環境速度の 4 分の 1 で移動しています。

Aurora は、Jansen 博士とそのチームが、フルスケールでのフライトと実際の飛行条件に関連する基礎物理をより理解するのに役立ちます。彼らはそれにより、設計の改善により飛行特性に重要な違いが生まれる場所を特定できます。

HPE は、インテルと協力して、米国初のエクサスケール・スーパーコンピューターをアルゴンヌに構築し、提供します。これは、アルゴンヌの極めて大規模な科学的取り組みとデータ中心のワークロードの基盤となる、HPE Cray EX の柔軟なデザインとユニークなシステムおよびソフトウェア機能、そして HPE Slingshot インターコネクトの能力の証となります。HPE Cray EX スーパーコンピューターは、この変革的なエクススケール時代と、人口知能、分析、モデリング、シミュレーションの、同じシステムでの同時かつ驚異的な規模でのコンバージェンスのために設計されています。」 — HPE、HPC および AI、シニア・バイス・プレジデント兼ジェネラル・マネージャー Peter Ungaro

CERN の Large Hadron Collider Project (LHC) をサポート

アルゴンヌの物理学者である Walter Hopkins 博士は、宇宙を構成する基本粒子とエネルギーを研究する国際的なコラボレーションである ATLAS 実験のメンバーです。ATLAS 実験では、CERN の Large Hadron Collider (LHC) における陽子衝突の結果を画像化します。

これらの画像は、素粒子物理学の標準モデルを完成した 2012年のヒッグス粒子の歴史的な発見で使用されました。今後 10 年間にわたって、アップグレードされた LHC および ATLAS 実験は、10 倍以上のデータを収集し、それらは、例えば「暗黒物質とは何か?」あるいは「重力は、電磁波や強弱のエネルギーとどう関係するか?」などといった今だ残る疑問の解答を導くのに役立つでしょう。データ量が 10 倍に増加する一方で、物理学研究に必要なシミュレーションの量は 100 倍に増加し、現在のリソースを急速に上回っています。このプロジェクトは、より計算集約型であるシミュレーションのいくつかをアクセラレーターに移植して、この増加に対処します。さらに、このプロジェクトはディープラーニングを活用して、現在の粒子識別アルゴリズムの分析範囲を拡大しています。このプロジェクトにより、Aurora は、新たな物理学を探求する次の段階における発見のための重要なリソースとなります。

研究の明るい未来

エクサスケール・コンピューティングは、研究者に広範囲で変革的なツールを提供します。Aurora のパフォーマンス・レベル、スケール、および膨大なデータセットを処理する能力は、驚異的な可能性を提供します。このシステムは、何十年にもわたって、科学者やエンジニアを混乱させてきた謎を解明するのに役立ちます。また、Aurora は、エンジニアリングにおけるイノベーションにおける発見の前例のないレベルを実現します。

アルゴンヌ国立研究所に注目

アルゴンヌ国立研究所は、イリノイ州に拠点を置き、人間が直面する最も重要な疑問への取り組みに焦点を当てた総合的研究センターです。米国エネルギー省 (DoE) のサポートにより、アルゴンヌは、国中の企業や学術機関、その他の研究所など多くの組織と協力し、物理、化学宇宙論、生物学などの分野を越えた科学的進歩を実現します。

構成部品

PDF をダウンロード ›