エグゼクティブ・サマリー
イタリアには、ヨーロッパ中の研究と産業のためのハイパフォーマンス・コンピューティング (HPC) をイノベーションし、サポートしてきた長い歴史があります。イタリアの HPC への取り組みの中心となっているのが Cineca であり、教育省、大学研究省、69 のイタリアの大学、28 の国立公的機関、13 の国立研究機関で構成される、民間の非営利コンソーシアムです。組織はメンバーに HPC リソースとハイレベルなサポートを提供しています。すべてのメンバーが、ヨーロッパ全域にわたる幅広い研究プロジェクトで共同作業を行っています。発見と洞察は、さらなる科学的探究や商用アプリケーションの開発に活用されており、Cineca は学術・科学領域と産業の間の技術的な架け橋となっています。
Cineca は、顧客に高度なテクノロジーを提供し続けるため、新しい HPC システムを 定期的に導入しています。Cineca は最近、最新世代のインテル® Xeon® スケーラブル・プロセッサーと NVIDIA GPU を搭載した最もパワフルなスーパーコンピューターを導入しました。Leonardo と名付けられた新しい HPC システムは、11月の Top500.org リストで第 4 位にランクインしています。Leonardo は、250 ペタ FLOPS HPL のコンピューティング・パフォーマンスと 10 エクサ FLOPS の FP16 AI パフォーマンスを実現するよう設計されており、Cineca にヨーロッパをリードするスーパーコンピューティング・センターとなるためのロードマップに沿った新たな功績を与えています。
第 4 世代インテル® Xeon® スケーラブル・プロセッサーなどの高度なテクノロジーを搭載した Leonardo は、Cineca とその顧客に驚異的な機能を提供します。
課題
イタリアの Cineca では、ヨーロッパ全域に HPC サービスを提供し、科学と産業における発見とイノベーションを実現しています。材料科学、天体物理学、工学、バイオインフォマティクス、気象・気候、その他の分野の高度な研究をサポートしています。HPC テクノロジーや方法論の進化に伴い、研究データが劇的に拡大するにつれて、ワークロードが要求するコンピューティング・リソースは非常に厳しいものになってきています。人工知能 (AI)、マシンラーニング (ML)、ディープラーニング (DL) をワークフローに追加するには、高度なスーパーコンピューティング・アーキテクチャーが必要です。したがって、Cineca は、HPC において競争力のあるエッジを保ち、積極的なエクサスケールのロードマップに従い、世界のスーパーコンピューティングのリーダーとして Cineca を維持していくという哲学を持っています。
表1. Leonardo ストレージ・パーティションの概要 (Cineca 提供)
研究を前進させるため、Cineca は エクサスケール以前の多くのシステムを補完する、イタリアではまだ利用できないコンピューティング機能を備えた、新しいシステムを必要としていました。
- インテル® Xeon® Platinum 8160 プロセッサーおよびインテル® MCU アーキテクチャーで構築された Marconi-A3 など、いくつかの Marconi 層。
- Marconi100、100 ペタ FLOPS システム。
- インテル® Xeon® Platinum 8260 プロセッサーを中心に設計された Gaileo100 および ADA クラウド。
図 1. Leonardo システム概要 (Cineca 提供)
ヨーロッパでのスーパーコンピューティングをサポートしている EuroHPC 共同事業 (EuroHPC JU) プロジェクトは、ヨーロッパ大陸のスーパーコンピューティング・リソースの拡大に資金を提供しています。Cineca と EuroHPC JU の積極的なスーパーコンピューティング計画により、幅広い従来のワークロード、可視化、AI 向けの次世代データセンターおよびスーパーコンピューティング・テクノロジーを搭載した、Cineca の Leonardo と呼ばれる新しい HPC リソースを構築できるようになりました。
ソリューション
Leonardo は、EuroHPC JU の下でヨーロッパ全域に導入されている、数多くの HPC システムの最初の導入事例です。EuroHPC JU からの資金提供を受け、Cineca を始めとするヨーロッパの HPC センターでは、世界の大きな課題に関する需要に対応するため、近い将来、エクサスケールのスーパーコンピューティングを投入しようとしています。
Cineca の顧客のワークロードは、メモリー帯域幅、データ・スループット、浮動小数点演算と行列演算など、コンピューティング・リソースに対するさまざまな要求を提示しています。このようなワークロードには、第一原理材料科学と分子モデリング、気象と気候モデリング、プラズマ物理シミュレーション、大規模なバイオインフォマティクス、AI および ML、その他多くの要求の厳しいアプリケーションが含まれます。したがって、Leonardo はさまざまなワークロードのボトルネックを排除するために、ハイパフォーマンスな汎用 HPC と AI 機能の両方をバランスよく提供する必要がありました。Leonard のために、Cineca はコンピューティング集約型とデータ集約型の HPC ワークロード向けに設計された、100 万個以上の CPU および GPU コアを搭載したハイブリッド・アーキテクチャーを採用しました。
システムの概要
Leonardo は、BULLSequana XH2000 スーパーコンピューター・ノード上に Atos によって構築されました。このシステムには、4 つのパーティション と 136 本以上の BULLSequana XH2000 ダイレクト液体冷却ラックが含まれています。Leonard のパーティションには、フロントエンド / サービス層、ストレージ層、コンピュート・アクセラレーター (ブースター) 層、コンピュート・アクセラレーター (データ中心) 層があります。2 つのコンピューティング層とブースター層では、毎秒約 250 ペタ FLOPS HPL と 10 エクサ FLOPS AI 16 ビット浮動小数点演算処理を実現しています。
フロントエンド / サービス・パーティション: これらはログイン、サービス、可視化ノードを提供します。
ストレージ・パーティション: 高いデータ・スループットと容量の両方に対応するよう設計されたストレージ・パーティションには 5 ペタバイト高速層と 100 ペタバイトの容量層 (表 1) が含まれています。このアーキテクチャーにより、システムは今日の計算問題や AI で見られる大規模なデータセットのためのキャパシティーを提供しつつ、過度な帯域幅と IOPS の高負荷な I/O ユースケースに対応できるようになりました。
コンピューティング (データ中心) のパーテーション: 第 4 世代インテル® Xeon® スケーラブル・プロセッサーを搭載した 1,536 個の BULLSequana X2610 3 ノード・コンピューティング・ブレードにより、コンピューティング (データ中心) のパーテーションは Cineca によると 9 ペタ FLOPS HPL を実現しています。
コンピューティング・アクセラレーター (ブースター) のパーティション: 3,456 個の BULLSequana X2135 DaVinci コンピューティング・ブレードにはそれぞれインテル® Xeon® Platinum 8358 プロセッサー (32 コア) と NVIDIA Ampere GPU を搭載しています。このパーティションは、GPU 高速化ワークロードの計算要求の厳しい要件を満たすよう設計されています。
Leonardo は、Cineca のエクサスケール以前に多くのシステムを補完する最新の追加機能です。
このシステムは、100Gbps のノード間通信を搭載した 200Gbps の InfiniBand Architecture のネットワークにより相互接続されています。
第 4 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリー
コンピューティング・パーティションの第 4 世代インテル® Xeon® スケーラブル・プロセッサーは、特定のワークロード向けに最適化されている内蔵アクセラレーターを統合しています。最適な総所有コストを実現するために、効率性を高め、パフォーマンスの向上を実現します。1 これらのアクセラレーターには、ニューラル・ネットワーク・コンピューティングを高速化するために、BFloat16 と int8 をサポートするインテル® アドバンスト・マトリクス・エクステンション (インテル® AMX)、暗号化とデータ圧縮を高速化するインテル® QuickAssist テクノロジー (インテル® QAT)、とりわけ AI 処理を高速化するインテル® アドバンスト・ベクトル・エクステンション (AVX-512) が含まれています。
今日のスーパーコンピューティング・センターでは電力は重要な指標となっています。第 4 世代インテル® Xeon® スケーラブル・プロセッサーは、インテルで最も持続可能なデータセンター向けプロセッサーであり、電源とパフォーマンスを管理するための多くの機能を備え、主要なサステナビリティー目標達成に向けて CPU リソースの利用を強化しています。
LISA 拡張
さらに、Cineca は LISA と呼ばれる大規模な拡張の認可も受けています。Cineca はこの拡張により Leonard の既に強力な処理能力を 100 ペタ FLOPS 程度向上させ、システムがサポートできるユースケースを拡大できると予想しています。LISA は 2 つの新しいモジュールを追加します。1 つ目は高帯域幅メモリーを利用する従来のノードを搭載したモジュールで、メモリーと CPU 間の高速データ転送を必要とするタスクのパフォーマンスを向上させることを目的としたモジュールです。ハイエンド・アクセラレーション向けの 2 つ目のモジュールは、ワット当たりのパフォーマンスに関して大幅に効率性を高めることを目標に、次世代の GPU サーバーノードを搭載します。
結論
Leonardo は、Cineca とそのメンバーに高度な HPC 機能を提供し、新しい発見とイノベーションを実現します。
Leonardo スーパーコンピューターの試作段階が始まりました。Leonardo Early Access Program (LEAP) は、科学的な影響の大きいプロジェクトをサポートを目的としておりし、Leonardo の多くの計算リソースを利用できます。科学、産業、公共セクターを問わず、あらゆる分野の研究者が国籍に関係なく提案書を提出できます。
まとめ
スーパーコンピューティング・テクノロジーは進化を続け、計算方法論は急速に進化しています。これらは新しく高度な HPC システムを世界中に導入することを可能にします。Cineca の Leonard などの新しいスーパーコンピューターにより、世界中の科学者はより詳細な洞察を獲得し、取り組んでいる大きな課題に関する新たな発見を達成できるようになります。
Cineca は EuroHPC JU からの資金調達支援により、Top500.org で世界第 4 位の高速スーパーコンピューターとなる Leonardo を導入しました。Leonardo は第 4 世代インテル® Xeon® スケーラブル・プロセッサーを搭載した高度なテクノロジーで構築されています。250 ペタ FLOPS を超える HPL と 10 エクサ FLOPS の 16 ビット AI パフォーマンスにより、Leonardo はヨーロッパの研究者が、世界が直面している問題をより深く掘り下げ、科学と産業に関して新しいソリューションをイノベーションすることを可能にします。
インテル® Xeon® スケーラブル・プロセッサー・ファミリーの詳細については、https://www.intel.co.jp/content/www/jp/ja/products/details/processors/xeon/scalable.html をご覧ください。
Leonardo の詳細については、https://leonardo-supercomputer.cineca.eu/hpc-system/ をご覧ください。
ソリューションの構成
- BULLSequana XH2000 プラットフォーム上に Atos によって構築
- 250 ペタ FLOPS HPL (Rmax)/10 エクサ FLOPS FP16 AI パフォーマンス
- インテル® Xeon® Platinum 8358 プロセッサーおよび NVIDIA Ampere GPU を搭載した 3,456 台のサーバー
- 第 4 世代インテル® Xeon® スケーラブル・プロセッサーを搭載した 1,536 台のサーバー
- 5PB のハイパフォーマンス・ストレージ /100PB の大容量ストレージ