エグゼクティブ・サマリー
大阪大学は、日本の国立大学法人です。全国の学術機関や産業界にいる研究者を支援しています。大阪大学サイバーメディアセンター (CMC) は、物理学から生命化学などに至るまで、幅広い分野の科学にスーパーコンピューティング・リソースを提供しています。2017年、CMC は OCTOPUS を挿入しました。これは、第 1 世代インテル® Xeon® スケーラブル・プロセッサーを搭載した 1.463 ペタフロップ、世界水準のヘテロジニアス・クラスターで、さまざまなアーキテクチャーを使用した、多様なワークロード向けの科学計算を対象としたものです。OCTOPUS は、新しいレベルの発見を可能にしてきました。科学研究における同大学の主導的な地位を維持するため、CMC は 2021年に SQUID を導入しました。この新たなクラスターは、第 3 世代インテル® Xeon® スケーラブル・プロセッサーを搭載し、NEC により構築されたもので、従来の CMC のシステムに比べて 11 倍以上高速であり、ピーク時のパフォーマンスは 16 ペタフロップスを超えています。1 これにより、共有データおよび拡張された容量と機能を使用して、大阪大学は科学の幅広い領域において、新たな取り組みや学際的な研究を支援できるようになります。
SQUID は、従来の CMC システムよりも 11 倍以上高速であり、ピーク時のパフォーマンスは 16 ペタフロップスを超えています。
課題
2017年以前、大阪大学の CMC リソースは、汎用コンピューティングと科学計算の両方の用途で使用されていました。OCTOPUS は、従来型のシミュレーションとモデリング、そして人工知能 (AI) やマシンラーニング (ML) といった時代における新たな作業における、計算科学専用に設計されました。ヘテロジニアス・アーキテクチャーで、インテル® Xeon® スケーラブル・プロセッサーと NVIDIA GPU が含まれています。導入後、利用は急増しました。大阪大学の研究者や学生が新たな成果を挙げるのを支える重要なリソースです。
大阪大学 CMC 准教授、伊達進氏は次のように述べています。「OCTOPUS は、研究者のツールにおいて、依然として重要なコンポーネントです。しかし 2021年には、平均使用率が 90% に達しており、多くのユーザーが作業を開始するため何日も待ち行列に並んでいる状態です」
現在、大阪大学と CMC は国立大学法人として、全国の学術機関や産業界にいる研究者、そしてプロジェクトに取り組む学生を支援しています。さらに、AI、モノのインターネット (IoT)、ハイパフォーマンス・データ分析 (HPDA)、および共有データの使用は、科学における理解を深め、ブレークスルーをもたらす上でますます重要になっています。研究の発展を支援するため、CMC は安全かつ責任ある方法でデータを共有することを通じて、科学の領域全体にわたりイノベーションと学際的な取り組みの拡大を可能にします。こうした機能に加えて、容量、性能、ユーザーのスケーラビリティーのニーズが高まったことが、2021年の SQUID (Supercomputer for Quest to Unsolved Interdisciplinary Datascience) 設計・導入につながりました。
この沿岸水域の 3D 高解像度水力学的シミュレーション (海流と塩分度の空間分布) は、大阪大学のスーパーコンピューターを活用したプロジェクトのうち代表的なものの 1 つです。画像提供: 大阪大学、中谷祐介准教授)
ソリューション
SQUID は、計算科学の最新技術と方法を用いて、データサイエンスの未解決の問題を調べるよう設計されました。こうしたビジョンのため、SQUID には OCTOPUS のように、複数のコンピューティング・アーキテクチャーが必要でした。
伊達氏はこう付け加えます。「あるユーザーは、異なるタイプのコンピューティング・ノードを組み合わせて使います。また別のユーザーは、それらのノードを比較します。SQUID は OCTOPUS と同様、ユーザーのニーズに応えるため、ヘテロジニアスな環境に対応するよう設計されました」
NECによって構築された SQUID は、3 つの異なるグループのコンピューティング・ノードで構成され、合計 1,598 台のサーバーがあります。
- 1,520 の汎用 HPC コンピューティング・ノードは、AI 推論を高速化するインテル® ディープラーニング・ブースト (インテル® DL ブースト) を備えた、デュアルソケットのインテル® Xeon® Platinum 8368 プロセッサーをそれぞれ搭載
- 42 の GPU ノードは、それぞれ 8 つの NVIDIA A100 アクセラレーターを備えた、デュアルソケットのインテル® Xeon® Platinum 8368 プロセッサーを搭載
- 36 のベクトルノードは、それぞれ高帯域幅メモリーを備えた NEC SX-Aurora TSUBASA Type 20A アクセラレーターを搭載
さらに SQUID には、より大きな容量と優れた管理機能、究極のセキュリティー、さらに多くのペタフロップス、そしてより多くのユーザーを簡単にサポートできる機能が必要でした。
対処した 5 つの主な課題
伊達氏は次のように説明します。「SQUID の導入にあたっては、5 つの課題が検討されました。すなわち HPC と HPDA の統合、クラウドバースト、安全なコンピューティング環境、カスタマイズ可能なコンピューティング、そしてデータ集約です。SQUID は、これら 5 つの基準に沿って設計されています」
HPDA 統合: ユーザーは今日、さまざまな目的のために多くの種類の計算を利用する機会があり、これらをシミュレーションでも分析でもさまざまな方法で使っています。HPDA は、研究におけるインサイトを明らかにする重要なツールとして登場したので、従来の HPC と HPDA の両方を SQUID の設計に統合することが重要だったと伊達氏は述べています。
クラウドバースト: 大阪大学 CMC は、ユーザー基盤が拡大するにつれて待ち時間が長くなるのを回避するため、クラスターが大きくなったとしても、さまざまなユーザーのニーズに合わせて迅速に拡張できる能力を必要としていました。その解決策は、必要に応じてクラウドに一部のワークロードをバーストする機能を構築することでした。ユーザーは、SQUID のみで実行するか、必要に応じてクラウドにバーストするかを選択できます。NEC の洗練されたジョブ・スケジューラーは、ユーザーのニーズに応えるため、Oracle Cloud Infrastructure または Microsoft Azure にジョブをプッシュできます。
安全なコンピューティング: NEC と大阪大学 CMC の共同開発の成果によりにより、ユーザーは非常に安全な環境でより多くのデータにアクセスできるようになりました。この環境では、データと計算を保護するため、特定のグループのためにコンピューティングとネットワーキングを分離するダイナミック・パーティショニングが提供されます。さらに、実験的なプログラムにおいて、オンプレミスにある機密、部外秘のデータを、ストレージから移動させることなく利用する方法について検討しています。
カスタマイズ可能なコンピューティング: 大阪大学 CMC は、ユーザーがカスタマイズ可能なワークスペースで作成・実行できるよう、Singularity コンテナをサポートしています。ユーザーは自らのプロジェクトをローカルのデスクトップ PC やノートブック PC 上に構築し、そのコンテナファイルを SQUID に転送し、SQUID で必要なリソースを使用して実行します。
データ集約: 現代の世界的な研究は、スーパーコンピューター・システムにより生成されたデータを主に共有しています。あるプロジェクトで生成されたデータは、別の取り組みにとって重要になる場合があります。そこで SQUID は、世界中の研究者間でデータを集約し共有する機能を備えるよう設計されました。
伊達氏はこう付け加えます。「私たちは ONION (Osaka university Next-generation Infrastructure for Open research and open innovatioN) と名付けたデータ集約インフラストラクチャーを設計しました。これにより研究者は、計算の終了後すぐに、スマートフォンやローカルなコンピューティング環境を通じて他の研究者に結果を共有できます」
ONION は、Cloudian Object Storage HyperStore プラットフォームと連動し、さまざまなデータ・アクセス・プロトコルに対応することで、ストレージの柔軟性が向上しています。例えば、S3 互換の IoT デバイスは、SQUID 並列ファイルシステムにデータを集約するよう構成できるので、ユーザーはそのデータをシミュレーションで利用できます。
データ集約インフラストラクチャーは、Data Direct Networks (DDN) の EXAScaler アプライアンス上に構築されており、20 ペタバイトのハードディスク・ストレージと 1.2 ペタバイトの高速 NVMe ストレージを並列ファイルシステムで提供します。
これらの機能を搭載した設計により、SQUID では国内最速レベルのクラスターを使用して、多くの分野にわたり研究者がジョブを実行し、データを共有できるようになりました。
結論
大学の研究者を支援することに加えて、CMC は 2 つのプログラムを通じ、国家級の研究プロジェクトに SQUID のリソースを提供しています。これらのプロジェクトは、日本の革新的ハイパフォーマンス・コンピューティング・インフラ事務局と、学際大規模情報基盤共同利用・共同研究拠点により承認されています。
伊達氏は次のように述べています。「昨年、これら 2 つの機関から承認された 17 のプロジェクトは、大阪大学 CMC リソース上で実行されました。そのうち 11 が SQUID 上で完了しました。これらのプロジェクトは、量子色力学 (QDC)、分子動力学、COVID-19、天体物理学などに関するものです」
伊達氏によると、大学内の研究グループの 1 つは SQUID を使用して、キューの混合について調査しています。「このグループは、ノード内のプロセッサーとアクセラレーターの異なる特製を活用するため、異なるコンピューティング・ノードを組み合わせる方法で使用します。この取り組みは、ヘテロジニアス・コンピューティング・ノードをより効果的に利用する方法を検証するものです」と述べています。
SQUID の設計において検討された 5 つの課題に対処することは、研究がより世界的になってきたことへの対応でした。科学者たちは、新たな洞察を得て画期的な発見をするため、より積極的に協力しています。SQUID は、大容量とデータ集約/共有インフラストラクチャーで、世界的な研究コミュニティーを支援します。
ソリューションのまとめ
大阪大学 CMC は、2017年に導入された OCTOPUS のリソースを拡張し、より高いパフォーマンス、より大きな容量、成長する研究コミュニティーのニーズに応える能力を備える必要がありました。NEC は、第 3 世代インテル® Xeon®スケーラブル・プロセッサー、GPU、ベクトル・アクセラレーターでヘテロジニアス・アーキテクチャー・クラスターを構築し、16 ペタフロップス以上を達成しました。DDN EXAScaler アプライアンスと Cloudian Object Storage HyperStore プラットフォーム上に構築されたデータ集約インフラストラクチャーにより、科学者は計算を実行し、世界中の人々とデータをすぐに共有できます。SQUID は、日本の学術機関や産業界にいる研究者にとって重要なリソースであり、複数の科学分野にわたって発見と洞察を可能にします。
ソリューションの構成
- 1,520 ノードはインテル® Xeon® Platinum® 8368 プロセッサー搭載
- 42 ノードはインテル® Xeon® Platinum® 8368 プロセッサー、および各ノードに 8 つの GPU を搭載
- 36 ノードは NEC SX-Aurora TSUBASA Type20A ベクトル・アクセラレーターを搭載
- DDN EXAScaler ストレージ・アプライアンス