Performance for High Performance Computing (HPC) Platforms1 2 3

Performance for High Performance Computing (HPC) Platforms<sup>1</sup> <sup>2</sup> <sup>3</sup>

Performance for High Performance Computing (HPC) Platforms1 2 3

The latest Intel platform delivers the capability and agility to reduce the need for dedicated systems running specialized hardware and software for unique workloads. In addition, the 2nd Gen Intel® Xeon® Scalable processor offers outstanding performance across the board: Compute, floating point, deep learning, memory bandwidth, platform technologies, density, and real-world application ...performance.

Intel® Xeon® Scalable Processors

Workload-optimized to support high-demand applications and drive actionable insight.

Learn more

Maximize Processor Performance and Memory Bandwidth

The Intel® Server System S9200WK product family is a purpose built, performance-optimized data center block ideal for use in high performance computing (HPC) and AI applications.

Learn more

Breakthrough Performance for Your Real-World Challenges

From AI and analytics to simulation and modeling, Intel’s high performance computing (HPC) platform integrates powerful memory, storage, fabric, and acceleration to tackle your biggest challenges.

Learn more

関連ビデオ

免責事項

1

インテル® Xeon® Platinum 9282 プロセッサーとインテル® ディープ・ラーニング・ブースト (インテル® DL ブースト) で推論のスループットが 30 倍に向上: インテルによるテスト結果 (2019/02/26 時点)。プラットフォーム: Dragon rock 2 ソケットインテル® Xeon® Platinum 9282 プロセッサー (ソケット当たり 56 コア)、HT 有効、ターボ有効、メモリー総容量 768GB (24 スロット / 32GB / 2,933MHz)、BIOS: SE5C620.86B.0D.01.0241.112020180249、CentOS* 7 カーネル 3.10.0-957.5.1.el7.x86_64、ディープラーニング・フレームワーク: インテル® Optimization for Caffe* バージョン: https://github.com/intel/caffe d554cbf1、ICC 2019.2.187、MKL DNN バージョン: v0.17 (コミットハッシュ: 830a10059a018cd2634d94195140cf2d8790a75a)、モデル: https://github.com/intel/caffe/blob/master/models/intel_optimized_models/int8/resnet50_int8_full_conv.prototxt、BS=64、データレイヤーなし合成データ: 3x224x224、56 インスタンス / 2 ソケット、データタイプ: INT8 vs. インテルによるテスト結果 (2017年7月11日時点): 2S インテル® Xeon® Platinum 8180 プロセッサー @ 2.50GHz (28 コア)、HT 無効、ターボ無効、スケーリング・ガバナーは intel_pstate ドライバーから「performance」に設定、384GB DDR4-2666 ECC RAM 搭載。CentOS* Linux リリース 7.3.1611 (コア)、Linux カーネル 3.10.0-514.10.2.el7.x86_64。SSD: インテル® SSD DC S3700 シリーズ (800GB、2.5 インチ SATA 6Gb/s、25nm、MLC)。パフォーマンスの測定に使用した環境変数: KMP_AFFINITY='granularity=fine, compact‘、OMP_NUM_THREADS=56、CPU Freq は cpupower frequency-set -d 2.5G -u 3.8G -g performance。Caffe: (http://github.com/intel/caffe/), revision f96b759f71b2281835f690af267158b82b150b5c.推論は “caffe time --forward_only” コマンドで、トレーニングは “caffe time” コマンドで測定。“ConvNet” トポロジーには、合成データセットを使用。その他のトポロジーについては、データをローカルストレージに保存し、トレーニング前にメモリーにキャッシュ。トポロジーの仕様の詳細については、次のサイトを参照。https://github.com/intel/caffe/tree/master/models/intel_optimized_models (ResNet-50)。インテル® C++ コンパイラー (バージョン 17.0.2 20170213)、インテル® マス・カーネル・ライブラリー (インテル® MKL) スモール・ライブラリー (バージョン 2018.0.20170425)。Caffe は「numactl -l」で実行。

2

4 倍の Linpack パフォーマンス: 第 2 世代インテル® Xeon® Platinum 9242 プロセッサーと AMD* EPYC 7601 を大規模環境 (4 ノード、8 ノード) で比較。

インテル® Xeon® 9242 プロセッサー: 
2S インテル® Xeon® 9242 プロセッサー搭載インテル・リファレンス・プラットフォーム (2.20Ghz、48 コア)、DDR4-2933 16GB x 16、1 SSD、クラスター・ファイル・システム: 2.12.0-1 (サーバー) 2.11.0-14.1 (クライアント)、BIOS: PLYXCRB1.86B.0572.D02.1901180818、マイクロコード: 0x4000017、CentOS* 7.6、カーネル: 3.10.0-957.5.1.el7.x86_64、OFED スタック: RH7.5 上の Lustre* v2.10.4 搭載 OFED OPA 10.8、HBA: 100Gbps インテル® Omni-Path アーキテクチャー (インテル® OPA) 1 ポート PCIe* x16、スイッチ: (インテル® OPA) エッジスイッチ 100 シリーズ 48 ポート、HPL 2.1、インテル® コンパイラー 2019u1、インテル® マス・カーネル・ライブラリー (インテル® MKL) 2019、インテル® MPI 2019u1、HT = 有効、ターボ = 無効、コア当たり 2 スレッド、4 ノード =20,408.00、8 ノード =39921 GF/s (値が大きいほど高性能)。2019年3月3日に実施したインテル社内テストで測定。

AMD* EPYC* 7601
: Supermicro* AS -1023US-TR4、2S AMD* EPYC* 7601 (2.20Ghz、32 コア)、DDR4-2666 16GB x 16、1 SSD、BIOS ver: 1.1b (18/08/20)、マイクロコード ver: 0x8001227、Oracle* Linux* Server リリース 7.5 (3.10.0-862.14.4.el7.crt1.x86_64)、クラスター・ファイル・システム: Panasas* (124TB ストレージ) ファームウェア・バージョン 5.5.0.b-1067797.15 EDR ベースの IEEL Lustre、100Gbps Mellanox EDR MT27700、36 ポート Mellanox EDR IB スイッチ、OFED MLNX mlnx-4.3-3.0.2.0、HPL 2.2、インテル® コンパイラー 2018u3、AMD* BLIS* v0.4.0、インテル® MPI 2018u3、SMT= 有効、ターボ = 有効、コア当たり 2 スレッド、4 ノード =4739.96、8 ノード =9406.07 GF/s (値が大きいほど高性能)。2018年9月23日に実施したインテル社内テストで測定。

3

性能に関するテストに使用されるソフトウェアとワークロードは、性能がインテル® マイクロプロセッサー用に最適化されていることがあります。SYSmark* や MobileMark* などの性能テストは、特定のコンピューター・システム、コンポーネント、ソフトウェア、操作、機能に基づいて行ったものです。これらの要因のいずれかが変更されると、結果が異なることがあります。製品の購入を検討される場合は、ほかの製品と組み合わせた場合の本製品の性能など、ほかの情報や性能テストも参考にして、パフォーマンスを総合的に評価することをお勧めします。詳細については、http://www.intel.co.jp/benchmarks (英語) を参照してください。

パフォーマンス実績は、構成の詳細に記載された日に実施したテストに基づくものです。現在公開中のすべてのセキュリティー・アップデートが適用されているとは限りません。詳細については、公開されている構成情報を参照してください。絶対的なセキュリティーを提供できる製品やコンポーネントはありません。インテル® テクノロジーの機能と利点はシステム構成によって異なり、対応するハードウェアやソフトウェア、またはサービスの有効化が必要となる場合があります。実際の性能はシステム構成によって異なります。詳細については、各システムメーカーまたは販売店にお問い合わせいただくか、http://www.intel.co.jp/ を参照してください。