データのパワーを最大化するインテル® テクノロジーで、AWS* への投入コスト 1 米ドル当たりのパフォーマンスを向上

インテル® Xeon® スケーラブル・プロセッサー基盤のインスタンスを選択するメリットについて解説します。

AWS* への投資から最大限の価値を引き出すには?

クラウドを導入することで、必要な拡張性、信頼性、柔軟性が得られます。ただ、すべてのクラウドが同じように構築されているわけではありません。インスタンスによっては、ほかと比べてはるかに高い価値をもたらすものもあります。各社のワークロードにとって最適な選択肢はどれかを把握するには、個々のワークロードがどう動くのかに着目しなければなりません。パフォーマンスに関する一般的な統計からは、実際に得られる結果について十分な情報が得られません。特に演算負荷やデータ負荷の高いワークロードを実行している場合に、そのような傾向が顕著です。同様に、インスタンス当たりの価格が把握できたとしても、トランザクションごとの価格や、実際の業務におけるパフォーマンス計測値が明示されるわけではありません。もっと詳しく調べる必要があるのです。

例えば、High Performance Linpack ベンチマークによる評価では、インテル® Xeon® スケーラブル・プロセッサーを基盤とする AWS* インスタンスでは、AMD EPYC* プロセッサーを基盤とするインスタンスと比べ、ハイパフォーマンス・コンピューティング (HPC) ワークロードで 1 米ドル当たりのパフォーマンスが 4.15 倍になる1 ことをご存じでしょうか。同様に、LAMMPS ベンチマークでは、1 米ドル当たりのパフォーマンスが最大 2.19 倍になる1 と示されています。AWS* 上のデータベース・ワークロードの場合、インテル® Xeon® スケーラブル・プロセッサーは、1 米ドル当たり最大 2.84 倍のパフォーマンス2 を実現し、メモリー帯域を消費するワークロードでは、1 米ドル当たり最大 2.25 倍のパフォーマンス3 を発揮します。サーバーサイド Java* や Wordpress* PHP/HHVM といったウェブベース・ワークロードをインテル® プロセッサー基盤で実行する場合、1 米ドル当たり最大 1.74 倍のパフォーマンス4 を得られることになります。

すでにインテル® プロセッサーを使用している場合も、インテル® Xeon® スケーラブル・プロセッサーを基盤とする最新のインスタンスに移行することで、コストの削減が可能です。TSO Logic により、パブリック・クラウドとプライベート・クラウドをまたがったコンピューティングを対象に、データに基づいた適切な規模とコストが推奨されています。AWS* の顧客データを匿名化した 10 万インスタンスのリポジトリーで、数百万のデータポイントについて検証が行われました。その結果、小規模の最新 Amazon EC2* インスタンス・タイプに移行することで、現行インスタンスと同等のパフォーマンスをより低いコストで実現できるようになり、19% のコスト削減が可能となることが示されています。例えば、既存の C4.8XLarge インスタンスから新しい C5.4XLarge インスタンスに移行した場合、クラウドにかかるコストを最大 50%、インスタンス当たり 3,000 米ドル削減できます。5 さらに、コア単位のソフトウェア・ライセンスを利用している場合は、短期間でのコスト削減が可能です。TSO Logic では、第 2 世代インテル® Xeon® スケーラブル・プロセッサー基盤の最新インスタンスならば、単一ワークロードで使用するコアを 40 個削減5 できると報告しています。1,800 米ドルのコア単位ライセンスで商用データベースを運用している場合、コア数を 40 個減らすことで年間 7 万 2,000 米ドルの削減5 が可能になるということです。

インテル® Xeon® スケーラブル・プロセッサーと第 2 世代インテル® Xeon® スケーラブル・プロセッサーには、ワークロードの高速化を目的に、さまざまな最適化テクノロジーが実装されています。数値型には INT8 が採用されており、必ずしも必要でない精度を切り捨てることで、マシンラーニングの効率を高めます。また、インテル® ディープラーニング・ブースト (インテル® DL ブースト) により、新しいプロセッサー命令が導入され、画像分類、音声認識、翻訳、オブジェクト検出などのアプリケーションにおける推論が高速化されます。インテル® アドバンスト・ベクトル・エクステンション 512 (インテル® AVX-512) では、512 ビットのベクトル命令が利用でき、科学的シミュレーションで浮動小数点演算を高速化できます。インテル® ターボ・ブースト・テクノロジーにより、コアを定格の動作周波数よりも高速で動作させ、最も必要とされる状況で性能をさらにアップさせることも可能です。社内のデータ保護には、暗号化 / 復号の処理速度を高めるプロセッサー命令を提供するインテル® AES New Instructions (インテル® AES-NI) を利用できます。

注意事項および免責事項:

性能に関するテストに使用されるソフトウェアとワークロードは、性能がインテル® マイクロプロセッサー用に最適化されていることがあります。SYSmark* や MobileMark* などの性能テストは、特定のコンピューター・システム、コンポーネント、ソフトウェア、操作、機能に基づいて行ったものです。結果はこれらの要因によって異なります。製品の購入を検討される場合は、ほかの製品と組み合わせた場合の本製品の性能など、ほかの情報や性能テストも参考にして、パフォーマンスを総合的に評価することをお勧めします。詳細については、www.intel.co.jp/benchmarks (英語) を参照してください。

性能の測定結果はシステム構成に記載された日付時点のテストに基づいています。また、現在公開中のすべてのセキュリティー・アップデートが適用されているとは限りません。詳細については、公開されている構成情報を参照してください。絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。
インテルは、サードパーティーのデータについて管理や監査を行っていません。記載内容について検討し、ほかの情報も参考にしながら、本資料で参照しているデータが正しいかどうかを確認してください。

記載されているコスト削減シナリオは、指定の状況と構成で、特定のインテル® プロセッサー搭載製品が今後のコストに及ぼす影響と、その製品によって実現される可能性のあるコスト削減の例を示すことを目的としています。状況はさまざまであると考えられます。インテルは、いかなるコストもコスト削減も保証いたしません。

インテル® テクノロジーの機能と利点はシステム構成によって異なり、対応するハードウェアやソフトウェア、またはサービスの有効化が必要となる場合があります。実際の性能はシステム構成によって異なります。詳細については、各システムメーカーまたは販売店にお問い合わせいただくか、intel.co.jp を参照してください。

Intel、インテル、Intelロゴ、Xeonは、アメリカ合衆国および/またはその他の国におけるIntel Corporationまたはその子会社の商標です。

*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
© Intel Corporation

免責事項

1

結果はインテル® P2CA が AWS* の価格体系 (米ドル / 時間、標準 1 年間、一括前払いなし) を使用して算出 (2019年1月12日時点)。
AWS* EC2 M5 インスタンスおよび M5a インスタンス (https://aws.amazon.com/ec2/instance-types/) 上で実施したパフォーマンス / 米ドル・テスト、96 基の vCPU インテル® Xeon® スケーラブル・プロセッサーの 1 米ドル当たりのパフォーマンスを AMD EPYC* プロセッサーの数値と比較。

ワークロード: LAMMPS*
結果: AMD EPYC のパフォーマンス / 米ドルをベースラインの 1 とすると、インテル® Xeon® スケーラブル・プロセッサーのパフォーマンス / 米ドルは 2.19 倍 (値が大きいほど高性能)
HPC 材料科学 – LAMMPS (値が大きいほど高性能):
AWS M5.24xlarge (インテル) インスタンス、LAMMPS バージョン: 2018-08-22 (コード: https://lammps.sandia.gov/download.html)、ワークロード: 水滴 – 512K 個、インテル® ICC 18.0.3.20180410、インテル® MPI ライブラリー Linux* OS 版、バージョン 2018 アップデート 3 ビルド 20180411、48 MPI ランク、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、OMP_NUM_THREADS=2、スコア 137.5 タイムステップ / 秒、測定はインテルが 2018年10月31日に実施。
AWS M5a.24xlarge (AMD) インスタンス、LAMMPS バージョン: 2018-08-22 (コード: https://lammps.sandia.gov/download.html)、ワークロード: 水滴 – 512K 個、インテル® ICC 18.0.3.20180410、インテル® MPI ライブラリー Linux* OS 版、バージョン 2018 アップデート 3 ビルド 20180411、48 MPI ランク、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、OMP_NUM_THREADS=2、スコア 55.8 タイムステップ / 秒、測定はインテルが 2018年11月7日に実施。
AMD* が AVX2 をサポートするように変更 (AMD は AVX2 しかサポートしないため、この変更は必要でした):
sed -i 's/-xHost/-xCORE-AVX2/g' Makefile.intel_cpu_intelmpi
sed -i 's/-qopt-zmm-usage=high/-xCORE-AVX2/g' Makefile.intel_cpu_intelmpi

ワークロード: High-performance Linpack*
結果: AMD EPYC のパフォーマンス / 米ドルをベースラインの 1 とすると、インテル® Xeon® スケーラブル・プロセッサーのパフォーマンス / 米ドルは 4.15 倍 (値が大きいほど高性能)
HPC Linpack (値が大きいほど高性能):
AWS M5.24xlarge (インテル®) インスタンス、HP Linpack バージョン 2.2 (https://software.intel.com/en-us/articles/intel-mkl-benchmarks-suite ディレクトリー: benchmarks_2018.3.222/linux/mkl/benchmarks/mp_linpack/bin_intel/intel64)、インテル® ICC 18.0.3.20180410 (AVX512 有効)、インテル® MPI ライブラリー Linux* OS 版、バージョン 2018 アップデート 3 ビルド 20180411、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、OMP_NUM_THREADS=24、2 MPI プロセス、スコア 3152 GB / 秒、測定はインテルが 2018年10月31日に実施。
AWS* M5a.24xlarge (AMD) インスタンス、HP Linpack バージョン 2.2、(HPL ソース: http://www.netlib.org/benchmark/hpl/hpl-2.2.tar.gz、バージョン 2.2、icc (ICC) 18.0.2 20180210 を BLIS ライブラリー・バージョン 0.4.0 のコンパイルとリンクに使用、https://github.com/flame/blis、追加コンパイラー・フラグ: -O3 -funroll-loops -W -Wall –qopenmp、make arch=zen OMP_NUM_THREADS=8、6 MPI プロセス)、 インテル® ICC 18.0.3.20180410 (AVX2 有効)、インテル® MPI ライブラリー Linux* OS 版、バージョン 2018 アップデート 3 ビルド 20180411、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、OMP_NUM_THREADS=8、6 MPI プロセス、スコア 677.7 GB / 秒、測定はインテルが 2018年11月7日に実施。

2

結果はインテル® P2CA が AWS* の価格体系 (米ドル / 時間、標準 1 年間、一括前払いなし) を使用して算出 (2019年1月12日時点)。
AWS* EC2 R5 インスタンスおよび R5a インスタンス (https://aws.amazon.com/ec2/instance-types/) 上で実施したパフォーマンス / 米ドル・テスト、96 基の vCPU インテル® Xeon® スケーラブル・プロセッサーの 1 米ドル当たりのパフォーマンスを AMD EPYC* プロセッサーの数値と比較。

ワークロード: HammerDB* PostgreSQL*
結果: AMD EPYC のパフォーマンス / 米ドルをベースラインの 1 とすると、インテル® Xeon® スケーラブル・プロセッサーのパフォーマンス / 米ドルは 1.85 倍 (値が大きいほど高性能)。
データベース: HammerDB* – PostgreSQL* (値が大きいほど高性能):
AWS R5.24xlarge (インテル) インスタンス、HammerDB 3.0 PostgreSQL 10.2、メモリー: 768GB、ハイパーバイザー: KVM、ストレージタイプ: EBS io1、ディスク容量 200GB、ストレージ総容量 200GB、Docker バージョン: 18.06.1-ce、Red Hat* Enterprise Linux 7.6、3.10.0-957.el7.x86_64、共有バッファー 6400MB、256 ウェアハウス、96 ユーザー。スコア「NOPM」439931、測定はインテルが2018年12月11日 ~ 2018年12月14日に実施。
AWS R5a.24xlarge (AMD) インスタンス、HammerDB 3.0 PostgreSQL 10.2、メモリー: 768GB、ハイパーバイザー: KVM、ストレージタイプ: EBS io1、ディスク容量 200GB、ストレージ総容量 200GB、Docker バージョン: 18.06.1-ce、Red Hat* Enterprise Linux 7.6、3.10.0-957.el7.x86_64、共時バッファー 6400MB、256 ウェアハウス、96 ユーザー。スコア「NOPM」212903、測定はインテルが2018年12月20日に実施。

ワークロード: MongoDB*
結果: AMD EPYC のパフォーマンス / 米ドルをベースラインの 1 とすると、インテル® Xeon® スケーラブル・プロセッサーのパフォーマンス / 米ドルは 2.84 倍 (値が大きいほど高性能)
データベース: MongoDB* (値が大きいほど高性能):
AWS R5.24xlarge (インテル) インスタンス、MongoDB v4.0、ジャーナル無効、ファイルシステムへの同期無効、wiredTigeCache=27GB、maxPoolSize = 256、7 MongoDB インスタンス、14 クライアント VM、1 YCSB クライアント / VM、96 スレッド / YCSB クライアント、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、スコア 1229288 ops/sec、測定はインテルが 2018年12月10日に実施。
AWS R5a.24xlarge (AMD) インスタンス、MongoDB v4.0、ジャーナル無効、ファイルシステムへの同期無効、wiredTigeCache=27GB、maxPoolSize = 256、7 MongoDB インスタンス、14 クライアント VM、1 YCSB クライアント / VM、96 スレッド / YCSB クライアント、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、スコア 388596 ops/sec、測定はインテルが 2018年12月10日に実施。
詳細については、www.intel.jp/benchmarks (英語) を参照してください。

3

AWS M5.4xlarge (インテル) インスタンス、McCalpin Stream (OMP バージョン)、(ソース: https://www.cs.virginia.edu/stream/FTP/Code/stream.c)、インテル® ICC 18.0.3 20180410 (AVX512 有効)、-qopt-zmm-usage=high, -DSTREAM_ARRAY_SIZE=134217728 -DNTIMES=100 -DOFFSET=0 –qopenmp, -qopt-streaming-stores always -o $OUT stream.c、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、OMP_NUM_THREADS: 8、KMP_AFFINITY: proclist=[0-7:1], granularity=thread, explicit、スコア 81216.7 MB/秒、測定はインテルが 2018年12月6日に実施。
AWS M5a.4xlarge (AMD) インスタンス、McCalpin Stream (OMP バージョン)、(ソース: https://www.cs.virginia.edu/stream/FTP/Code/stream.c)、インテル® ICC 18.0.3 20180410 (AVX2 有効)、-DSTREAM_ARRAY_SIZE=134217728, -DNTIMES=100 -DOFFSET=0 -qopenmp -qopt-streaming-stores always -o $OUT stream.c、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、OMP_NUM_THREADS: 8、KMP_AFFINITY: proclist=[0-7:1], granularity=thread,explicit、スコア 32154.4 MB/秒、測定はインテルが 2018年12月6日に実施。
OpenFOAM の免責宣言。この提供物は、OpenFOAM ソフトウェアを作成して、www.openfoam.com 経由で配布し、さらに OPENFOAM® および OpenCFD® 商標を所有者している OpenCFD Limited から承認を受けたものでも保証を受けたものではありません。

4

結果はインテル® P2CA が AWS* の価格体系 (米ドル / 時間、標準 1 年間、一括前払いなし) を使用して算出 (2019年1月12日時点)。
AWS* EC2 M5 インスタンスおよび M5a インスタンス (https://aws.amazon.com/ec2/instance-types/) 上で実施したパフォーマンス / 米ドル・テスト、96 基の vCPU インテル® Xeon® スケーラブル・プロセッサーの 1 米ドル当たりのパフォーマンスを AMD EPYC* プロセッサーの数値と比較。

ワークロード: サーバーサイド Java* 1 JVM
結果: AMD EPYC のパフォーマンス / 米ドルをベースラインの 1 とすると、インテル® Xeon® スケーラブル・プロセッサーのパフォーマンス / 米ドル = 1.74 倍 (値が大きいほど高性能)
サーバーサイド Java (大きいほど高性能):
AWS M5.24xlarge (インテル) インスタンス、Java サーバー・ベンチマーク (NUMA バインディングなし)、2JVM、OpenJDK 10.0.1、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、スコア 101767 トランザクション / 秒、測定はインテルが 2018年11月16日に実施。
AWS M5a.24xlarge (AMD) インスタンス、Java サーバー・ベンチマーク (NUMA バインディングなし)、2JVM、OpenJDK 10.0.1、Red Hat* Enterprise Linux 7.5、Kernel 3.10.0-862.el7.x86_64、スコア 52068 トランザクション / 秒、測定はインテルが 2018年11月16日に実施。

ワークロード: Wordpress* PHP / HHVM*
結果: AMD EPYC のパフォーマンス / 米ドルをベースラインの 1 とすると、インテル® Xeon® スケーラブル・プロセッサーのパフォーマンス / 米ドルは 1.75 倍 (値が大きいほど高性能)
ウェブ・フロント・エンド WordPress (値が大きいほど高性能):
AWS* M5.24xlarge (インテル) インスタンス、oss-performance/wordpress Ver 4.2.0、Ver 10.2.19-MariaDB-1:10.2.19+maria~bionic、ワークロード・バージョン: 4.2.0、クライアント・スレッド数: 200、PHP 7.2.12-1、perfkitbenchmarker_version=v1.12.0-944-g82392cc、Ubuntu* 18.04、カーネル Linux* 4.15.0-1025-aws、スコア 3626.11 TPS、測定はインテルが 2018年11月16日に実施。
AWS* M5a.24xlarge (AMD*) インスタンス、oss-performance/wordpress Ver 4.2.0、Ver 10.2.19-MariaDB-1:10.2.19+maria~bionic、ワークロード・バージョン: 4.2.0、クライアント・スレッド数: 200、PHP 7.2.12-1、perfkitbenchmarker_version=v1.12.0-944-g82392cc、Ubuntu* 18.04、カーネル Linux* 4.15.0-1025-aws、スコア 1838.48 TPS、測定はインテルが 2018年11月16日に実施。
詳細については、www.intel.jp/benchmarks (英語) を参照してください。

5

データソース: TSO Logic / インテル調査レポート:「インテルと Amazon Web Services* による新しい進歩、クラウドコストの大幅削減を推進」。