導入事例

インテル® データセンター・マネージャー(インテル® DCM) HPC環境の消費電力の軽減 インテル® DCM でサーバー単位の温度と消費電力をモニタリング 電力性能の高いノードへの割り当てで、最大 5 ~ 8%の消費電力 を削減 設備の電力規制や社会的な省エネ要請に対応 京都大学学術情報メディアセンター 所在地:京都府京都市左京区吉田本町 設立:1969年4月 事業内容: 情報基盤および情報メディアの高度利用に 関する研究開発、学内の情報環境整備・運用・ 管理 http://www.media.kyoto-u.ac.jp/ 京都大学 学術情報メディアセンター 教授工学博士 中島 浩 氏(写真中央) 京都大学 学術情報メディアセンター 准教授 博士(工学) 深沢 圭一郎 氏(写真右) 京都大学企画・情報部 情報基盤課 スーパーコンピューティング掛掛長 疋田淳一 氏(写真左) 課 題 • HPCの電力性能の向上に向けたCPU、メモリーの消費電力のモニタリング • 設備や社会的要請に対応するためのパワー・キャッピング ソリューション • インテル® データセンター・マネージャー(インテル® DCM) • インテル® Xeon® プロセッサー、インテル® Xeon Phi™ プロセッサーを搭載したクラスター型 HPC 京都大学および全国の研究機関に高度情報サービスを提供 ネットワーク、スーパーコンピューティング、マルチメディアを活用した教育システム、学術デジ タルコンテンツの分野に、連携研究を加えた5部門体制で研究開発を推進する京都大学学術情 報メディアセンター(以下、ACCMS)。全国8大学の情報基盤系センターから構築された共同利用・ 共同研究拠点としての役割も持ち、共同利用のスーパーコンピューター・システム(以下、HPC) の運用や、さまざまな計算科学分野の研究者との共同研究を実施しています。 中島浩教授の研 究室では、HPCに関するさまざまな研究に取り組み、同大学の企画・情報部 情報基盤課と連携 してサービスの向上に貢献しています。 HPCについては1985年にベクトル型を初めて導入し、2004年にスカラー型に移行。以来、 2008年、2012年、2016年と約4年の間隔で更改を重ねてきました。2018年時点のHPC環 境は、インテル® Xeon® プロセッサーを搭載したHPCサーバーで構成されたクラスターシステ ム2系統と、インテル® Xeon Phi™ プロセッサーを搭載したHPCサーバーで構成されたMPP システム1系統の3システムで構成され、全体の演算性能は6.5524PFlopsを確保しています。 「ACCMSのHPCは現在、京都大学の内部が4割、大学外が6割の比率で利用されています。利 用者数は年々伸びていますが、余裕を持って対応できるように稼働率は約7割を維持するポリシー で運用しています」と中島氏は語ります。 利用者のコスト軽減に向けて電力性能比の向上が必須 HPCを運用するうえで、大きく影響を受けるのがサーバーの消費電力です。要因の1つは設備の 問題で、設備によって提供可能な電力の上限(パワーキャップ)が決められてしまいます。「特に 2011年の東日本大震災の影響で、全国的にHPCの消費電力に上限を設けようという動きが出 てきました」と中島氏は振り返ります。 さらに震災の影響で全国の原子力発電所が稼働を停止し、関西圏では電気料金がピーク時で5 割ほど上がりました。HPCの利用料金には電気料金も含まれているため、利用者のコスト負担 を軽減するためにも、電力性能比の向上が求められています。 しかし、プロセッサーの進化による処理性能比の向上に比べて、電力性能比の向上のペースは緩 やかです。そのためにも電力のマネジメントは重要な課題で、中島教授の研究室でもアプリケー ションの性能を最大化させるコード最適化技術や、電力制御機構を適応的に制御するソフトウェ アに関する研究を行っています。 このように、消費電力のパワー・キャッピングと、電力性能比の向上に対する要請が高まる中、 よりきめ細かな電力制御の必要性を認識したACCMSは、2016年10月のHPC更改時に電力 と温度をリアルタイムに監視して制御するインテル® データセンター・マネージャー(インテル® DCM)を導入しました。企画・情報部 情報基盤課 スーパーコンピューティング掛 掛長の疋田淳 一氏は「従来環境でもラック単位、ノード単位のレベルで消費電力は測定していましたが、今回 はサーバー単位でよりきめ細かくモニタリングする目的で、インテル® DCMの導入を決めました」 と語ります。 サーバー単位の温度、消費電力、 CPU、メモリー、I/O の利用率を確認 ACCMSでは現在、インテル® DCMをHPCの消費電力と温 度のモニタリングで利用して います。パワー・キャッピング に関しては、現段階でHPCの 総消費電力が設備全体の定格 電力を上回る可能性がないた め保険的な意味合いが強く、 実際の上限制御は実行してい ません。一方の消費電力と温 度の定常的なモニタリングに ついては、インテル® DCMの コンソール画面でサーバー単 位の温度、消費電力、CPU、メ モリー、I/Oの利用率を確認し ています(図1)。「異常が発生 した時以外、日常的にコンソー 図 1.インテル® DCMのコンソール画面 ル画面を確認することはない ものの、ログ情報を出力して 保管したり、研究用のデータとして中島教授の研究室などに適宜提供 したりしています」と疋田氏は述べています。 電力性能の高いノードから、ジョブを割り当て消費電力削減 中島教授の研究室では、インテル®DCMから出力されるログデータを もとに、HPCの電力性能の向上に向けてさまざまな研究を行い、実際 の運用へのフィードバックを目指しています。具体的には、(1)アプリ ケーション実行時における消費電力の時間変化、(2)ノードの消費電 力ランキングとアプリケーションの違いによるばらつき、(3)電力性能 の高いノードからのジョブの割り当てによる消費電力、の3つを測定し て検証を進めてきました。 (1)の実験では、同一のアプリケーションを実行しても、CPUによって 消費電力に差が出ることがわかり、時間によってもCPUの発熱などで 消費電力が変化することを確認しています。(2)の実験では、メモリー に負荷がかかるベンチマーク・プログラム(STREAM*)と、CPUに 負荷がかかるベンチマーク・プログラム(HPCG)をノードごとに走らせ、 実行時の消費電力を測定しました。その結果、同じノードでもプログラ ムによって消費電力の差があることがわかりました。これらの結果につ いてACCMS准教授の深沢圭一郎氏は次のように語ります。 「同じ仕様のCPUでも個体差によって消費電力に差があり、電力性能比 が高いものと、低いものがあることが確認できました。性能が低いCPU は、温度が高くなるほど消費電力も大きくなります。電力効率を高める ためには正しくモニタリングすることが必要で、電力性能の高いノード からジョブの割り当てを行うことで消費電力の削減効果が見込めます」。 実際、モニタリングの数値をもとにスケジュールを設定し、電力性能の 高いノードからジョブを割り当てていった場合、ランダムにジョブを割 り当て場合と比べて70%のノード利用率でも2~4%の消費電力削減 効果を得られることを確認しました(図2)。さらに、最も消費電力性能 が悪いノードからジョブを割り当てた場合と比べると、70%のノード利 用率で5~8%の消費電力削減効果が得られるといいます。「2~4% の削減率は小さいように見えますが、電気料金が年間約1.5億円に達 するACCMSにおいては大きな効果となります。この成果は、HPC環境 だけでなく一般的なデータセンターにおいても有効です」と中島氏は 話しています。 将来的にはCPUに負荷がかからないプログラムにはCPUの消費電 力に制限をかけ、メモリーの利用率が低いプログラムにはメモリーの 消費電力に制限をかけることで、パフォーマンスを落とすことなく消費 電力を低減するようにチューニングすることも可能となる見込みです。 ACCMSでは今後も消費電力の削減に向けた研究を続ける考えで、深 沢氏は、「アプリケーションの挙動を機械学習で特性を把握し、ジョ ブの割り当てスケジュールを自動化することも考えていきたい」と話 しています。また、次回のHPC更改に向けて、演算性能の強化を検討 しており、プロセッサーの進化に期待を寄せています。インテルは今 後もインテル® Xeon® プロセッサーと管理ツールの技術革新を進め、 ACCMSが目指す情報基盤の高度化に貢献していきます。 Estimation of Power Saving 電力性能の高いノードからジョブ割り当てを行う 通常のジョブ割り当てに比べて(ノードの消費電力性能無視の場合)、70%のノード利用率で も2~4%の消費電力削減効果が見込める。 →電気代が高いスパコンセンターにとっては大きな数字。 図 2. 電力性能の高いノードからジョブを割り当てた場合の消費電力の削減率 (青:STREAM*(メモリー優先)赤:HPCG(CPU優先)) インテル® データセンター・マネージャーに関する詳しい情報は、下記の サイトをご覧ください。 http://www.intel.co.jp/dcm この文書は情報提供のみを目的としています。この文書は現状のまま提供され、いかなる保証もいたしません。ここにいう保証には、商品適格性、他者の権利の非侵害性、特定目的への適合性、また、あらゆる提案書、仕様書、 見本から生じる保証を含みますが、これらに限定されるものではありません。インテルはこの仕様の情報の使用に関する財産権の侵害を含む、いかなる責任も負いません。また、明示されているか否かにかかわらず、また禁 反言によるとよらずにかかわらず、いかなる知的財産権のライセンスも許諾するものではありません。 Intel、インテル、Intel ロゴ、Xeon、Intel Xeon Phi は、アメリカ合衆国および / またはその他の国における Intel Corporation またはその子会社の商標です。 * その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル株式会社 〒100-0005 東京都千代田区丸の内3-1-1 http://www.intel.co.jp/ ©2018 Intel Corporation.  無断での引用、転載を禁じます。 2018年7月 337847-001JA JPN/1807/PDF/SE/SSG/MT