科学分野でのパフォーマンスと生成型AIを強化する広範かつオープンなHPC+AI製品ポートフォリオ

インテルはISC’23で、メモリー指向から生成型AIに及ぶ幅広いHPC/AIワークロードにおけるパフォーマンス上の競争優位性について詳細を説明し、AIの民主化に向けた科学分野の新しい大規模言語モデル(LLM)イニシアチブを発表しました。

ニュース

  • 2023年5月22日

  • インテル PRに問い合わせる

  • ソーシャルメディアでインテル・ニュースルームをフォローする:

    Twitter のロゴ
    YouTube のアイコン

author-image

投稿者:

ニュースのハイライト

  • インテルのHPC+AI関連の広範な製品ポートフォリオは、インテル® データセンターGPU Max 1550製品がNVIDIA H100と比べて平均30%の性能向上をみせるなど、科学分野の幅広いワークロードにおいて競争優位性をもたらします。1
  • 最新の製品ロードマップでは、メモリー帯域幅の要件に対応する次世代のCPUとなるGranite Rapids(開発コード名)と、多種多様なHPC+AIワークロードに対する需要の高まりに応えるFalcon Shores(開発コード名)GPUをハイライトしています。
  • アルゴンヌ国立研究所とインテルは、スーパーコンピューターAuroraの全仕様を公開し、このシステムの勢いとHewlett Packard Enterprise(HPE)をはじめとするパートナー企業との多国間イニシアチブとあわせて、生成型AIと大規模言語モデル(LLM)が科学と社会にもたらす影響力に触れています。
  • oneAPIとAIツールの機能拡張により、開発者はHPC/AIワークロードの高速化が可能になり、複数のアーキテクチャー間でのコード移植性が高まります。


2023年5月22日、ドイツ、ハンブルク州発 – インテルは「ISC High Performance Conference」において、人工知能(AI)とハイパフォーマンス・コンピューティング(HPC)のワークロードで実現する業界トップレベルのパフォーマンスを強調し、oneAPIのオープン・プログラミング・モデルによって統合される、今後提供するHPCとAIの製品ポートフォリオの紹介とともに、スーパーコンピューターAuroraを活用し、科学と社会に貢献できる生成型AIモデルを開発する、意欲的なグローバル規模の取り組みについて発表しました。

その他: International Supercomputing Conference 2023 (見積書)

インテル コーポレーション 副社長 兼 スーパーコンピューティング事業本部 本部長のジェフ・マクベイ(Jeff McVeigh)は、次のように述べています。「インテルは、顧客企業やエンドユーザーが画期的な発見を短期間で実現するための製品を提供することで、HPC+AIコミュニティーに積極的な貢献を行っています。インテル® Xeon® CPU Maxシリーズ、インテル® データセンターGPU Maxシリーズ、第4世代インテル® Xeon® スケーラブル・プロセッサー、Habana® Gaudi® 2 AI プロセッサーにわたる広範な製品ポートフォリオは、多様なワークロードで競合製品のパフォーマンスを大きく上回っており、電力効率や総保有コスト(TCO)の面でもアドバンテージをもたらし、AIの民主化を推進するオープン性と柔軟性を兼ね備えた選択肢となっています」

ハードウェア性能の大幅な拡張

マクベイはインテルの特別プレゼンテーションにおいて、ハードウェア全体にわたるパフォーマンス上の競争優位性を示す最新の成果を強調するとともに、先端的な顧客企業の成果について伝えました。

  • インテル® データセンターGPU Maxシリーズは、多様なワークロードでNVIDIA H100 PCIeカードと比べて平均30%高いパフォーマンスを実現。1 独立系ソフトウェア・ベンダーAnsysは、インテル® データセンターGPU Maxシリーズを使用することで、AIによって高速化したHPCアプリケーションがH100と比べて50%高速化するとの結果を提示。2
  • インテル® Xeon® CPU Maxシリーズは、広帯域幅メモリーを実装する唯一のx86プロセッサーとして、共役勾配法によるHigh-Performance Conjugate Gradients(HPCG)ベンチマークで、消費電力を低く抑えながら、AMD製Genoaプロセッサーよりも65%の高速化を実証。1広帯域幅メモリーがHPCを運用する顧客にとっての最適な機能の1つと注目。3
  • HPCの領域に最も広く導入されている第4世代インテル® Xeon® スケーラブル・プロセッサーは、AMD製Milanよりも平均して50%の高速化が可能。4 また、エネルギー企業のBPでは、第4世代インテル® Xeon® スケーラブル・プロセッサーを搭載した同社の最新HPCクラスターで、電力効率を高めながら、前世代のプロセッサーと比べてパフォーマンスを8倍向上。2
  • Habana® Gaudi® 2 AIプロセッサーに内蔵されたディープラーニング・アクセラレーターは、ディープラーニングの学習処理と推論を実行して比較した結果、NVIDIA A100よりも最大2.4倍高速のパフォーマンスを実現。1


ここ最近では、複数のお客様から次のようなインテル® Xeon® プロセッサーとインテル® Xeon® CPU Maxシリーズの新たな導入が発表されました。

  • 京都大学:第4世代インテル® Xeon® スケーラブル・プロセッサーをLaurel 3とCinnamon 3に、インテル® Xeon® CPU MaxシリーズをCamphor 3に搭載。
  • 米国の国立再生可能エネルギー研究所:第4世代インテル® Xeon® スケーラブル・プロセッサーをKestrelクラスターに実装。
  • イタリアの大学間コンソーシアムCineca:第4世代インテル® Xeon® スケーラブル・プロセッサーをスーパーコンピューターLeonardoに搭載。
  • アルゼンチン国立気象局:インテル® Xeon® CPU Maxシリーズとインテル® データセンターGPU Maxシリーズの両方を搭載したシステムを導入予定。


ケンブリッジ大学の研究センターCambridge Open Zettascale Labでは、インテル® データセンターGPUマックス・シリーズをテストベッドに使用し、分子動力学と生物学の画像処理アプリケーションで初期段階の良好な成果を確認しています。また理化学研究所は、人工知能(AI)、ハイパフォーマンス・コンピューティング(HPC)、量子コンピューティングといった最先端のコンピューティング・テクノロジー分野における、インテルとの共同研究開発の推進を目的とした合意文書(MoU)を発表しました。この合意文書の一環として、理化学研究所はインテルのファウンドリー事業であるIntel Foundry Services(IFS)との協働により、こうした新しいソリューションのプロトタイプを作成する予定です。

あらゆるワークロードに競争優位性をもたらすプロセッサー

新たに登場しているHPCやAIの動的なワークロードには、ハードウェアとソフトウェアの製品ポートフォリオを網羅したソリューションが不可欠です。マクベイは、HPCコミュニティーに多くの選択肢とソリューションを提供し、AIの民主化を支えるインテルのデータセンター製品について、全体像を示しました。

プレゼンテーションでは、広帯域幅メモリーへのニーズに応えるインテルの次世代CPUが紹介されました。インテルは、Granite Rapids(開発コード名)に実装するMultiplexer Combined Ranks(MCR)と呼ばれる新たなタイプのDIMMの開発においても、エコシステムを主導しています。MCRは、DDR5ベースで8,800Mbpsの転送速度と、2ソケットのシステムで1.5TB/sを上回るメモリー帯域幅を実現する技術です。このレベルのメモリー帯域幅の拡大は、急ピッチで増える最新CPUのコア数に対応し、効率性と柔軟性を両立させるためには欠かせません。

またインテルは、ディープラーニングの学習処理を高速化するために設計された、8基のインテル® データセンターGPU Maxシリーズを搭載するAIに最適化されたSupermicroの新しいサブシステムを公開しました。今年末にインテル® デベロッパー・クラウドのベータ版を通じてアクセスできるようになるほか5 この夏には4基のインテル® データセンターGPU Maxシリーズ、8つのOAMサブシステム、PCIeカードを搭載したソリューションが複数のOEMから提供開始となる予定です。

次世代のインテル® データセンターGPU Maxシリーズ(開発コード名:Falcon Shores)は、目まぐるしく変化する新しい未来のワークロードに対応できる、システムレベルのCPUとディスクリート型のGPUを組み合わせた柔軟性を提供します。Falcon Shoresのタイル搭載モジュール式アーキテクチャーによって、次のようなことが可能になります。

  • FP64からBF16、FP8まで、HPCとAIのデータ型に対応。
  • 合計最大9.8TB/sの帯域幅を備えた最大288GBのHBM3メモリーを実現、I/Oの大幅な高速化。
  • CXL プログラミング・モデルを強化。
  • oneAPIを通じた統合型GPUプログラミング・インターフェイスの提供。

科学への生成型AIの適用

アルゴンヌ国立研究所は、インテルとHPEとの協働により、科学研究コミュニティーでの利用を意図し、一連の生成型AIモデルの開発計画を発表しました。

「このプロジェクトが目指すのは、スーパーコンピューターAuroraの潜在可能性を最大限に引き出し、 エネルギー省ラボ内での科学研究の下流工程や外部とのコラボレーションに利用できるリソースを生み出すことです」 - アルゴンヌ国立研究所、リック・スティーブンス(Rick Stevens)副所長

科学分野向けに開発されるこれらの生成型AIモデルは、一般的なテキスト、コード、科学テキストに加え、生物学から、化学、材質科学、物理学、医学にわたる構造型の科学データなどさまざまなデータソースを使い学習処理が実行されます。

その結果抽出される(1兆個ものパラメーターから成る)モデルは、分子や材料の設計から、数百万のデータソースにわたる知識の統合に至るまで、興味関心を引きつける新たな実験結果を提示する、システム生物学、高分子化学、エネルギー物質、気象科学、宇宙学といった多種多様な科学分野に応用されていく予定です。このモデルは、がんを含めさまざまな疾病に関連する生物学的プロセスの特定を加速し、薬剤の設計標的を示唆する用途でも期待されます。

アルゴンヌ国立研究所は、このプロジェクトを推進する、インテルとHPEをはじめ、米国エネルギー省の研究機関、世界中の大学と非営利団体、理化学研究所、など海外のパートナー企業が参画する、国際コラボレーションを主導しています。

さらにインテルとアルゴンヌ国立研究所は、Aurora導入の進捗状況とシステム仕様、初期段階のパフォーマンス測定結果にスポットを当てて説明しました。

  • インテルはスーパーコンピューターAuroraへの1万ブレードを超える物理的実装を完了。
  • Auroraの全システムはHPE Crayエクサスケール・スーパーコンピューターで構築され、63,744基のGPUと21,248基のCPU、1,024ノードのDAOSストレージを搭載。このほか、HPE Slingshotインターコネクトによる高性能イーサネット・ネットワークを使用。
  • 初期段階の結果から、AMD製MI250 GPUと比べて最大2倍のパフォーマンス、QMPACK量子力学アプリケーションではH100よりも20%のパフォーマンス向上、数百ノードへのほぼ直線的な拡張といった、実環境の科学分野とエンジニアリングのワークロードでトップレベルのパフォーマンスを実証。2


Auroraは、倍精度のピーク演算性能が2エクサフロップスを上回ると見込まれ、年内の稼働開始が予定されています。

「ソフトウェア・デファインド、シリコン支援型」

2020年にoneAPIプログラミング・モデルが登場して以来、複数のハードウェア・プロバイダーから提供されるCPU、GPU、FPGA、AIシリコンと多様なプロセッサーで、多くの開発者がoneAPIの可能性を実証し、単一ベンダーのプログラミング・モデルを使用したアクセラレーションに伴う課題に対処してきました。2021年から2022年にかけて、oneAPIツールの採用は前年比85%増となっています。oneAPIの最新の機能拡張には、OpenMPのGPUオフロードによるHPCアプリケーションの高速化、OpenMPとFortranへのサポート拡張、最適化されたAIツール、TensorFlowとPyTorchフレームワークの実装、AI/DLパフォーマンスの桁違いの向上などが含まれます。

oneAPIによって提供されるSYCLの実装、NVIDIA製プロセッサーとAMD製プロセッサーに対応するCodeplayが開発したoneAPIのプラグイン、インテル® oneAPI DPC++互換ツール(オープンソースのSYCLomaticベース)などを使用すれば、開発者はマルチアーキテクチャー・プログラミングをしやすくなり、CUDAからSYCLやC++へ移植する場合も、通常はコードの90~95%が自動で移行されます。7移植されたSYCLコードは、NVIDIAやAMDのネイティブシステム言語で実行するコードと同等のパフォーマンスを示します。インテル® データセンターGPU Maxシリーズを使いDPEcho天体物理学アプリケーションでSYCLコードを実行すると、NVIDIA H100で実行する同じCUDAコードと比べて48%高いパフォーマンスを発揮することが、データにより証明されています。1

この拡大するエコシステム同様にSYCLが受け入れられています。Atosが展開する事業の1つEvidenは、インテルとの協業により、Evidenのパフォーマンス・プログラミングにおけるセンター・オブ・エクセレンス(CEPP)をベースとする、HPC/AIコードのモダナイゼーション・サービス「CEPP one+」を発表しました。CEPP one+は、SYCLとOpenMPの採用に焦点を当て、コミュニティーがヘテロジニアスのコンピューティング環境に態勢を整えられるようにすると同時に、オープン・スタンダードを通じたハードウェアの「選択の自由」を提供します。

免責条項およびシステム構成:

1 ワークロードと構成については、 http://intel.com/PerformanceIndex/(英語)にアクセスし、International Supercomputing Conference(ISC’23)のページを参照してください。結果は異なる場合があります。Results may vary.

2 インテルは、サードパーティーのデータについて管理や監査を行っていません。ほかの情報も参考にしてデータの正確さを評価してください。

3Hyperion Research HPC Market Update、2022年11月。

4 27のベンチマークとアプリケーションで測定した結果、インテル® Xeon® Platinum 8480+ プロセッサーはAMD EPYC 7763と比較して1.5倍の幾何平均HPCパフォーマンスを発揮。結果は異なる場合があります。

5 インテル® デベロッパー・クラウドのベータ版は現在、一部の事前認定済み顧客企業に提供されています。

6 インテルの推定によると。

7 2023年3月時点でのインテルの推定値。Rodinia、SHOC、PENNANTなど、85のHPCベンチマークとサンプルのセットを使用して測定した結果に基づきます。結果は異なる場合があります。

性能は、使用状況、構成、その他の要因によって異なります。性能の測定結果は、構成に示されている日付時点のテストに基づいています。また、現在公開中のすべてのアップデートが適用されているとは限りません。絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。

実際のコストや結果は異なる場合があります。

インテルのテクノロジーを使用するには、対応したハードウェア、ソフトウェア、またはサービスの有効化が必要となる場合があります。

将来の計画または予測について言及している本資料内の記述は、現在の予測に基づくものであり、多数のリスクや不確定要素を伴う将来の見通しです。これらの要因によって、実際の結果はこれらの記述に明示的または黙示的に示された結果と著しく異なる可能性があります。際の結果が著しく異なる原因となり得る要素の詳細については、インテルの最新の収益発表およびSEC提出資料(http://www.intc.com/)を参照してください。