MLCommons、AIでのインテルの強力な競争優位性を示す 最新のベンチマーク結果を公開

Habana® Gaudi® 2と第4世代 インテル® Xeon® スケーラブル・プロセッサーが AIの学習処理で先進のパフォーマンスと最適なコスト削減を実現

ニュース

  • 2023年6月27日

  • インテル PRに問い合わせる

  • ソーシャルメディアでインテル・ニュースルームをフォローする:

    Twitter のロゴ
    YouTube のアイコン

author-image

投稿者:

最新情報:(機械学習に関するオープンなエンジニアリング・コンソーシアムの)MLCommonsは、AIパフォーマンスを評価する業界標準ベンチマークMLPerf Training 3.0の測定結果を公開しました。今回のベンチマークで、ディープラーニング・アクセラレーターのHabana® Gaudi® 2と第4世代インテル® Xeon® スケーラブル・プロセッサーが学習処理で傑出した成果を達成しました。

「MLCommonsが公開した最新のMLPerfベンチマーク測定結果で、インテル® Xeon® プロセッサーとディープラーニング・アクセラレーターのHabana® Gaudi®がAI領域で実現する総保有コスト(TCO)の価値が実証されました。インテル® Xeon® スケーラブル・プロセッサーに内蔵されたアクセラレーターは、汎用プロセッサーでの大量のAIワークロードの実行として理想的なソリューションになります。また、Habana® Gaudi®は、大規模言語モデル(LLM)と生成AIで競争優位なパフォーマンスを提供します。インテルのシステムは、最適化が図られたプログラミングしやすいオープン・ソフトウェアの搭載により拡張性に優れており、データセンターのほか、クラウドからインテリジェント・エッジまでAIベースのソリューションを広範に導入する顧客やパートナー企業が直面する問題を低減させます」

– インテル コーポレーション 上席副社長 兼 データセンター&AI事業本部 本部長、サンドラ・リベラ(Sandra Rivera)

重要な理由:今日、業界の間では生成AIやLLMはNVIDIA GPU上でしか実行できないとも言われています。今回公開された最新データにより、閉鎖的なエコシステムに起因する効率性と拡張性の限界からの脱却を目指す顧客企業に対して、インテルのAIソリューション向け製品ポートフォリオが競争力のある選択肢になることが証明されました。

最新のMLPerf Training 3.0ベンチマーク結果では、幅広いディープラーニング・モデルでインテル製品のパフォーマンスが強調されました。Habana® Gaudi® 2 AI プロセッサー・ベースの学習処理用ソフトウェアとシステムの完成度の高さが、LLMであるGPT-3の広範なテスト項目で実証されました。GPT-3のLLMの学習処理ベンチマークで性能結果が示された半導体ソリューションは2つしかなく、Habana® Gaudi® 2はそのうちの1つです。

またHabana® Gaudi® 2は、サーバーとシステムの両方で実質的なコスト優位性をもたらします。MLPerfで検証されたGPT-3、コンピューター・ビジョン、自然言語モデルでのHabana® Gaudi® 2のアクセラレーター・パフォーマンスと今後進展するソフトウェアの利用により、Habana® Gaudi® 2は価格対性能比でNVIDIA H100に代わる有力な選択肢になります。

CPUの面では、インテル® AIエンジンを搭載する第4世代 インテル® Xeon® プロセッサーのディープラーニング性能により、顧客は単体でありながら総合的なAIシステムとなるインテル® Xeon® プロセッサー搭載サーバーを利用してデータの前処理やモデルの学習処理と展開を行え、性能、効率性、精度、拡張性のバランスの優れたAIソリューションとなります。

Habana® Gaudi® 2の測定結果:生成AIとLLMモデルの学習処理には、広範かつ膨大な演算要件を満たすサーバークラスターが不可欠です。今回のMLPerfベンチマークでは、1,750億パラメーターで構成され、極めて演算負荷の高いモデルとなるGPT-3のテストも行われ、結果、Habana® Gaudi® 2の顕著な性能と効率的な拡張性が明示されました。

結果のハイライト:

  • Habana® Gaudi® 2がGPT-3* で卓越した学習処理を実現:384個のアクセラレーターを使用して311分で完了
  • GPT-3モデルで(の学習処理で)アクセラレーターの数を256個から384個に拡張した場合、(そのパフォーマンスは)ほぼ比例して(95%)向上
  • 畳み込みニューラル・ネットワークのResNet-50では8個のアクセラレーター、セグメンテーション・モデルのUnet3Dでは8個のアクセラレーター、自然言語処理モデルのBERTでは8個および64個のアクセラレーターを使用し、コンピューター・ビジョンでの高水準な学習処理結果を実証
  • 11月発行のベンチマーク結果と比べて、BERTモデルは10%、ResNetモデルは4% それぞれパフォーマンスが向上し、Habana® Gaudi® 2 ソフトウェアの完成度の向上を実証
  • Habana® Gaudi® 2の結果は、カスタマイズされている設定での測定値。顧客企業がこのアクセラレーターをオンプレミス環境またはクラウドに実装した場合、同等の性能を達成

Habana® Gaudi® 2 対応ソフトウェアの完成度:Habana® Gaudi® プラットフォームは、需要が増加する生成AIとLLMに対応し、ソフトウェアのサポートの完成度も向上しています。

  • GPT-3モデルを使用したHabana® Gaudi® 2の性能測定では、カスタムのソフトウェアではなく、PyTorchをベースにした広く利用されているDeepSpeed最適化ライブラリー(Microsoft AI at Scaleの一部として提供)を採用。DeepSpeedライブラリーは、3D並列処理(データ、Tensor、パイプライン)の同時実行に対応し、LLMのスケーリング性能効率をさらに最適化
  • MLPerf Training 3.0で測定したHabana® Gaudi® 2のベンチマーク結果は、BF16データ型で実行した値。Habana® Gaudi® 2は、ソフトウェアのFP8データ型への対応と、2023年第3四半期にリリース予定の新機能により大幅なパフォーマンス向上の見込み

* MLPerfテスト用コーパスは、GPT-3モデルから抽出した1%の代表スライス標本で構成

4世代 インテル® Xeon® スケーラブル・プロセッサーの測定結果:今回のMLPerfの測定の対象になった数多くのAIソリューションで唯一のCPUの性能測定値として、インテル® Xeon® プロセッサーの結果も示され、インテル® Xeon® プロセッサーは、専用のAIシステムの導入に伴うコストや複雑さを生じさせることなく、そのプロセッサーの有する機能で企業の汎用システムにAIを実装できることを実証しました。

少なからず存在する、大規模モデルをゼロから断続的に立ち上げる顧客は汎用CPUを使用しての学習を実行できますが、多くの企業はビジネスにインテル® プロセッサー搭載サーバーを利用しているため、そのまま大規模モデルの学習を実行できます。多くの場合、事前学習済みのモデルを使用し、独自にキュレーションした小容量のデータセットで微調整することになりますが、この微調整はインテルのAIソフトウェアと業界標準のオープンソース・ソフトウェアの使用により、わずか数分で完了できるとの検証結果が公開されています。

結果のハイライト:

  • クローズド部門では、第4世代 インテル® Xeon® スケーラブル・プロセッサーはBERTモデルの学習処理を50分未満(47.93分)、ResNet-50モデルの学習処理を90分未満(88.17分)で完了
  • BERTを使用したオープン部門のベンチマーク結果では、インテル® Xeon® プロセッサーは16ノードに拡張した場合、約30分(31.06分)でモデルの学習処理を完了
  • 比較的大規模なRetinaNetモデルの場合、インテル® Xeon® プロセッサー16ノードで232分を達成。顧客は午前中、昼食休憩中、または夜間など、ピーク時間外にCPUサイクルを活用して独自モデルの学習を実行するといった柔軟な運用が可能
  • インテル® アドバンスト・マトリクス・エクステンション(インテル® AMX)内蔵の第4世代 インテル® Xeon® スケーラブル・プロセッサーはプロセッサーそのものの機能と性能で、複数のフレームワークや、エンドツーエンドのデータサイエンス・ツール、スマート・ソリューションの広範なエコシステムにわたり飛躍的なパフォーマンス向上

MLPerfは、AIパフォーマンスの最も定評のあるベンチマークとして認識されており、さまざまなソリューション間の公平かつ再現可能な性能比較を実行できます。インテルは、MLPerfで100件超のテストを行っており、業界標準のディープラーニング・エコシステム・ソフトウェアを搭載したCPUの結果を公開した唯一の企業です。

これらの結果は、インテル® oneAPIをベースとするオープンソースのインテル® イーサネット・ファブリック・スイート・ソフトウェアを活用したインテル® イーサネット800シリーズ・ネットワーク・アダプターなど、費用対効果と導入後すぐの利用を可能にする拡張性での高水準な効率性も強調しています。

学習処理に関するMLPerfベンチマーク結果: 学習処理にかかる時間2ソケットノードの第4世代インテル® Xeon® スケーラブル・プロセッサー学習処理時間(分)、短いほど高性能

BERT-Large下側のテキストボックス: BERT-Largeの学習処理時間:30分未満
ResNet-50/RetinaNet下側のテキストボックス: 午前中または夜間に、比較的大規模モデルの学習処理を実行

測定結果が示す事実:こうしたMLPerf測定結果に注視する一方で、重要なのは、インテルにはインテル® Xeon® スケーラブル・プロセッサーを基盤とする最高水準の汎用プラットフォーム(ハードウェアとソフトウェア)があり、レイテンシー要件といった顧客のSLAしきい値を満たし、それ以外のアプリケーションとパイプラインを運用できるソリューションが整っていることを、繰り返し強調すべきだという点です。また、NVIDIAのGPUに代わり、LLMや生成AIのような大規模AIの実装にトップレベルの性能と価格対性能比をもたらす、Habana® Gaudi® 2 AIプロセッサーという格別の選択肢も用意されています。

詳細情報:MLPerf Training v3.0に基づく性能指標(ベンチマーク結果) | MLCommonsによる公開情報(リンク)

The Small Print:

1 MLPerf テストコーパスは、GPT-3 モデルの 1% の代表スライスで構成されています。

注意事項および免責条項

性能は、使用状況、構成、その他の要因によって異なります。詳細については、http://www.Intel.com/PerformanceIndex/(英語)を参照してください。
性能の測定結果は、構成に示されている日付時点のテストに基づいています。また、現在公開中のすべてのアップデートが適用されているとは限りません。構成の詳細については、補足資料を参照してください。絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。
実際のコストや結果は異なる場合があります。
インテルのテクノロジーを使用するには、対応したハードウェア、ソフトウェア、またはサービスの有効化が必要となる場合があります。