インテル® アドバンスト・マトリクス・エクステンション (インテル® AMX) とは？

この最新世代のインテル® Xeon® スケーラブル・プロフェッサー・ファミリーに搭載された内蔵アクセラレーターが、AI 機能の拡張、簡素化、高速化を助けディープラーニング・ワークロードに必要なコンピューティングのニーズを満たします¹。

重要なポイント

インテル® AMX は、最新世代のインテル® Xeon® スケーラブル・プロセッサー・ファミリーにおいて提供されるインテル® AI エンジンの一部です。
インテル® AMX は、ディープラーニング・トレーニングと推論ワークロードを高速化し、追加の専用ハードウェアの必要性を最小限に抑えます。
インテル® デベロッパー・ツールと支援リソースにより、インテル® AMX を容易に活用できます。

投稿者:

最新世代のインテル® Xeon® スケーラブル・プロセッサー・ファミリーに搭載された内蔵アクセラレーターであるインテル® アドバンスト・マトリクス・エクステンション (インテル® AMX) の活用は、負荷の高いディープラーニングのトレーニングや推論ワークロードを高速化します。作業手順ガイドにより、お使いの CPU でインテル® AMX をアクティブ化する方法について説明します。これにより、AI パイプラインの最適化、効率性の向上、価値の最大化、および組織における TCO の削減を実現できます。

インテル® Xeon® スケーラブル・プロセッサー・ファミリーとインテル® AMX

生成 AI、大規模言語モデル (LLM)、コンピューター・ビジョンに依存するものなど、ディープラーニング・ワークロードは、コンピューティング負荷が非常に高くなる場合があり、導入の成功を確保するには高レベルのパフォーマンスと、多くの場合は追加の専用ハードウェアが必要になります。これらの要件に関連するコストは、迅速に拡大し、ディスクリート・ハードウェア・ソリューションの追加は、複雑さと互換性の問題を不必要に増し加える可能性があります。

インテル® Xeon® スケーラブル・プロセッサー・ファミリーに搭載されるインテル® AMX は、ディープラーニング・ワークロードをより効率的にしてコスト効率を高め、トレーニングと導入を容易にするために、推論とトレーニングを高速化しながら、専用ハードウェアの必要性を最小限に抑えます。

インテル® AMX は、インテル® Xeon® スケーラブル・プロセッサー・ファミリーにインテル® AI エンジンとして内蔵された AI 向けアクセラレーターの 1 つであり、スケールに応じて最大限に CPU を活用し AI のトレーニング・ワークロードおよび推論ワークロードを助け、効率の向上、推論、トレーニング、および導入コストの削減、TCO (総保有コスト) の削減などを実現します。インテル® AMX は、各 CPU コアに搭載され、システムメモリー近くに配置される内蔵アクセラレーターとして、ディスクリート・アクセラレーターよりも使用が複雑でないことが多く、価値実現までの時間を短縮します。

組織が高度な AI ワークロードをサポートする方法は数多くありますが、強力で内蔵 AI アクセラレーターを搭載したインテル® Xeon® スケーラブル・プロセッサー・ファミリーをベースとした基盤により、トレーニングと推論のパフォーマンス目標を達成すると同時に、システムの複雑さ、導入と運用コストを削減し、ビジネスでの利益を拡大することができます。

インテル® AMX の仕組み

インテル® AMX は、インテル® Xeon® スケーラブル・プロセッサーのコアにある専用ハードウェア・ブロックであり、行列数値演算に依存するディープラーニング・トレーニングと推論のワークロードを最適化および高速化するのに役立ちます。

インテル® AMX は、AI ワークロードをディスクリート・アクセラレーターにオフロードする代わりに CPU 上で実行し、大幅なパフォーマンスの向上を実現します。²このアーキテクチャーは、BF16 (トレーニング / 推論) および int8 (推論) のデータタイプをサポートし、2 つの主要なコンポーネントを含みます。

タイル: これらは、それぞれが 1 キロバイトの大きさの 8 つの 2 次元レジスターで構成され、大量のデータを保存します。
タイル行列乗算 (TMUL): TMUL は、タイルに添付されたアクセラレーター・エンジンであり、AI 向けに行列乗算を実行します。

これらのコンポーネントは、ともに、インテル® AMX が各コアにより多くのデータを保存し、単一のオペレーションでより大きな行列を計算することを可能にします。さらに、インテル® AMX は、完全に拡張可能でスケーラブルになるよう設計されています。

ビジネス成果を向上させるインテル® AMX の利点

インテル® AMX により、インテル® Xeon® スケーラブル・プロセッサー・ファミリーは、AI アプリケーション向けの最も重要なユースケースである推論のバランスをとることで、ディープラーニング・トレーニングと推論ワークロードのパフォーマンスを向上し、トレーニング機能の強化を実現します。

多くのインテルのお客様が、インテル® AMX を活用して、組織により優れた成果を実現しています。第 5 世代インテル® Xeon® プロセッサー・ファミリーの使用により、第 3 世代インテル® Xeon® プロセッサー・ファミリーとの比較において、トレーニングおよび推論において最大 14 倍の向上を可能にします。³

インテル® AMX の主な利点には、次のものが含まれます。

パフォーマンスの向上
CPU ベースのアクセラレーションは、電力とリソースの活用効率を向上し、同じ価格でパフォーマンスの向上を実現します。
例えば、インテル® AMX BF16 搭載第 5 世代インテル® Xeon® Platinum 8592+ プロセッサーは、FP32 を搭載した第 3 世代インテル® Xeon® プロセッサーと比較して、リアルタイムの音声認識推論パフォーマンス (RNN-T) は最大 10.7 倍向上、ワット当たりのパフォーマンスは最大 7.9 倍向上します。⁴
TCO (総保有コスト) の削減
インテル® AMX 搭載インテル® Xeon® スケーラブル・プロフェッサー・ファミリーは、コストの削減、TCO の削減、およびサステナビリティー目標の促進を支援するさまざまな効率性の向上を実現します。
インテル® AMX は、すでに所有している可能性のあるインテル® Xeon® スケーラブル・プロセッサー・ファミリーに搭載された内蔵アクセラレーターとして、すでに行った投資を最大化し、お使いの CPU からより多くの価値を得ることを可能にし、通常ディスクリート・アクセラレーターの追加に関連するコストと複雑性を排除しています。
インテル® AMX 搭載インテル® Xeon® スケーラブル・プロセッサー・ファミリーは、ほかの利用可能なオプションと比較して、よりコスト効率の高いサーバー・アーキテクチャーを提供でき、電力と排出量の両方を削減するというメリットをもたらします。
AMD Genoa 9654 サーバーとの比較で、インテル® AMX を搭載した第 5 世代インテル® Xeon® Platinum プロセッサーは、バッチ化された自然言語処理推論 (BERT-Large) のパフォーマンスが最大 2.69 倍向上し、ワット当たりパフォーマンスが最大 2.96 倍向上しました。⁵
開発時間の短縮
インテルは、ディープラーニング・アプリケーションの開発プロセスを簡素化するために、TensorFlow や PyTorch プロジェクトなどのオープンソース・コミュニティーと緊密に連携し、インテルのハードウェア向けのフレームワークを最適化して、最新の最適化および機能をアップストリームし、開発者がすぐに利用できるようにしています。これにより、わずかなコード行を追加することで、インテル® AMX のパフォーマンスのメリットを活用し、全体的な開発時間を短縮できます。
また、インテルは、無料の開発ツール、ライブラリー、リソースへのアクセスも提供しています。

インテル® AMX ディープラーニングのユースケース

インテル® AMX は、幅広いディープラーニングのユースケースに導入でき、エンドユーザーとビジネスの価値を高める大幅なパフォーマンス向上を実現します。

レコメンダー・システム: インテル® AMX を、AI レコメンダー・モデル向けのよりコスト効率の高いソリューションとして使用し、e コマース、ソーシャルメディア、ストリーミング・エンターテインメント、パーソナライズされた銀行業務などのユースケースについて、製品、コンテンツ、サービス推奨の応答性を高めることができます。例えば、コンテンツ・プロバイダーは、インテル® AMX を使用して、対象となる映画や本のお勧めや広告の配信を高速化したり、リアルタイムのユーザー行動信号と、ほぼリアルタイムでの時間や場所などのコンテキスト機能から構成されるディープラーニング・ベースのレコメンダー・システムを提供しています。第 5 世代インテル® Xeon® プロセッサー・ファミリーは、FP32 を搭載した第 3 世代インテル® Xeon® プロセッサー・ファミリーと比較して、バッチのレコメンデーション・システムの推論パフォーマンス (DLRM) が最大 8.7 倍、ワット当たりパフォーマンスが最大 6.2 倍向上しています。⁶
自然言語処理 (NLP): テキストベースのユースケースを高速化して、医療やライフサイエンスで使用されるような NLP アプリケーションをサポートおよび拡張し、臨床記録からインサイトを抽出したり、大量の医療データを処理して、健康問題の早期発見とケアの提供の改善に役立てることができます。金融サービスでは、インテル® AMX を使用してオンライン・チャットボットの応答性を向上させ、顧客を必要な情報とより迅速につなげると同時に、限られたスタッフの負担を軽減し、より複雑な要求に対応できるようにします。
インテル® AMX は、レコメンダー・システムのコスト削減の利点と同様に、NLP 向けによりコスト効率の高いソリューションとなることができます。例えば、BERT-Large AI 自然言語モデルの導入に使用した場合、第 4 世代インテル® Xeon® プロセッサー・ファミリーに搭載されたインテル® AMX は、AMD Genoa 9354 と比較して最大 79% のコスト削減を実現しています。⁷
生成 AI: インテル® AMX を活用して、画像、ビデオ、オーディオ、言語翻訳、データの増強、および要約を含むコンテンツ生成などの生成 AI ユースケース向けのディープラーニング・トレーニングと推論ワークロードのパフォーマンスを高速化できます。例えば、FP32 データタイプのインテル® Xeon® Platinum 8380 プロセッサーと比較したインテル® AMX 搭載のインテル® Xeon® Platinum 8480+ プロセッサーの BF16 データタイプのパフォーマンス検証では、Stable Diffusion テキストの画像生成時間は 5 秒未満に、Stable Diffusion モデルの微調整は 5 分未満になりました。⁸
コンピューター・ビジョン: ビデオおよび画像のキャプチャーからインサイトとアクションまでの時間を短縮して、優れた顧客体験を実現し、ビジネスの効率の向上と運用コストの削減を支援します。例えば、小売店では、インテル® AMX は、コンピューター・ビジョン対応のスムーズなチェックアウトを使用して顧客の取引時間を最小限に抑え、ほぼリアルタイムでの商品棚の監視をサポートして在庫データを追跡し、アイテムの在庫がなくなるとすぐにスタッフに通知します。製造では、ロボットアームに搭載されたコンピューター・ビジョンからのビデオの高速分析により、自動欠陥検出機能を用いて時間とコスト節約を実現できます。

インテルのお客様が、インテル® AMX を使用してより優れたビジネス成果をどのように促進しているか、その他の例については、インテルのカスタマー・スポットライト・ライブラリーを参照してください。

インテル® AMX の利用を開始

インテルでは、幅広い開発リソースを提供して、インテル® Xeon® スケーラブル・プロセッサー・ファミリーに内蔵されたインテル® AMX アクセラレーターの活用を支援しています。

開始するには、次のガイドで、インテル® AMX によるパフォーマンス向上に関する手順を確認してください。

インテル® AI 最適化クイック・スタート・ガイド: インテル® 最適化 AI ライブラリーとフレームワークにより、AI ワークロードのパフォーマンスを向上する方法について説明します。このガイドには、TensorFlow、XGBoost、PyTorch などの作業手順の説明が含まれています。
ディープラーニング AI パフォーマンスの向上のためチューニング・ガイド: インテル® Optimized AI ツールキット向けにプロセッサーを調整するための推奨事項を提供し、可能な限り最高のパフォーマンスを実現できるようにします。

より詳細な技術情報、チュートリアル、コードサンプル、テストモジュールについては、次のリンクを参照してください。

インテル® Xeon® スケーラブル・プロセッサー・ファミリーのチューニング・ガイドのすべては、開発者向けソフトウェア・ツール・カタログからアクセスできます。

インテルでは、AI 開発作業の効率化するため、次を含むインテル® oneAPI ツールキット、コンポーネント、最適化などを提供しています。

インテル® AMX を今すぐ試す

参考資料を参照することに加えて、インテル® デベロッパー・クラウドを使用して、インテル® ハードウェア、インテル® AMX、その他の内蔵アクセラレーション機能を試すことができます。

また、ワークロードの学習、プロトタイピング、テスト、および実行のためのこの無料のオンライン・プラットフォームには、多くのインテル® ソフトウェア開発ツールキット、ツール、ライブラリー向けのサポートも含まれています。

インテル® AMX により、CPU の AI 機能を拡張および強化

組織が、増加するコンピューティングの需要を満たすソリューションで、ディープラーニング・トレーニングと推論ワークロードをサポートすることを求める中で、インテル® AMX は、すでに所有している可能性のあるインテル® ハードウェアを使用して、パフォーマンスの向上を支援できます。これは一般的なオープンソースのフレームワークでのでインテルの最適化と無料のインテルによる開発ツールおよびリソースへのアクセスを使用するため、専用ハードウェアの追加に伴うコストと複雑性を排除します。

詳しくはこちら

免責事項

アクセラレーターの可用性は、SKU によって異なります。製品の詳細について詳しくは、インテル® 製品の仕様情報ページをご覧ください。

[A16] および [A17] は intel.co.jp/processorclaims (英語) (第 4 世代インテル® Xeon® スケーラブル・プロセッサー) をご覧ください。実際のパフォーマンスはこのテスト結果と異なる場合があります。

詳細情報は、intel.com/processorclaims (英語) の「5th Gen Intel® Xeon® Scalable Processors」セクションにある [A15-A16] を参照してください。結果は状況により異なります。

⁴

intel.com/processorclaims (英語) の 5th Gen Intel® Xeon® processors [A23] を参照してください。結果は状況により異なります。

⁵

intel.com/processorclaims (英語) の 5th Gen Intel® Xeon® processors [A210] を参照してください。結果は状況により異なります。

⁶

intel.com/processorclaims (英語) の 5th Gen Intel® Xeon® processors [A20] を参照してください。結果は状況により異なります。

⁷

第 4 世代インテル® Xeon® プロセッサー・ファミリーをベースとし、BERT-Large ワークロードの実行中に第 4 世代 AMD EPYC プロセッサーよりも最大 5.60 倍の速度を実現します。このパフォーマンスにより、サーバーのフリートが 50 台から 9 台に削減され、年間 424K kWh の電力を節約し、4 年間で 719,546kg の CO2 を削減し、138 万米ドルのコスト削減を実現します。BERT-Large: 8462Y+: 1 ノード、2x 第 4 世代インテル® Xeon® スケーラブル・プロセッサー 8462Y+ (32c/2.80GHz、300W TDP) 搭載 Supermicro SYS-221H-TNR サーバー、1024GB (16x64GB/4800) DDR5 メモリー、マイクロコード 0x2b000161、HT 有効、ターボ有効、SNC 無効、Ubuntu 22.04.2 LTS、5.15.0-58-generic、1x 1.92T SAMSUNG MZQL21T9HCJR-00A07、フレームワーク = インテル® TF 2.11.dev202242、Python 3.8、AI モデル =BERT-Large、ステップサイズ =30、ウォームアップ =10。バッチ処理結果: FP32(BS=64[16 コア / インスタンス])、BFloat16(BS=64[4 コア / インスタンス])、int8-AMX(BS=64[1 コア / インスタンス])、Real Time(BS1) の結果を使用し、130ms のレイテンシーを維持しながら最高スコアを達成。SLA: FP32 (32 コア / インスタンス)、BFloat16 (4 コア / インスタンス)、int8-AMX (4 コア / インスタンス) を使用して最高スコアを達成 (2023年4月に実施したインテル社内テストにより測定)。BERT-Large: 9354: 1 ノード、2x AMD EPYC プロセッサー 9354 (32c/3.25GHz、280W TDP) 搭載 Supermicro H13DSH サーバー、1536GB (24x64GB/4800) DDR5 メモリー、マイクロコード 0xa101111、SMT 有効、ブースト有効、NPS=1、Ubuntu 22.04.2 LTS、5.15.0-58-generic、1x 1.92T SAMSUNG MZQL21T9HCJR-00A07、フレームワーク =Stock TF 2.10.1、ZenDNN=v4.0、Python 3.8、AI モデル =BERT-Large、ステップサイズ =30、ウォームアップ =10。バッチ処理結果: FP32(BS=64[1 コア / インスタンス]) を使用して最高スコアを達成 (2023年4月に実施したインテル社内テストにより測定)。コストはインテルの推定値と thinkmate.com からの情報に基づいています。

2023年3月の時点で推定される AMD EPYC 9354 の 50 台のサーバーのフリートの場合:
- 設備投資コスト: 101 万米ドル
- 運用コスト (4 年間、電力および冷却の光熱費、インフラストラクチャー、ハードウェアのメンテナンス・コストを含む): 73 万 2,600 米ドル
- エネルギー使用量 (kWh、4 年間、サーバー 1 台当たり): 43169、PUE 1.6
- その他の推定: 光熱費 0.1/kWh (米ドル)、1kWh 当たりの CO2 排出量 (kg) 0.42394
2023年3月の時点で推定される第 4 世代インテル® Xeon® 8462Y の 9 台のサーバーのフリートの場合:
- 設備投資コスト: 22 万 2,000 米ドル
- 運用コスト (4 年間、電力および冷却の光熱費、インフラストラクチャー、ハードウェアのメンテナンス・コストを含む): 13 万 9,000 米ドル
- エネルギー使用量 (kWh、4 年間、サーバー 1 台当たり): 51242、PUE 1.6
- その他の推定: 光熱費 0.1/kWh (米ドル)、1kWh 当たりの CO2 排出量 (kg) 0.42394

⁸

第 4 世代インテル® Xeon® スケーラブル・プロセッサー微調整: 2022年12月9日に実施したインテル社内テストにより測定。1 ～ 4 ノード、2S、インテル® Xeon® Platinum 8480+ プロセッサー 56 コア搭載 Dennard Pass プラットフォーム、512GB メモリー搭載のソフトウェア (16x32GB DDR5 4800MT/s [4800MT/s])、マイクロコード 0x90000c0、HT 有効、ターボ有効、Rocky Linux 8.7、4.18.0-372.32.1.el8_6.crt2.x86_64、931.5G SSD。200Gbps OmniPath で接続された複数のノード。PyTorch 1.13、IPEX 1.13、Transformers 4.24.0、Accelerate 0.14、Diffusers 0.8.0、インテル® oneDNN 2.6.0、インテル® oneCCL 2021.7.1。第 4 世代インテル® Xeon® スケーラブル・プロセッサー推論: 2022年12月9日に実施したインテル社内テストにより測定。1 ノード、2S、インテル® Xeon® Platinum 8480+ プロセッサー 56 コア搭載 Archer City プラットフォーム、1024GB メモリー搭載のソフトウェア (16x64GB DDR5 4800MT/s [4800MT/s])、マイクロコード 0x2b00011、HT 有効、ターボ有効、Ubuntu 22.04.1 LTS、5.15.0-56-generic、1.5TB SSD。100Gbps イーサネット・コントローラー I225-LM で接続された複数のノード。PyTorch (commit ID: 26d1dbc) + PR 81852、Transformers 4.25.1、Accelerate 0.14、Diffusers 0.8.0、インテル® oneDNN 2.6.0。第 3 世代インテル® Xeon® スケーラブル・プロセッサー推論: 2022年12月9日に実施したインテル社内テストにより測定。1 ノード、2S、インテル® Xeon® Platinum 8380 CPU @ 2.30GHz 40 コア搭載 WHITLEY プラットフォーム、512GB メモリー搭載のソフトウェア (16x32GB DDR4 3200MT/s [3200MT/s])、マイクロコード 0xd000375、HT 有効、ターボ有効、Ubuntu、5.15.0-56-generic、7.0TB SSD。10GBASE-T 対応の 10Gbps イーサネット・コントローラー X710 で接続された複数のノード。PyTorch (commit ID: 26d1dbc)、Transformers 4.25.1、Accelerate 0.14、Diffusers 0.8.0、インテル® oneDNN 2.6.0。性能は、使用状況、構成、その他の要因によって異なります。詳細については、Intel.com/PerformanceIndex (英語) を参照してください。パフォーマンス実績は構成情報に記載された日に実施したテストに基づくものであり、公開中のアップデートがすべて適用されているとは限りません。構成の詳細については、補足資料を参照してください。絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。

言語の選択

Intel.com サーチを使用

クイックリンク

最近の検索

高度検索

検索のみ

インテル® アドバンスト・マトリクス・エクステンション (インテル® AMX) とは？

重要なポイント

インテル® Xeon® スケーラブル・プロセッサー・ファミリーとインテル® AMX

インテル® AMX の仕組み

ビジネス成果を向上させるインテル® AMX の利点

インテル® AMX ディープラーニングのユースケース

インテル® AMX の利用を開始

インテル® AMX を今すぐ試す

インテル® AMX により、CPU の AI 機能を拡張および強化

詳しくはこちら

免責事項

Intel.com サーチを使用

クイックリンク

最近の検索

高度検索

検索のみ

インテル® アドバンスト・マトリクス・エクステンション (インテル® AMX) とは？

重要なポイント

インテル® Xeon® スケーラブル・プロセッサー・ファミリーとインテル® AMX

インテル® AMX の仕組み

ビジネス成果を向上させるインテル® AMX の利点

インテル® AMX ディープラーニングのユースケース

インテル® AMX の利用を開始

インテル® AMX を今すぐ試す

インテル® AMX により、CPU の AI 機能を拡張および強化

インテル® アクセアレーター・エンジン

インテル® Xeon® スケーラブル・プロセッサー

免責事項