サーバーの列の最後に立ち、遠くの壁に投影された明るい青のデータポイントを見つめる人物

インテル® アドバンスト・マトリクス・エクステンション (インテル® AMX) とは?

この最新世代のインテル® Xeon® スケーラブル・プロフェッサー・ファミリーに搭載された内蔵アクセラレーターが、AI 機能の拡張、簡素化、高速化を助けディープラーニング・ワークロードに必要なコンピューティングのニーズを満たします1

重要なポイント

  • インテル® AMX は、最新世代のインテル® Xeon® スケーラブル・プロセッサー・ファミリーにおいて提供されるインテル® AI エンジンの一部です。

  • インテル® AMX は、ディープラーニング・トレーニングと推論ワークロードを高速化し、追加の専用ハードウェアの必要性を最小限に抑えます。

  • インテル® デベロッパー・ツールと支援リソースにより、インテル® AMX を容易に活用できます。

author-image

投稿者:

インテル® Xeon® スケーラブル・プロセッサー・ファミリーとインテル® AMX

生成 AI、大規模言語モデル (LLM)、コンピューター・ビジョンに依存するものなど、ディープラーニング・ワークロードは、コンピューティング負荷が非常に高くなる場合があり、導入の成功を確保するには高レベルのパフォーマンスと、多くの場合は追加の専用ハードウェアが必要になります。これらの要件に関連するコストは、迅速に拡大し、ディスクリート・ハードウェア・ソリューションの追加は、複雑さと互換性の問題を不必要に増し加える可能性があります。

インテル® Xeon® スケーラブル・プロセッサー・ファミリーに搭載されるインテル® AMX は、ディープラーニング・ワークロードをより効率的にしてコスト効率を高め、トレーニングと導入を容易にするために、推論とトレーニングを高速化しながら、専用ハードウェアの必要性を最小限に抑えます。

インテル® AMX は、インテル® Xeon® スケーラブル・プロセッサー・ファミリーにインテル® AI エンジンとして内蔵された AI 向けアクセラレーターの 1 つであり、スケールに応じて最大限に CPU を活用し AI のトレーニング・ワークロードおよび推論ワークロードを助け、効率の向上、推論、トレーニング、および導入コストの削減、TCO (総保有コスト) の削減などを実現します。インテル® AMX は、各 CPU コアに搭載され、システムメモリー近くに配置される内蔵アクセラレーターとして、ディスクリート・アクセラレーターよりも使用が複雑でないことが多く、価値実現までの時間を短縮します。

組織が高度な AI ワークロードをサポートする方法は数多くありますが、強力で内蔵 AI アクセラレーターを搭載したインテル® Xeon® スケーラブル・プロセッサー・ファミリーをベースとした基盤により、トレーニングと推論のパフォーマンス目標を達成すると同時に、システムの複雑さ、導入と運用コストを削減し、ビジネスでの利益を拡大することができます。

インテル® AMX の仕組み

インテル® AMX は、インテル® Xeon® スケーラブル・プロセッサーのコアにある専用ハードウェア・ブロックであり、行列数値演算に依存するディープラーニング・トレーニングと推論のワークロードを最適化および高速化するのに役立ちます。

インテル® AMX は、AI ワークロードをディスクリート・アクセラレーターにオフロードする代わりに CPU 上で実行し、大幅なパフォーマンスの向上を実現します。2このアーキテクチャーは、BF16 (トレーニング / 推論) および int8 (推論) のデータタイプをサポートし、2 つの主要なコンポーネントを含みます。

  • タイル: これらは、それぞれが 1 キロバイトの大きさの 8 つの 2 次元レジスターで構成され、大量のデータを保存します。
  • タイル行列乗算 (TMUL): TMUL は、タイルに添付されたアクセラレーター・エンジンであり、AI 向けに行列乗算を実行します。

これらのコンポーネントは、ともに、インテル® AMX が各コアにより多くのデータを保存し、単一のオペレーションでより大きな行列を計算することを可能にします。さらに、インテル® AMX は、完全に拡張可能でスケーラブルになるよう設計されています。

ビジネス成果を向上させるインテル® AMX の利点

インテル® AMX により、インテル® Xeon® スケーラブル・プロセッサー・ファミリーは、AI アプリケーション向けの最も重要なユースケースである推論のバランスをとることで、ディープラーニング・トレーニングと推論ワークロードのパフォーマンスを向上し、トレーニング機能の強化を実現します。

多くのインテルのお客様が、インテル® AMX を活用して、組織により優れた成果を実現しています。第 5 世代インテル® Xeon® プロセッサー・ファミリーの使用により、第 3 世代インテル® Xeon® プロセッサー・ファミリーとの比較において、トレーニングおよび推論において最大 14 倍の向上を可能にします。3

インテル® AMX の主な利点には、次のものが含まれます。

  • パフォーマンスの向上
    CPU ベースのアクセラレーションは、電力とリソースの活用効率を向上し、同じ価格でパフォーマンスの向上を実現します。
    例えば、インテル® AMX BF16 搭載第 5 世代インテル® Xeon® Platinum 8592+ プロセッサーは、FP32 を搭載した第 3 世代インテル® Xeon® プロセッサーと比較して、リアルタイムの音声認識推論パフォーマンス (RNN-T) は最大 10.7 倍向上、ワット当たりのパフォーマンスは最大 7.9 倍向上します。4
  • TCO (総保有コスト) の削減
    インテル® AMX 搭載インテル® Xeon® スケーラブル・プロフェッサー・ファミリーは、コストの削減、TCO の削減、およびサステナビリティー目標の促進を支援するさまざまな効率性の向上を実現します。
    インテル® AMX は、すでに所有している可能性のあるインテル® Xeon® スケーラブル・プロセッサー・ファミリーに搭載された内蔵アクセラレーターとして、すでに行った投資を最大化し、お使いの CPU からより多くの価値を得ることを可能にし、通常ディスクリート・アクセラレーターの追加に関連するコストと複雑性を排除しています。
    インテル® AMX 搭載インテル® Xeon® スケーラブル・プロセッサー・ファミリーは、ほかの利用可能なオプションと比較して、よりコスト効率の高いサーバー・アーキテクチャーを提供でき、電力と排出量の両方を削減するというメリットをもたらします。
    AMD Genoa 9654 サーバーとの比較で、インテル® AMX を搭載した第 5 世代インテル® Xeon® Platinum プロセッサーは、バッチ化された自然言語処理推論 (BERT-Large) のパフォーマンスが最大 2.69 倍向上し、ワット当たりパフォーマンスが最大 2.96 倍向上しました。5
  • 開発時間の短縮
    インテルは、ディープラーニング・アプリケーションの開発プロセスを簡素化するために、TensorFlow や PyTorch プロジェクトなどのオープンソース・コミュニティーと緊密に連携し、インテルのハードウェア向けのフレームワークを最適化して、最新の最適化および機能をアップストリームし、開発者がすぐに利用できるようにしています。これにより、わずかなコード行を追加することで、インテル® AMX のパフォーマンスのメリットを活用し、全体的な開発時間を短縮できます。
    また、インテルは、無料の開発ツール、ライブラリー、リソースへのアクセスも提供しています。

インテル® AMX ディープラーニングのユースケース

インテル® AMX は、幅広いディープラーニングのユースケースに導入でき、エンドユーザーとビジネスの価値を高める大幅なパフォーマンス向上を実現します。

  • レコメンダー・システム: インテル® AMX を、AI レコメンダー・モデル向けのよりコスト効率の高いソリューションとして使用し、e コマース、ソーシャルメディア、ストリーミング・エンターテインメント、パーソナライズされた銀行業務などのユースケースについて、製品、コンテンツ、サービス推奨の応答性を高めることができます。例えば、コンテンツ・プロバイダーは、インテル® AMX を使用して、対象となる映画や本のお勧めや広告の配信を高速化したり、リアルタイムのユーザー行動信号と、ほぼリアルタイムでの時間や場所などのコンテキスト機能から構成されるディープラーニング・ベースのレコメンダー・システムを提供しています。第 5 世代インテル® Xeon® プロセッサー・ファミリーは、FP32 を搭載した第 3 世代インテル® Xeon® プロセッサー・ファミリーと比較して、バッチのレコメンデーション・システムの推論パフォーマンス (DLRM) が最大 8.7 倍、ワット当たりパフォーマンスが最大 6.2 倍向上しています。6
  • 自然言語処理 (NLP): テキストベースのユースケースを高速化して、医療やライフサイエンスで使用されるような NLP アプリケーションをサポートおよび拡張し、臨床記録からインサイトを抽出したり、大量の医療データを処理して、健康問題の早期発見とケアの提供の改善に役立てることができます。金融サービスでは、インテル® AMX を使用してオンライン・チャットボットの応答性を向上させ、顧客を必要な情報とより迅速につなげると同時に、限られたスタッフの負担を軽減し、より複雑な要求に対応できるようにします。
    インテル® AMX は、レコメンダー・システムのコスト削減の利点と同様に、NLP 向けによりコスト効率の高いソリューションとなることができます。例えば、BERT-Large AI 自然言語モデルの導入に使用した場合、第 4 世代インテル® Xeon® プロセッサー・ファミリーに搭載されたインテル® AMX は、AMD Genoa 9354 と比較して最大 79% のコスト削減を実現しています。7
  • 生成 AI: インテル® AMX を活用して、画像、ビデオ、オーディオ、言語翻訳、データの増強、および要約を含むコンテンツ生成などの生成 AI ユースケース向けのディープラーニング・トレーニングと推論ワークロードのパフォーマンスを高速化できます。例えば、FP32 データタイプのインテル® Xeon® Platinum 8380 プロセッサーと比較したインテル® AMX 搭載のインテル® Xeon® Platinum 8480+ プロセッサーの BF16 データタイプのパフォーマンス検証では、Stable Diffusion テキストの画像生成時間は 5 秒未満に、Stable Diffusion モデルの微調整は 5 分未満になりました。8
  • コンピューター・ビジョン: ビデオおよび画像のキャプチャーからインサイトとアクションまでの時間を短縮して、優れた顧客体験を実現し、ビジネスの効率の向上と運用コストの削減を支援します。例えば、小売店では、インテル® AMX は、コンピューター・ビジョン対応のスムーズなチェックアウトを使用して顧客の取引時間を最小限に抑え、ほぼリアルタイムでの商品棚の監視をサポートして在庫データを追跡し、アイテムの在庫がなくなるとすぐにスタッフに通知します。製造では、ロボットアームに搭載されたコンピューター・ビジョンからのビデオの高速分析により、自動欠陥検出機能を用いて時間とコスト節約を実現できます。

インテルのお客様が、インテル® AMX を使用してより優れたビジネス成果をどのように促進しているか、その他の例については、インテルのカスタマー・スポットライト・ライブラリーを参照してください。

インテル® AMX の利用を開始

インテルでは、幅広い開発リソースを提供して、インテル® Xeon® スケーラブル・プロセッサー・ファミリーに内蔵されたインテル® AMX アクセラレーターの活用を支援しています。

開始するには、次のガイドで、インテル® AMX によるパフォーマンス向上に関する手順を確認してください。

より詳細な技術情報、チュートリアル、コードサンプル、テストモジュールについては、次のリンクを参照してください。

インテル® Xeon® スケーラブル・プロセッサー・ファミリーのチューニング・ガイドのすべては、開発者向けソフトウェア・ツール・カタログからアクセスできます。

インテルでは、AI 開発作業の効率化するため、次を含むインテル® oneAPI ツールキット、コンポーネント、最適化などを提供しています。

インテル® AMX を今すぐ試す

参考資料を参照することに加えて、インテル® デベロッパー・クラウドを使用して、インテル® ハードウェア、インテル® AMX、その他の内蔵アクセラレーション機能を試すことができます。

また、ワークロードの学習、プロトタイピング、テスト、および実行のためのこの無料のオンライン・プラットフォームには、多くのインテル® ソフトウェア開発ツールキット、ツール、ライブラリー向けのサポートも含まれています。

インテル® AMX により、CPU の AI 機能を拡張および強化

組織が、増加するコンピューティングの需要を満たすソリューションで、ディープラーニング・トレーニングと推論ワークロードをサポートすることを求める中で、インテル® AMX は、すでに所有している可能性のあるインテル® ハードウェアを使用して、パフォーマンスの向上を支援できます。これは一般的なオープンソースのフレームワークでのでインテルの最適化と無料のインテルによる開発ツールおよびリソースへのアクセスを使用するため、専用ハードウェアの追加に伴うコストと複雑性を排除します。