Numenta が、強力な推論パフォーマンスを実現

Numenta は、トランスフォーマー・ネットワークを劇的に高速化するために、神経科学ベースのソリューションでインテルと協力しました。

概要:

  • Numenta は、コンピューター業界のパイオニアである Jeff Hawkins 氏 と Donna Dubinsky 氏 によって 2005 年に設立され、神経科学から独自技術を引き出す研究を 20 年間続けています。

  • Numenta は、20 年にわたる神経科学研究と AI テクノロジーの画期的な進歩に基づいて、強力な AI プラットフォームを生み出し、顧客がディープラーニング推論のパフォーマンス向上を達成することを可能にしました。

author-image

投稿者:

課題

テキスト分類から感情分析、ChatGPT まで、幅広く活用される自然言語プロセシング (NLP) アプリケーションは、高スループットかつ低レイテンシーなテクノロジーを必要とします。複雑なテキスト入力を理解し、正確な結果を提供する BERT や GPT のようなトランスフォーマー・モデルは、その能力で NLP 分野における基礎となっています。これらの大規模言語モデルが、より巨大化し複雑さが増すにつれて、実行コストも増大し、ビジネスやプロジェクトにトランスフォーマーを導入するのが困難になりつつあります。

現在の高度な NLP アプリケーションが必要とする厳しいスループットとレイテンシーの需要を満たすために、顧客は大規模な計算を迅速かつ高速に処理できる、高度に並列化された GPU (グラフィックス・プロセシング・ユニット) によるディープラーニング推論向けのトランスフォーマーを選択しています。しかし、GPU は専用のハードウェアを使用するためにコストが高く、ハードウェアの追加には、IT 部門のメンテナンス・コストも増加する可能性があります。そのため、コストを抑えながら優れたパフォーマンスを実現するシンプルなソリューションが求められています。

「これらの画期的な成果により、CPU はトランスフォーマーを実行するための最良の選択肢となりました。パフォーマンス重視の AI アプリケーションを使用する顧客は、Numenta および第 4 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリーラブル・プロセッサー・ファミリーの組み合わせを使用して、軽量でコスト効率の高い方法でリアルタイム・アプリケーションを導入することができます。」 - Numenta CEO、Subutai Ahmad 氏

Numenta のソリューション

Numenta は、20 年にわたる神経科学研究と AI テクノロジーの画期的な進歩に基づいて、強力な AI プラットフォームを生み出し、顧客はディープラーニング推論で 10 倍から 100 倍以上のパフォーマンス向上を実現しました。1 2 3

インテルとのコラボレーションで、Numenta は、トランスフォーマー・ネットワークを劇的に高速化するための独自の神経科学ベースのソリューションと、第 4 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリーで利用可能な新しいインテル® アドバンスト・マトリクス・エクステンション (インテル® AMX) を組み合わせました。

CPU による AI コンピューティングの新時代

ChatGPT は、トランスフォーマーの力を世界に示し、大規模なディープラーニング・モデルの需要は増加し続けています。急速に拡大するさまざまな可能性を見据えながら、Numenta の成果は、最適化されたモデルと CPU によるディープラーニングの新時代を示唆しています。ユーザーは、高いコスト効率とパフォーマンスを提供する Numenta の ソリューションとインテル製 CPU の組み合わせにより、高機能で非常に複雑な NLP アプリケーションによる高スループットかつ低レイテンシーな推論結果を得ることができます。3

第 4 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリーにおけるトランスフォーマー・ネットワークの劇的な高速化は、以下のようなメリットを提供します。

 

  • ディープラーニング推論のための GPU によるコストと複雑さを回避
  • トランスフォーマー・モデルのより柔軟でスケーラブルな導入を実現
  • トランスフォーマー・モデルを最終的にプロダクションに導入できる AI および NLP アプリケーションの新たな可能性を解き放ちます

パフォーマンスの向上: インテル® CPU の Numenta と NVIDIA GPU の比較

Numenta は、インテル® AMX を最大限に活用して、BERT-Large 推論向け NVIDIA A100 GPU と比較して、短いテキスト・シーケンスとバッチサイズ 1 で 35 倍のスループット向上を観察しました。2 バッチサイズ 1 は、入力データが絶えず変化するリアルタイム・シナリオにおいて、最大の柔軟性を提供するため、低レイテンシーのアプリケーションに最適です。

通常、GPU はより大きなバッチサイズほどパフォーマンスが向上しますが、NVIDIA A100 のバッチサイズが 8 であっても、Numenta は 9 倍のパフォーマンスを発揮します。2

図 1: NVIDIA A100 Tensor コア GPU で稼働している、標準の BERT-Large モデルと、2 ソケット 第 4 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリーで稼働している Numenta 最適化 BERT-Large モデルで観測された推論スループット。

アルゴリズムとハードウェアの進歩の相乗的な組み合わせにより、CPU 上の BERT-Large 推論は、比類のないパフォーマンス向上につながりました。この劇的なパフォーマンス・アクセラレーションにより、CPU は GPU の実行可能な代替手段であるだけでなく、トランスフォーマーをプロダクションで稼働させるための理想的な選択肢となりました。

CPU 推論スループットの大幅な向上

Numenta とインテルのテクノロジーを組み合わせることで、相乗効果が期待できます。Numenta は、2 つの異なるシナリオで各コンポーネントの効果をスループットとレイテンシー間のトレードオフを比較して分析しました。

スループットを最適化する場合、Numenta は 1 秒あたり 5,100 以上のクエリを提供し、これは現世代の AMD Milan CPU 実装と比較して 70 倍のスループット向上となります。3 どの程度が Numenta を使用した場合の改善にあたるでしょうか?このシナリオでは、Numenta を使用せずに第 3 世代インテル® Xeon® スケーラブル・プロセッサーから 第 4 世代インテル Xeon スケーラブル・プロセッサーに移行した場合は、6.5 倍の高速化を実現します。3

図 2: さまざまなプロセッサー・アーキテクチャーで稼働する標準 BERT-Large モデルと比較した、最新の第 4 世代インテル® Xeon® スケーラブル・プロセッサー上で動作する Numenta に最適化された BERT-Large モデルでスループットを最適化した場合に観測された推論スループットの改善。

リアルタイム・アプリケーションに厳しいレイテンシー要件がある場合、最小レイテンシー要件を尊重しながらピーク・スループットを達成する必要があります。実証のために Numenta は、リアルタイム・アプリケーションにとって重要な閾値とみなされる 10ms のレイテンシー制限を設定しました。

下図のように、10ms のレイテンシーを目標とした場合、第 4 世代インテル® Xeon® スケーラブル・プロセッサー上の Numenta は、現世代の AMD Milan CPU 実装と比較して 123 倍のスループット向上を達成しました。このシナリオでは、Numenta の貢献はさらに顕著で、第 3 世代インテル® Xeon® スケーラブル・プロセッサーから第 4 世代インテル® Xeon® スケーラブル・プロセッサーに、Numenta なしで移行することで、およそ 3 倍の高速化を実現し、第 4 世代インテル® Xeon® スケーラブル・プロセッサーのアクセラレーションを使用することで、さらに 19 倍の高速化を実現します。3

図 3: 最大レイテンシーを 10ms に制限して、第 4 世代インテル® Xeon® スケーラブル・プロセッサー上で稼働する Numenta の最適化 BERT-Large モデルと、他のプロセッサー・アーキテクチャーで稼働する標準的 BERT-Large モデルの推論スループットの比較。

「Numenta とインテルは、インテル® Xeon® CPU マックス・シリーズと第 4 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリーを通じて、Numenta AI ソリューションで大幅なパフォーマンス向上を実現するために協力しています。会話 AI や大規模ドキュメントのプロセシングなど、これまで帯域幅やレイテンシーの制限を受けた AI アプリケーション向けの大幅なスループット・パフォーマンス・アクセラレーションを一緒に実現することを期待しています。」——インテル、AI および HPC アプリケーションレベル・エンジニアリング 副社長兼ジェネラル・マネージャー、スコット・クラーク

Numenta がインテルを採用する理由

Numenta の AI テクノロジーは広範にわたるドキュメントを分析する NLP アプリケーションも劇的に高速化できます。1 例えば、トランスフォーマーをドキュメントの読解に適用する場合、ドキュメントのフルコンテキストを組み込むためには、長いシーケンス長が必要です。これらの長いシーケンスには高いデータ転送レートが必要で、オフチップ帯域幅が制限要因となりえます。Numenta は、インテル® Xeon® CPU マックス・シリーズを使用して BERT-Large モデルを大型テキスト・ドキュメントを処理するために最適化できることを実証し、512 の長シーケンス長により、これまでにない 20 倍のスループット高速化を実現します。1 こうしたイノベーションは、Numenta の顧客にとって絶対的な変革であり、コスト効率の高いスケーリングを初めて実現できるのです。

Numenta について

Numenta は、コンピューター業界のパイオニアである Jeff Hawkins 氏 と Donna Dubinsky 氏 によって 2005 年に設立され、神経科学から独自技術を引き出す研究を 20 年間続けています。神経科学研究からの基本的なインサイトを活用して、Numenta は、広範な AI ユースケース全体で破壊的なパフォーマンス向上を実現する最先端の AI プラットフォームを開発しました。

Numenta は、モデル開発から導入まで、AI の完全なスペクトルにプラットフォーム・テクノロジーを適用するために、いくつかの Global 100 企業と提携し、最終的に全く新しいカテゴリーのアプリケーションを実現します。