マスター・データサイエンス・ワークフロー
これらの特別に設計されたワークステーションは、大容量のメモリースパン、複数のデバイスを接続する多数の拡張スロット、およびお客様のような Python ベースのデータ・サイエンティストやデータアナリストの独自のニーズを満たすよう設計されている厳選された CPU を組み合わせています。
データサイエンス・ワークステーション: スーパーパワーを搭載
データ・サイエンティストは、CPU 負荷の高い Python のライブラリーとアルゴリズムにおける中規模および大規模データセットの処理にほとんどの時間を費やします。これにより、大部分のワークステーションが劣化します。
これは、おそらくお使いのワークステーションが、モデル・トレーニング向けには過剰に構築されており、メモリー負荷の高いデータ変換向けには十分でないからです。
データを読み込み、調査しようとする際はメモリーエラーを回避します。Pandas 機能がマシンまたはクラウド・インスタンスが提供するよりも多くのメモリーを必要とする場合、これは一般的な体験です。
前世代よりも高速な NumPy/SciPy コンピューティング
線形代数は、数値とデータサイエンスの基盤です。NumPy と SciPy が提供する数値計算ツールにより、データ・サイエンティストは、数値分析と関数、およびさまざまなマシンラーニング・モデルと数式に取り組むことができます。iBench は、dot、det、inv、lu、qr、svd など NumPy および SciPy で使用される一般的なアルゴリズムの線形代数における stress コマンドをテストするベンチマークです。パフォーマンスは、秒で測定されます (低いほど高性能)。第 4 世代インテル® Xeon® W3495X プロセッサーは、最新の iBench テストにおいて、第 3 世代インテル® Xeon® W3275 プロセッサーと比較して 25% ~ 75% 高速なパフォーマンスを発揮しました。1
データサイエンスを促進
インテル® ベースのデータサイエンス・ワークステーションを設計し、データ集約型の AI およびマシンラーニングのワークフローを高速でスムーズに、かつ応答性を高くしました。これらのワークステーションは、デュアルソケット・システムで最大 8TB のメモリーと、ワークロードに対応した CPU により、中規模から大規模なデータセットをメモリーで実行し、AI 開発における最も時間のかかるタスクの時間を短縮できます。
推奨されるインテル® ベースのデータサイエンス・ワークステーション
インテル® ベースのデータサイエンス・ワークステーションには、さまざまな CPU、メモリー容量、および PCIe 拡張スロットを備えたモバイル、メインストリーム、およびエキスパートの 3 種類のプラットフォームがあります。
32GB ~ 64GB のデータセット向けデータサイエンス・モバイル・プラットフォーム
圧倒的なパフォーマンスで、モバイル AI 開発とデータの可視化を実現。
- 最大 24 コア (8P+16E) 搭載のインテル® Core™ HX シリーズ。
- すべてのプラットフォームに 128GB DDR5 DRAM 搭載。
- 推奨される SKU:
- i9-13950HX (24 コア)
- i7-13850HX (20 コア)
64GB ~ 512GB のデータセット向けデータサイエンス・メインストリーム・プラットフォーム
1 ドル当たりの優れたパフォーマンスで、中規模データセットでの前処理と分析を実現します。
- 最大 24 コア搭載のオーバークロック対応インテル® Xeon® W-2400 プロセッサー。
- 最大 2TB の DDR5 RIDMM。
- 推奨される SKU:
- W7-2495X (24 コア)
- W5-2465X (16 コア)
デュアルソケット・プラットフォーム向けに最大 8TB の DDR5 搭載データサイエンス・エキスパート・プラットフォーム
最大限のパフォーマンスで、大規模なデータセット、マシンラーニング、データ分析を操作します。
- 最大 56 コア搭載インテル® Xeon® W-3400 プロセッサー。
- W-3400 シリーズ向けには最大 4TB の DDR5 RIDMM、デュアルソケット第 4 世代インテル® Xeon® SP プラットフォーム向けには最大 8TB の DDR5 を搭載しています。
- シングルソケット・プラットフォーム向けに推奨される SKU:
- W9-3475X(36 コア)
- W7-3455 (24 コア)
- W5-3425X (16 コア)
- デュアルソケット・プラットフォーム向けに推奨される SKU:
- 6448Y (32 コア)
- 6442Y (24 コア)
- 6444Y (16 コア)
インテル® oneAPI AI アナリティクス・ツールキットで高速に実行
インテル® アーキテクチャー向けに Python エコシステムで最も人気のあるツールを最適化し、それらをインテル® oneAPI AI アナリティクス・ツールキットに同梱して、データサイエンス環境の構築を容易にし、これらのツールのパフォーマンスを向上させました。これらのドロップイン最適化は、すぐに実行できるため、コーディングの変更をほとんど、または全くする必要なく、より高速に作業できます。
よくある質問
データサイエンス・ワークステーションを選択する際に考慮すべき主な要素は 2 つあります。1 つは、どのツールとテクニックを最も使用するのか、そしてもう 1 つはデータセットのサイズです。
データサイエンスのフレームワークに関しては、コア数が高いことが必ずしも優れたパフォーマンスを意味することとは限りません。NumPy、SciPy、および scikit-learn は、18 コアを超えるとうまく拡張しません。一方、HEAVY.AI (旧 OmniSci) は、取得できるすべてのコアを利用します。
すべてのインテル® ベースのデータサイエンス・ワークステーションは、実環境でのテストでのデータサイエンス・ワークロードで優れたインテル® Core™、インテル® Xeon® W、およびインテル® Xeon® スケーラブル・プロセッサーを使用しています。これらすべてからは、プロセッサー・ファミリー最高のパフォーマンスが得られ、これによりメモリー容量が最も重要な選択になります。
データサイエンス・フレームワークは、メモリー・フットプリントを 2 ~ 3 倍に増加させます。ベースライン・メモリーのニーズを得るには、通常のデータセットを調べ、3 で乗算します。512GB 以下で作業できれば、デスクトップ・マシンで優れたパフォーマンスを得ることができます。データセットが 500GB を超える場合、1.5TB 以上のメモリーを備えたタワー型が最適です。
GPU アクセラレーターは、ディープラーニング・モデル・トレーニングと大規模なディープラーニング推論で際立ったパフォーマンスを発揮します。しかし、データサイエンス作業の大部分、つまりデータ準備、分析、および従来のマシンラーニング向けには、これらの GPU はアイドル状態を維持します。その理由は、データサイエンス向けのほとんどの Python ライブラリーは、CPU でネイティブに実行されるためです。ディスプレイを駆動するためのグラフィックス・アダプターが必要ですが、GPU アプライアンスは必要ありません。
クラウドは、専用 VM またはベアメタル・サーバーで実行しない限り、最高のパフォーマンスを発揮しません。クラウド・インスタンスは、それ自身を単一ノードとして提示しますが、バックエンドでは、高度に分散しています。ワークロードとデータセットは、複数の場所にある複数のサーバーに分かれています。これにより、処理とメモリー・レイテンシーが作成され、ランタイムを低下させます。さらに、リモート・デスクトップを介して大規模なデータセットとグラフで作業することは、理想的とはいえません。
ワークロードとデータを、単一のマシンでローカルに維持することで、はるかに優れたパフォーマンスと、より流動的で応答性の高い作業体験が実現します。
クラウドでデータサイエンス・ワークロードを実行することは可能ですが、ストレージ、メモリー、CPU 間でのデータシャッフルの観察に膨大な時間を費やすことになります。プロフェッショナルな環境で作業する場合、データサイエンス向けのインテル® ノートブック PC または、ミッドレンジのデスクトップ PC へアップグレードすることで、時間を節約できます。インテルは、学生、初心者、AI メーカーが、オープンソース AI ツールを開発し、実験するための手頃な価格のオプションを持つことができるように、データサイエンス向けインテル® Core™ ベースのノートブック PC を意図的にテストおよび仕様しました。
インテル® で最適化されたライブラリーやディストリビューションを使用して、標準的な PC で Python ベースのデータサイエンス・ツールをより高速に実行できます。これらすべてが、無料のインテル® AI キットの一部です。
通知および免責事項
インテル® 検証プラットフォームを使用して、インテル® Xeon® w9-3495X プロセッサーとインテル® Xeon® W-3275 プロセッサーを NumPy/SciPy – Inv、N=25000 で比較測定して推定。
構成の詳細については、www.Intel.com/PerformanceIndex (英語) を参照してください。実際のパフォーマンスはこのテスト結果と異なる場合があります。
パフォーマンス実績は構成情報に記載された日に実施したテストに基づくものであり、公開中のアップデートがすべて適用されているとは限りません。構成の詳細については、補足資料を参照してください。詳細については、Intel.com/PerformanceIndex (英語) を参照してください。
Pandas、scikit-learn、および TensorFlow アクセラレーションは、インテル® ディストリビューションの Modin を使用して実現しました。詳細については、intel.com/content/www/jp/ja/developer/articles/technical/code-changes-boost-pandas-scikit-learn-tensorflow.html#gs.mdyh9o を参照してください。
© Intel Corporation.Intel、インテル、Intel ロゴ、その他のインテルの名称やロゴは、Intel Corporation またはその子会社の商標です。その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。