マスター・データサイエンス・ワークフロー

これらの特別に設計されたワークステーションは、大容量のメモリースパン、複数のデバイスを接続する多数の拡張スロット、およびお客様のような Python ベースのデータ・サイエンティストやデータアナリストの独自のニーズを満たすよう設計されている厳選された CPU を組み合わせています。

よくある質問

データサイエンス・ワークステーションを選択する際に考慮すべき主な要素は 2 つあります。1 つは、どのツールとテクニックを最も使用するのか、そしてもう 1 つはデータセットのサイズです。

データサイエンスのフレームワークに関しては、コア数が高いことが必ずしも優れたパフォーマンスを意味することとは限りません。NumPy、SciPy、および scikit-learn は、18 コアを超えるとうまく拡張しません。一方、HEAVY.AI (旧 OmniSci) は、取得できるすべてのコアを利用します。

すべてのインテル® ベースのデータサイエンス・ワークステーションは、実環境でのテストでのデータサイエンス・ワークロードで優れたインテル® Core™、インテル® Xeon® W、およびインテル® Xeon® スケーラブル・プロセッサーを使用しています。これらすべてからは、プロセッサー・ファミリー最高のパフォーマンスが得られ、これによりメモリー容量が最も重要な選択になります。

データサイエンス・フレームワークは、メモリー・フットプリントを 2 ~ 3 倍に増加させます。ベースライン・メモリーのニーズを得るには、通常のデータセットを調べ、3 で乗算します。512GB 以下で作業できれば、デスクトップ・マシンで優れたパフォーマンスを得ることができます。データセットが 500GB を超える場合、1.5TB 以上のメモリーを備えたタワー型が最適です。

GPU アクセラレーターは、ディープラーニング・モデル・トレーニングと大規模なディープラーニング推論で際立ったパフォーマンスを発揮します。しかし、データサイエンス作業の大部分、つまりデータ準備、分析、および従来のマシンラーニング向けには、これらの GPU はアイドル状態を維持します。その理由は、データサイエンス向けのほとんどの Python ライブラリーは、CPU でネイティブに実行されるためです。ディスプレイを駆動するためのグラフィックス・アダプターが必要ですが、GPU アプライアンスは必要ありません。

クラウドは、専用 VM またはベアメタル・サーバーで実行しない限り、最高のパフォーマンスを発揮しません。クラウド・インスタンスは、それ自身を単一ノードとして提示しますが、バックエンドでは、高度に分散しています。ワークロードとデータセットは、複数の場所にある複数のサーバーに分かれています。これにより、処理とメモリー・レイテンシーが作成され、ランタイムを低下させます。さらに、リモート・デスクトップを介して大規模なデータセットとグラフで作業することは、理想的とはいえません。

ワークロードとデータを、単一のマシンでローカルに維持することで、はるかに優れたパフォーマンスと、より流動的で応答性の高い作業体験が実現します。

クラウドでデータサイエンス・ワークロードを実行することは可能ですが、ストレージ、メモリー、CPU 間でのデータシャッフルの観察に膨大な時間を費やすことになります。プロフェッショナルな環境で作業する場合、データサイエンス向けのインテル® ノートブック PC または、ミッドレンジのデスクトップ PC へアップグレードすることで、時間を節約できます。インテルは、学生、初心者、AI メーカーが、オープンソース AI ツールを開発し、実験するための手頃な価格のオプションを持つことができるように、データサイエンス向けインテル® Core™ ベースのノートブック PC を意図的にテストおよび仕様しました。

インテル® で最適化されたライブラリーやディストリビューションを使用して、標準的な PC で Python ベースのデータサイエンス・ツールをより高速に実行できます。これらすべてが、無料のインテル® AI キットの一部です。