フォトン・ベクトル化クエリー・エンジンを有効にすると、これらのインスタンスは、意思決定サポート・ワークロードに対して AMD EPYC™ プロセッサーを搭載し、より優れた価値を提供する r5a.2xlarge インスタンスを大幅に上回ります。
多くの組織は、構造化データと非構造化データの両方でデータを保存および分析するために、Databricks の Lakehouse プラットフォームに依存しています。意思決定サポートのクエリを迅速に実行するには、強力なハードウェアに裏打ちされたクラウド インスタンスを選択することが重要です。しかし、この基準を満たすインスタンスを決定することは、課題となる可能性があります。
インテルは、クラウド・インスタンスを購入して意思決定サポート・ワークロードを行っている企業を支援するテストを実施しました。具体的には、AWS インスタンス・シリーズ (第 2 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリーと AMD EPYC プロセッサーを搭載した R5a インスタンスで有効になっている R5d インスタンス) を検証しました。この 2 つのインスタンスタイプの Databricks Runtime 9.0 クラスターを作成し、意思決定サポート・ワークロードを実行しました。R5d クラスターでは、SQL クエリのパフォーマンスを向上させるために設計された、ベクトル化クエリ エンジンである Photon を有効にした VM を使用しました。このテストの時点では、Databricks' Photon Engine は R5a インスタンスではサポートされていません。
R5d インスタンス完了による意思決定サポートのワークロードの短縮
2 つの AWS インスタンスを、特定の一連のクエリの実行に必要な時間を反映した低いスコアを生成する意思決定サポートベンチマークでテストしました。時間の少ないインスタンスを選択することで、2 つの方法で役立ちます。まず、貴重な情報を早く、2 つ目は取得することで、インスタンスのアップタイムと関連コストを削減し、費用を削減します。図 1 に示すように、第 2 世代インテル Xeon・スケーラブル・プロセッサーと Photon を搭載した r5d.2xlarge インスタンスは、AMD EPYC プロセッサーを搭載した r5a.2xlarge インスタンスよりも 74% 短い時間で 1TB データセットでクエリーを完了しました。10TB のデータセットでは、r5d.2xlarge クラスターのクエリ完了時間は、r5a.2xlarge クラスターのクエリ完了時間より 76% 短縮されました。
いかに短いクエリ時間が収益に役立つのか
あなたの会社が投資しているリソースと同様に、あなたのドルのために良い価値を得ることは優先事項です。前のページで説明したテストシナリオを実行するのに要するコストを会社で計算しました。テスト時の各インスタンス、ストレージ、および Databricks VPU の 1 時間当たりの価格を、図 1 の時間と共に使用して、4 つのシナリオすべてについて TB 当たりの価格を決定しました。図 2 に示すように、Photon 対応 r5d.2xlarge インスタンスでデシジョン・サポート・ワークロードを実行すると、企業の費用はかなり減ります。1TB データセットでは、第 2 世代インテル® Xeon® スケーラブル・プロセッサーによって有効化された r5d.2xlarge クラスターは、AMD EPYC プロセッサーを搭載した r5a.2xlarge クラスターよりも 46% 低い価格 / パフォーマンスを提供できます。10TB データセットでは、Photon 対応 r5d.2xlarge クラスターにより、価格 / パフォーマンスのコストを 51% 削減できます。
結論
AMD EPYC プロセッサーを搭載した第 2 世代インテル Xeonスケーラブル・プロセッサー・インスタンスと r5a.2xlarge インスタンスを搭載したフォトン対応 AWS r5d.2xlarge インスタンスで、2 つの異なるデータセット・サイズの Databricks クエリを完了する時間を測定しました。r5d.2xlarge インスタンスは、クエリのセットを最大 76% 短縮しました。これらの時間を 2 つのインスタンスの時間単位の価格と組み合わせたところ、r5d.2xlarge インスタンスは同じ量の作業を実行するのに要するコストが大幅に削減され、最大 51% のコスト削減となります。企業が早く実用的な洞察を得て AWS インスタンスへの支出を削減したい場合は、第 2 世代インテル Xeonスケーラブル・プロセッサーを搭載したフォトン対応 r5d.2xlarge インスタンスを選択してください。
詳細情報
第 2 世代インテル Xeon スケーラブル・プロセッサーを搭載したフォトン対応 Amazon R5d インスタンスで Databricks クラスターの実行を開始するには、 https://aws.amazon.com/quickstart/architecture/databricks/ にアクセスしてください。
Databricks のフォトン ベクトルクエリ エンジンの詳細については、 https://databricks.com/product/photon および https://docs.databricks.com/runtime/photon.html を参照してください。
このレポートのすべての結果について、TPC-DS から派生した意思決定サポート・ワークロードを使用しました。すべてのテストは、2021年12月に us-east-1 AWS リージョンで実施されました。すべてのテストでは、Ubuntu 18.04.1、カーネルバージョン 5.4.0-1059-AWS、Databricks 9.0、Apache Spark 3.1.2、Scala 2.12 を搭載した 20 ノード・クラスターを使用しました。どちらのインスタンスタイプも、8 つの vCPU と 64GB の RAM を持っていました。r5d.2xlarge には 300GB NVMe SSD、10Gbps ネットワーク BW、4,750Mbps のストレージ BW がありました。r5a.2xlarge インスタンスには、250GB EBS ボリューム、10Gbps ネットワーク BW、2,880 Mbps ストレージ BW がありました。