CPU と比較して GPU でのOpenVINO™・ベンチマークを使用した推論モデルの方が、レイテンシーとスループットの両方が高いのはなぜですか?
コンテンツタイプ: 製品情報 & ドキュメント | 記事 ID: 000093152 | 最終改訂日: 2023/02/09
レイテンシーは、推論を同期して行う場合に、単一の入力を処理するのに必要な推論時間を測定します。
デフォルトのパラメーター OpenVINO™ベンチマークを実行すると、非同期モードで推論されます。そのため、結果として生じたレイテンシーは、推論要求の数を処理するのに必要な合計推論時間を測定します。
また、デフォルトのパラメーターを持つ CPU 上でベンチマーク・アプリを実行すると、4 つの推論要求が作成されます。一方、デフォルトのパラメーターを使用して GPU 上でベンチマーク・アプリを実行すると 16 の推論要求が作成されます。したがって、結果として GPU での推論のレイテンシーは CPU よりも高くなります。
公正な比較のために CPU と GPU 上でベンチマーク・アプリを実行する際に、同じ数の推論要求を指定します。
benchmark_app.exe -m model.xml -d CPU -nireq 4
benchmark_app.exe -m model.xml -d CPU -nireq 4