CPU よりも GPU へのモデルロード時間が長いのはなぜですか?
コンテンツタイプ: メンテナンス & パフォーマンス | 記事 ID: 000057525 | 最終改訂日: 2026/03/05
入力モデルの中間表現 (IR) の GPU への読み込みは、同じモデルを CPU に読み込むよりも時間がかかります。
アプリケーションの作業ディレクトリにcl_cacheディレクトリを手動で作成します。
ドライバーはこのディレクトリーを使用して、コンパイルされたカーネルのバイナリー表現を格納します。これは、サポートされているすべてのOSで動作します。
または、環境変数を設定します。
export INTEL_OPENCL_CACHE=1
レイテンシーを最適化するには、モデルキャッシュの概要に関するこちらの記事を参照してください。
GPU スタックは OpenCL* に基づいているため、中間表現 (IR) 形式の入力モデルを GPU にロードする方が、同じモデルを CPU にロードするよりも時間がかかります。ロード時間は、OpenCL* カーネルのコンパイル時間に依存します。
cl_cacheを有効にしても、OpenCL* カーネルがコンパイルされるため、モデルを初めてロードするときは時間がかかります。ただし、同じモデルの後続の各ロードははるかに高速になります。
OpenVINO™ 2026.0 のプログラムによるキャッシュ構成の場合:
core.set_property("GPU", {"CACHE_DIR": "./cl_cache"})