記事 ID: 000088030 コンテンツタイプ: トラブルシューティング 最終改訂日: 2023/05/15

モデルに異なるウェイトを適用すると推論のパフォーマンスに影響を与えるのはなぜですか?

BUILT IN - ARTICLE INTRO SECOND COMPONENT
概要

さまざまなデータおよびウェイト・フォーマットを使用するトレードオフ

詳細
  1. 2 つの IR ファイル (同一 の .xml ファイルが異なる .bin ファイル) を生成します。
  2. ウェイトが異なる同様のモデルは、異なる fps (27fps と 6fps) で実行されます。
  3. より多様なウェイトは Myriad X の推論パフォーマンスに影響しますか?
解決方法

モデルの重みと精度 (FP32、FP16、INT8) は推論パフォーマンスに影響を与えます。

FP32 形式を使用すると重みの完全な分布が発生し、単精度浮動小数点として知られています。

一方、FP16 と INT8 フォーマットは、両方とも圧縮重量フォーマットで、サイズを小さくするために絞り込みます。これらの圧縮のトレードオフは、モデルの精度、または量子化エラーとも呼ばれます。

データを表すために割り当てられたビットが多いほど、表現可能で潜在的に広い範囲で、モデルの精度が向上します。しかし、データが大きいほど、ストレージに必要なメモリースペースが広くなり、転送に必要なメモリー帯域幅が広くなり、コンピューティング・リソースと時間が使い切られます。

インテル® ディストリビューションの OpenVINO™ ツールキット ベンチマーク結果 は、異なる重みフォーマットまたは精度間のパフォーマンスの明白な違いを示しています。

このページのコンテンツは、元の英語のコンテンツを人力翻訳および機械翻訳したものが混在しています。この内容は参考情報および一般的な情報を提供するためものであり、情報の正確さと完全性を保証するものではありません。インテルは不正確な翻訳があった場合でもいかなる責任を負いません。このページの英語版と翻訳の間に矛盾がある場合は、英語版に準拠します。 このページの英語版をご覧ください。