OpenVINO™ツールキットのインテル® Distribution

概要

本パッケージには、Linux*、Windows*、macOS* 向け OpenVINO™ ツールキット・ソフトウェア・バージョン 2023.3 LTS のインテル® Distributionが含まれます。

ご利用可能なダウンロード

Debian Linux*
サイズ : 24.7 MB
SHA256 : A4A3591409D172426AACA10AA3E1C475CB4B9E645974D1C861D34A2C8AAA6B65

CentOS 7 (1908)*
サイズ : 48.4 MB
SHA256 : BCC452F4B0D278A0DCCA31CDECB6242C92720DA322B8F298BC3E4B38001E9259

Red Hat Enterprise Linux 8*
サイズ : 41.7 MB
SHA256 : DD1957FC1ED132A585BCF1312D3FBB2ACDD9C9CC3807C3CA82B21ECC4AD52CDD

Ubuntu 22.04 LTS*
サイズ : 45.6 MB
SHA256 : CB83304D6046F497F2E83F51671B343B458ABE853B316FD7DDB625A5A895347D

Ubuntu 20.04 LTS*
サイズ : 44.6 MB
SHA256 : 6307E2C08DEAB7B869493594437355097CBF00D787EC6B56B02B9387D6D85C03

Ubuntu 18.04 LTS*
サイズ : 41.7 MB
SHA256 : 9F949F10681285DE4E1DE63ECEC47454953824B35F54445CB9D3ADC01C36DC31

Ubuntu 18.04 LTS*
サイズ : 36.1 MB
SHA256 : 8FCD52411C38AC64452F88309CABA7F04D88795935B0CF7EDB6F8F59F7800CC1

macOS*
サイズ : 30.3 MB
SHA256 : 7BDC40C927037B83313CC7AF58AF44AAE1565E19723FA3E67928D34E66CD5C5B

macOS*
サイズ : 124.8 MB
SHA256 : EE286D13D2CDD0112BE550BB95BC15969BD9D2A2FECA76DEB7CFD5B9CED260D3

Windows 11*, Windows 10, 64-bit*
サイズ : 95.9 MB
SHA256 : 764BA560FC79DE67A7E3F183A15ECEB97EEDA9A60032E3DD6866F7996745ED9D

詳細

OpenVINO™ ランタイム

共通

CPP および Python バインド用の従来の API は削除されました。
StringTensor のサポートは、トークナイザーオペレーターのサポートと TensorFlow ハブへの準拠を改善するための基盤として、Gather、Reshape、Concat などのオペレーターによって拡張されました。
oneDNN が、CPU デバイス向けに v3.3、GPU デバイスターゲット向けに v3.4 に更新されました。(oneDNN リリースノート: https://github.com/oneapi-src/oneDNN/releases)。

CPU デバイスプラグイン

AVX2 および AVX512 に基づくシステムでは、動的量子化と内部メモリー状態の最適化 (KV キャッシュの INT8 精度など) を使用することで、インテル® CPU プラットフォームの LLM パフォーマンスが向上しています。第13世代および第14世代のインテル® Core™プロセッサおよびインテル® Core™ Ultraプロセッサは、CPUの実行にAVX2を使用し、これらのプラットフォームは高速化の恩恵を受けます。
これらの機能を有効にするには、構成ファイルで "DYNAMIC_QUANTIZATION_GROUP_SIZE":"32" および "KV_CACHE_PRECISION":"u8" を設定します。
「ov::affinity」 API 構成は非推奨になり、リリース 2025.0 で削除される予定です。
次の点が改善され、最適化されました。
- 第 4 世代および第 5 世代インテル® Xeon® スケーラブル・プロセッサー上の BF16 向けマルチクエリー構造 LLM (ChatGLM 2/3 など)。
- 混合モデルのパフォーマンス。
- 8ビット圧縮されたLLMコンパイル時間とメモリ使用量、Qwenのような大規模な組み込みを持つモデルにとって貴重です。
- ARM プラットフォーム上での FP16 精度の畳み込みネットワーク。

GPU デバイスプラグイン

次の点が改善され、最適化されました。
- インテル® Core™ Ultra プロセッサー上でコンテキスト・サイズが大きい INT4 圧縮モデルを使用した、統合 GPU (iGPU) プラットフォーム上の LLM の平均トークン待機時間。
- iGPU での LLM ビーム検索性能。コンテキストサイズが大きいほど、平均レイテンシーと初回トークン・レイテンシーの両方の減少が予想される場合があります。
- iGPU プラットフォーム上での YOLOv5 のマルチバッチ・パフォーマンス。
LLM のメモリー使用量が最適化され、16 Gb プラットフォームでより大きなコンテキストを持つ 7B モデルが可能になりました。

NPU デバイスプラグイン (プレビュー機能)

OpenVINO™ 用の NPU プラグインが PyPI から利用可能になりました ("pip install openvino" を実行)。

OpenVINO Python API

.add_extensionメソッドシグネチャが調整され、ユーザーエクスペリエンスを向上させるためにAPIの動作が改善されました。

OpenVINO C API

ov_property_key_cache_mode (C++ ov::cache_mode) では、optimize_size モードとoptimize_speedモードでモデルキャッシュを設定 / 取得できるようになりました。
Windows* の例外で VA サーフェスが表示される問題を修正しました。

OpenVINO Node.js API

OpenVINO - JS バインディングは OpenVINO C++ API と一致しています。
新しい配布チャネルが利用可能になりました: Node Package Manager (npm) ソフトウェア・レジストリー (インストール・ガイドを確認してください)
Linux* 以外のプラットフォームでの制限が一部削除されたため、Windows* ユーザーは JavaScript API を使用できるようになりました。

TensorFlow フレームワークのサポート

文字列テンソルがネイティブにサポートされ、入力、出力、中間レイヤーで処理されるようになりました #22024
- TensorFlow Hub 汎用文エンコーダー多言語推論
- ストリング・テンソルは、ギャザー、連結、リシェイプの操作でサポートされています。
- openvino-tokenizers モジュールとの統合 - openvino-tokenizer をインポートすると、トークン化を伴うモデルに必要なトランスレーターを TensorFlow フロントエンドに自動的にパッチ適用します。
レガシー・フロントエンドへの操作によるモデル・オプティマイザーのフォールバックは使用できなくなりました。.json構成によるフォールバックは、モデルオプティマイザーが廃止されるまで続きます #21523
次のサポートが追加されました。
- ハッシュテーブル*、変数、変数V2などの変更可能な変数とリソース #22270
- 新しいテンソルタイプ: tf.u16, tf.u32, tf.u64 #21864
- 14 個の新しい Ops*。こちらのリストを確認してください (新規としてマークされています)。
- テンソルフロー 2.15 #22180
以下の問題が修正されました。
- 入力タイプがint16の場合、UpSampling2D変換がクラッシュしました#20838
- Squeeze #22326 のインデックスエラーリストインデックス
- 符号付き整数の正しい FloorDiv 計算 #22684
- tf の不正なキャストエラーを修正しました。TensorShape to ov.パーシャルシェイプ #22813
- メモリ内のモデルのtf.string属性の読み取りを修正しました#22752

ONNX フレームワークのサポート

ONNX* フロントエンドは OpenVINO API 2.0 を使用するようになりました。

PyTorch フレームワークのサポート

dict またはタプルからアンパックされた出力の名前がより明確になりました。 #22821
FX グラフ (torch.compile) が kwarg 入力をサポートするようになり、データ型のカバレッジが改善されました。 #22397

OpenVINOモデルサーバー

OpenVINO™ ランタイムバックエンドが使用されるようになりました 2024.0 です。
テキスト生成デモでは、ストリーミングクライアントと単項クライアントでマルチバッチサイズがサポートされるようになりました。
REST クライアントで、Python パイプライン・ノードを含むメディアパイプ・グラフに基づくサービス可能オブジェクトがサポートされるようになりました。
含まれている依存関係は、セキュリティ関連の更新プログラムを受け取りました。
受信リクエスト (自動シェイプおよび自動バッチサイズ) に基づくランタイムでのモデルのリシェイプは推奨されておらず、今後削除される予定です。代わりに、OpenVINOの動的形状モデルを使用することをお勧めします。

ニューラル・ネットワーク圧縮フレームワーク (NNCF)

データ対応 4 ビット重み圧縮のためのアクティベーション対応重み量子化 (AWQ) アルゴリズムが利用可能になりました。これにより、比率 4 ビットの重みが高い圧縮 LLM の精度が向上します。これを有効にするには、nncf.compress_weights() API の専用の 'awq' オプション・パラメーターを使用します。
ONNX モデルは、nncf.quantize_with_accuracy_control() メソッドによる精度制御を使用したポストトレーニング量子化でサポートされるようになりました。これは、OpenVINO IR および ONNX フォーマットのモデルに使用できます。
重量圧縮例のチュートリアルが利用可能になり、ハギングフェイストランスフォーマーやその他のLLMからTinyLLamaモデルの適切なハイパーパラメーターを見つける方法を、いくつかの変更を加えて示します。

OpenVINO トークナイザー

正規表現のサポートが改善されました。
モデルのカバレッジが改善されました。
トークナイザーのメタデータがrt_infoに追加されました。
Tensorflow テキストモデルの限定的なサポートが追加されました: 文字列入力で TF Hub の MUSE を変換します。
OpenVINO トークナイザーには独自のリポジトリがあります。 https://github.com/openvinotoolkit/openvino_tokenizers

その他の変更点と既知の問題

Jupyter ノートブック

次のノートブックが更新または新しく追加されました。

MobileVLM 搭載モバイル言語アシスタント
DepthAnything による深度推定
コスモス-2
SigLIPによるゼロショット画像分類
PhotMaker によるパーソナライズされた画像生成
OpenVoice による音声トーンのクローン作成
Surya による行レベルのテキスト検出
InstantID: OpenVINO を使用したゼロショットの ID 保持生成
NNCF を使用したビッグ画像転送 (BIT) モデルの量子化に関するチュートリアル
推論パイプラインへの OpenVINO トークナイザーの統合に関するチュートリアル
LLMチャットボットと LLMRAGパイプラインは、新しいモデルとの統合を受けています:minicpm-2b-dpo、gemma-7b-it、qwen1.5-7b-chat、baichuan2-7b-chat

確認されている問題点

コンポーネント: PyTorch FE.

品番: 該当なし

説明: リリース 2024.0 以降、PyTorch フレームワークの動作に合わせて明示的に設定されていない限り、モデルの入力と出力にテンソル名が付けられなくなりました。

コンポーネント: GPU ランタイム。

品番: 132376

説明: インテル® Core™ Ultra プロセッサー上の LLM の最初の推論レイテンシーが遅くなります。長いシーケンスを処理するための根本的なメモリ最適化により、最大10〜20%の低下が発生する可能性があります(約1.5〜2 GBのメモリ使用量の削減)。

コンポーネント: CPU ランタイム。

品番: 該当なし

説明: パフォーマンス結果 (最初のトークン待機時間) は、2 つ以上のソケットを備えたインテル® Xeon®プラットフォームでの長いプロンプトを含む LLM の "待機時間" ヒント推論について、OpenVINO以前のバージョンで提供されていたものと異なる場合があります。その理由は、アプリケーションを実行しているシングルソケットのすべてのCPUコアが使用され、numa 制御が使用されていない場合のLLMのメモリオーバーヘッドが削減されるためです。

回避策: 動作は予想されますが、ストリームとスレッドの構成を使用して、すべてのソケットのコアを含めることができます。

廃止とサポート

非推奨の機能およびコンポーネントの使用はお勧めしません。これらは、新しいソリューションへのスムーズな移行を可能にするために利用可能であり、将来廃止される予定です。廃止された機能を引き続き使用するには、それらをサポートする最後のLTS OpenVINOバージョンに戻す必要があります。

詳細については、レガシー機能とコンポーネントOpenVINOページを参照してください。

2024.0 で生産終了:

ランタイム・コンポーネント:
- インテル® Gaussian & Neural Accelerator(インテル® GNA)。ニューラル・プロセシング・ユニット (NPU) は、インテル® Core™ Ultra 世代や第 14 世代以降などの低消費電力システムでの使用を検討してください。
- OpenVINO C++/C/Python 1.0 API ( 参考については 2023.3 API 移行ガイドを参照)。
- すべての ONNX フロントエンドのレガシー API (ONNX_IMPORTER_API と呼ばれます)
- 'PerfomanceMode.UNDEFINED' プロパティを OpenVINO Python API の一部として使用します。
ツール：
- 導入マネージャー。現在の配布オプションについては、インストールおよび導入ガイドを参照してください。
- 精度チェッカー
- ポストトレーニング最適化ツール (POT)代わりに、ニューラル・ネットワーク圧縮フレームワーク (NNCF) を使用する必要があります。
- ハギングフェイス/トランスフォーマーとのNNCF統合のためのgitパッチ。推奨されるアプローチは、 Hugging Face のモデルの上に NNCF 最適化を適用するために Huggingface / optimum-intel を使用することです。
- Apache MXNet、Caffe、および Kaldi モデル・フォーマットのサポート。ONNX への変換は、ソリューションとして使用できます。

非推奨であり、今後削除される予定:

OpenVINO™ 開発ツール・パッケージ (pip インストール openvino-dev) は、2025.0 OpenVINO以降、インストール・オプションと配布チャネルから削除されます。
モデル・オプティマイザーは 2025.0 OpenVINOで廃止されます。代わりにOpenVINO モデルコンバーター (API 呼び出し: OVC) の使用を検討してください。詳細については、モデル変換移行ガイドに従ってください。
OpenVINOプロパティの Affinity API は、OpenVINO 2025.0 で廃止されます。これは、CPU バインディング構成 (ov::hint::enable_cpu_pinning) に置き換えられます。
OpenVINO・モデル・サーバーのコンポーネント:
- 受信リクエスト (自動シェイプおよび自動バッチサイズ) に基づくランタイムでのモデルのリシェイプは推奨されておらず、今後削除される予定です。代わりに、OpenVINOの動的形状モデルを使用することをお勧めします。

システム要件

免責事項。 特定のハードウェア (GPU および NPU を含むがこれに限定されない) が正しく動作したり、ハードウェア機能を最適に利用したりするためには、特定のドライバーやその他のソフトウェア・コンポーネントを手動でインストールする必要があります。これには、Linux カーネルを含むがこれに限定されないオペレーティング・システムの更新が必要になる場合があります。詳細については、Linux カーネルのドキュメントを参照してください。これらの変更はユーザーが処理する必要があり、OpenVINOインストールの一部ではありません。これらの変更はユーザーが処理する必要があり、インストールOpenVINOは含まれません。システム要件については、リリースノートの「システム要件」セクションを参照してください。

取り付け手順

OpenVINO™ ランタイムのインストール方法は、オペレーティング・システムに応じて選択できます。

ダウンロード・パッケージの内容

C/C++ 向け OpenVINO™ ランタイム / 推論エンジン

役立つリンク

注: リンクは新しいウィンドウで開きます。

このダウンロードは以下の製品での動作が確認されています。

OpenVINO™ toolkit

免責事項¹

免責事項

インテルは、現在ドキュメント、ユーザー・インターフェイス、コードからの非包括的な言葉の削除に取り組んでいます。なお、常に遡及的な変更が可能とは限らず、古いドキュメント、ユーザー・インターフェイス、コードに非包括的な言葉が残っている可能性があります。

このページのコンテンツは、元の英語のコンテンツを人力翻訳および機械翻訳したものが混在しています。この内容は参考情報および一般的な情報を提供するためものであり、情報の正確さと完全性を保証するものではありません。インテルは不正確な翻訳があった場合でもいかなる責任を負いません。このページの英語版と翻訳の間に矛盾がある場合は、英語版に準拠します。このページの英語版をご覧ください。

言語の選択

Intel.com サーチを使用

クイックリンク

最近の検索

高度検索

検索のみ

OpenVINO™ツールキットのインテル® Distribution

概要

ご利用可能なダウンロード

詳細

最新情報

OpenVINO™ ランタイム

共通

CPU デバイスプラグイン

GPU デバイスプラグイン

NPU デバイスプラグイン (プレビュー機能)

OpenVINO Python API

OpenVINO C API

OpenVINO Node.js API

TensorFlow フレームワークのサポート

ONNX フレームワークのサポート

PyTorch フレームワークのサポート

OpenVINOモデルサーバー

ニューラル・ネットワーク圧縮フレームワーク (NNCF)

OpenVINO トークナイザー

その他の変更点と既知の問題

Jupyter ノートブック

確認されている問題点

廃止とサポート

このダウンロードは以下の製品での動作が確認されています。

免責事項¹

免責事項

Intel.com サーチを使用

クイックリンク

最近の検索

高度検索

検索のみ

OpenVINO™ツールキットのインテル® Distribution

概要

ご利用可能なダウンロード

詳細

最新情報

OpenVINO™ ランタイム

共通

CPU デバイスプラグイン

GPU デバイスプラグイン

NPU デバイス プラグイン (プレビュー機能)

OpenVINO Python API

OpenVINO C API

OpenVINO Node.js API

TensorFlow フレームワークのサポート

ONNX フレームワークのサポート

PyTorch フレームワークのサポート

OpenVINOモデルサーバー

ニューラル・ネットワーク圧縮フレームワーク (NNCF)

OpenVINO トークナイザー

その他の変更点と既知の問題

Jupyter ノートブック

確認されている問題点

廃止とサポート

このダウンロードは以下の製品での動作が確認されています。

免責事項1

免責事項

NPU デバイスプラグイン (プレビュー機能)

免責事項¹