OpenVINO™ツールキットのインテル® Distribution

753640
3/6/2024

概要

本パッケージには、Linux*、Windows*、macOS* 向け OpenVINO™ ツールキット・ソフトウェア・バージョン 2023.3 LTS のインテル® Distributionが含まれます。

ご利用可能なダウンロード

  • Debian Linux*
  • サイズ : 24.7 MB
  • SHA256 : A4A3591409D172426AACA10AA3E1C475CB4B9E645974D1C861D34A2C8AAA6B65
  • CentOS 7 (1908)*
  • サイズ : 48.4 MB
  • SHA256 : BCC452F4B0D278A0DCCA31CDECB6242C92720DA322B8F298BC3E4B38001E9259
  • Red Hat Enterprise Linux 8*
  • サイズ : 41.7 MB
  • SHA256 : DD1957FC1ED132A585BCF1312D3FBB2ACDD9C9CC3807C3CA82B21ECC4AD52CDD
  • Ubuntu 22.04 LTS*
  • サイズ : 45.6 MB
  • SHA256 : CB83304D6046F497F2E83F51671B343B458ABE853B316FD7DDB625A5A895347D
  • Ubuntu 20.04 LTS*
  • サイズ : 44.6 MB
  • SHA256 : 6307E2C08DEAB7B869493594437355097CBF00D787EC6B56B02B9387D6D85C03
  • Ubuntu 18.04 LTS*
  • サイズ : 41.7 MB
  • SHA256 : 9F949F10681285DE4E1DE63ECEC47454953824B35F54445CB9D3ADC01C36DC31
  • Ubuntu 18.04 LTS*
  • サイズ : 36.1 MB
  • SHA256 : 8FCD52411C38AC64452F88309CABA7F04D88795935B0CF7EDB6F8F59F7800CC1
  • macOS*
  • サイズ : 30.3 MB
  • SHA256 : 7BDC40C927037B83313CC7AF58AF44AAE1565E19723FA3E67928D34E66CD5C5B
  • macOS*
  • サイズ : 124.8 MB
  • SHA256 : EE286D13D2CDD0112BE550BB95BC15969BD9D2A2FECA76DEB7CFD5B9CED260D3
  • Windows 11*, Windows 10, 64-bit*
  • サイズ : 95.9 MB
  • SHA256 : 764BA560FC79DE67A7E3F183A15ECEB97EEDA9A60032E3DD6866F7996745ED9D

詳細

最新情報

コード変更を最小限に抑えるための、より生成的な AI カバレッジとフレームワークの統合。

  • OpenVINO™ツールキットのトークナイザーのインストールにより、TensorFlow* センテンス・エンコーディング・モデルがすぐに使用できる操作性が向上しました。
  • OpenVINO™ツールキットは、パイプラインを通じてより効率的な生成モデルの処理を支援する新しいアーキテクチャーであるエキスパート混合 (MoE) をサポートするようになりました。
  • JavaScript 開発者は、OpenVINO API にシームレスにアクセスできるようになりました。この新しいバインディングにより、JavaScript API とのスムーズな統合が可能になります。
  • 検証済みの新しい注目すべきモデル: Mistral、StableLM-tuned-alpha-3b、StableLM-Epoch-3B。

より広範な大規模言語モデル (LLM) のサポートと、より多くのモデル圧縮手法。

  • 一般的な手法であるアクティベーションを意識した重み量子化をニューラル・ネットワーク圧縮フレームワーク (NNCF) に追加することで、LLM の INT4 重み圧縮の品質が向上しました。この追加により、メモリ要件が削減され、トークン生成の高速化に役立ちます。
  • インテル® CPU での LLM パフォーマンスの向上、内部メモリー状態の強化、KV キャッシュ向けの INT8 精度を体験してください。ChatGLM などのマルチクエリ LLM 向けに特別にカスタマイズされています。
  • OpenVINO™ 2024.0 リリースでは、よりOpenVINO™機能を Hugging Face* エコシステムと統合することで、開発者にとってより簡単になります。人気モデルの量子化設定を Hugging Face に直接保存して、精度とパフォーマンスを維持しながらモデルを INT4 フォーマットに圧縮します。

エッジ、クラウド、またはローカルで AI を実行するためのポータビリティーとパフォーマンスの向上。

  • プロセッサの一部としての統合ニューラルプロセッサユニット(NPU)のプレビュープラグインアーキテクチャインテル® Core™ Ultra PyPIのメインOpenVINO™パッケージに含まれるようになりました。
  • ARM スレッド・ライブラリーを有効にすることにより、ARM* のパフォーマンスが向上しました。さらに、マルチコア ARM プラットフォームをサポートし、MacOS* ではデフォルトで FP16 精度を有効にしています。
  • 新しく改良された LLM は、マルチバッチ入力および検索拡張生成 (RAG) 向けに OpenVINO™ モデル・サーバーからサンプルを提供します。

OpenVINO™ ランタイム

共通

  • CPP および Python バインド用の従来の API は削除されました。
  • StringTensor のサポートは、トークナイザー オペレーターのサポートと TensorFlow ハブへの準拠を改善するための基盤として、Gather、Reshape、Concat などのオペレーターによって拡張されました。
  • oneDNN が、CPU デバイス向けに v3.3、GPU デバイスターゲット向けに v3.4 に更新されました。(oneDNN リリースノート: https://github.com/oneapi-src/oneDNN/releases)。

CPU デバイスプラグイン

  • AVX2 および AVX512 に基づくシステムでは、動的量子化と内部メモリー状態の最適化 (KV キャッシュの INT8 精度など) を使用することで、インテル® CPU プラットフォームの LLM パフォーマンスが向上しています。第13世代および第14世代のインテル® Core™プロセッサおよびインテル® Core™ Ultraプロセッサは、CPUの実行にAVX2を使用し、これらのプラットフォームは高速化の恩恵を受けます。
  • これらの機能を有効にするには、構成ファイルで "DYNAMIC_QUANTIZATION_GROUP_SIZE":"32" および "KV_CACHE_PRECISION":"u8" を設定します。
  • ov::affinity」 API 構成は非推奨になり、リリース 2025.0 で削除される予定です。
  • 次の点が改善され、最適化されました。
    • 第 4 世代および第 5 世代 インテル® Xeon® スケーラブル・プロセッサー上の BF16 向けマルチクエリー構造 LLM (ChatGLM 2/3 など)。
    • 混合 モデルのパフォーマンス。
    • 8ビット圧縮されたLLMコンパイル時間とメモリ使用量、Qwenのような大規模な組み込みを持つモデルにとって貴重です
    • ARM プラットフォーム上での FP16 精度の畳み込みネットワーク。

GPU デバイスプラグイン

  • 次の点が改善され、最適化されました。
    • インテル® Core™ Ultra プロセッサー上でコンテキスト・サイズが大きい INT4 圧縮モデルを使用した、統合 GPU (iGPU) プラットフォーム上の LLM の平均トークン待機時間。
    • iGPU での LLM ビーム検索性能。コンテキスト サイズが大きいほど、平均レイテンシーと初回トークン・レイテンシーの両方の減少が予想される場合があります。
    • iGPU プラットフォーム上での YOLOv5 のマルチバッチ・パフォーマンス。
  • LLM のメモリー使用量が最適化され、16 Gb プラットフォームでより大きなコンテキストを持つ 7B モデルが可能になりました。

NPU デバイス プラグイン (プレビュー機能)

  • OpenVINO™ 用の NPU プラグインが PyPI から利用可能になりました ("pip install openvino" を実行)。

OpenVINO Python API

  • .add_extensionメソッドシグネチャが調整され、ユーザーエクスペリエンスを向上させるためにAPIの動作が改善されました。

OpenVINO C API

  • ov_property_key_cache_mode (C++ ov::cache_mode) では、optimize_size モードとoptimize_speedモードでモデルキャッシュを設定 / 取得できるようになりました。
  • Windows* の例外で VA サーフェスが表示される問題を修正しました。

OpenVINO Node.js API

  • OpenVINO - JS バインディング は OpenVINO C++ API と一致しています。
  • 新しい配布チャネルが利用可能になりました: Node Package Manager (npm) ソフトウェア・レジストリー (インストール・ガイドを確認してください)
  • Linux* 以外のプラットフォームでの制限が一部削除されたため、Windows* ユーザーは JavaScript API を使用できるようになりました。

TensorFlow フレームワークのサポート

  • 文字列テンソルがネイティブにサポートされ、入力、出力、中間レイヤーで処理されるようになりました #22024
    • TensorFlow Hub 汎用文エンコーダー多言語推論
    • ストリング・テンソルは、ギャザー、連結、リシェイプの操作でサポートされています。
    • openvino-tokenizers モジュールとの統合 - openvino-tokenizer をインポートすると、トークン化を伴うモデルに必要なトランスレーターを TensorFlow フロントエンドに自動的にパッチ適用します。
  • レガシー・フロントエンドへの操作によるモデル・オプティマイザーのフォールバックは使用できなくなりました。.json構成によるフォールバックは、モデルオプティマイザーが廃止されるまで続きます #21523
  • 次のサポートが追加されました。
    • ハッシュテーブル*、変数、変数V2などの変更可能な変数とリソース #22270
    • 新しいテンソルタイプ: tf.u16, tf.u32, tf.u64 #21864
    • 14 個の新しい Ops*。 こちらのリストを確認してください (新規としてマークされています)。
    • テンソルフロー 2.15 #22180
  • 以下の問題が修正されました。
    • 入力タイプがint16の場合、UpSampling2D変換がクラッシュしました#20838
    • Squeeze #22326 のインデックスエラーリストインデックス
    • 符号付き整数の正しい FloorDiv 計算 #22684
    • tf の不正なキャストエラーを修正しました。TensorShape to ov.パーシャルシェイプ #22813
    • メモリ内のモデルのtf.string属性の読み取りを修正 しました#22752

ONNX フレームワークのサポート

  • ONNX* フロントエンドは OpenVINO API 2.0 を使用するようになりました。

PyTorch フレームワークのサポート

  • dict またはタプルからアンパックされた出力の名前がより明確になりました。 #22821
  • FX グラフ (torch.compile) が kwarg 入力をサポートするようになり、データ型のカバレッジが改善されました。 #22397

OpenVINOモデルサーバー

  • OpenVINO™ ランタイム バックエンドが使用されるようになりました 2024.0 です。
  • テキスト生成デモでは、ストリーミングクライアントと単項クライアントでマルチバッチサイズがサポートされるようになりました。
  • REST クライアントで、Python パイプライン・ノードを含むメディアパイプ・グラフに基づくサービス可能オブジェクトがサポートされるようになりました。
  • 含まれている依存関係は、セキュリティ関連の更新プログラムを受け取りました。
  • 受信リクエスト (自動シェイプおよび自動バッチサイズ) に基づくランタイムでのモデルのリシェイプは推奨されておらず、今後削除される予定です。代わりに、OpenVINOの動的形状モデルを使用することをお勧めします。

ニューラル・ネットワーク圧縮フレームワーク (NNCF)

  • データ対応 4 ビット重み圧縮のためのアクティベーション対応重み量子化 (AWQ) アルゴリズムが利用可能になりました。これにより、比率 4 ビットの重みが高い圧縮 LLM の精度が向上します。これを有効にするには、nncf.compress_weights() API の専用の 'awq' オプション・パラメーターを使用します
  • ONNX モデルは、nncf.quantize_with_accuracy_control() メソッドによる精度制御を使用したポストトレーニング量子化でサポートされるようになりました。これは、OpenVINO IR および ONNX フォーマットのモデルに使用できます。
  • 重量圧縮例の チュートリアル が利用可能になり、ハギングフェイストランスフォーマーやその他のLLMからTinyLLamaモデルの適切なハイパーパラメーターを見つける方法を、いくつかの変更を加えて示します。

OpenVINO トークナイザー

  • 正規表現のサポートが改善されました。
  • モデルのカバレッジが改善されました。
  • トークナイザーのメタデータがrt_infoに追加されました。
  • Tensorflow テキストモデルの限定的なサポートが追加されました: 文字列入力で TF Hub の MUSE を変換します。
  • OpenVINO トークナイザーには独自のリポジトリがあります。 https://github.com/openvinotoolkit/openvino_tokenizers

その他の変更点と既知の問題

Jupyter ノートブック

次のノートブックが更新または新しく追加されました。

確認されている問題点

コンポーネント: PyTorch FE.

品番: 該当なし

説明: リリース 2024.0 以降、PyTorch フレームワークの動作に合わせて明示的に設定されていない限り、モデルの入力と出力にテンソル名が付けられなくなりました。

コンポーネント: GPU ランタイム。

品番: 132376

説明: インテル® Core™ Ultra プロセッサー上の LLM の最初の推論レイテンシーが遅くなります。長いシーケンスを処理するための根本的なメモリ最適化により、最大10〜20%の低下が発生する可能性があります(約1.5〜2 GBのメモリ使用量の削減)。

コンポーネント: CPU ランタイム。

品番: 該当なし

説明: パフォーマンス結果 (最初のトークン待機時間) は、2 つ以上のソケットを備えたインテル® Xeon®プラットフォームでの長いプロンプトを含む LLM の "待機時間" ヒント推論について、OpenVINO以前のバージョンで提供されていたものと異なる場合があります。その理由は、アプリケーションを実行しているシングルソケットのすべてのCPUコアが使用され、numa 制御が使用されていない場合のLLMのメモリオーバーヘッドが削減されるためです。

回避策: 動作は予想されますが、ストリームとスレッドの構成を使用して、すべてのソケットのコアを含めることができます。

廃止とサポート

非推奨の機能およびコンポーネントの使用はお勧めしません。これらは、新しいソリューションへのスムーズな移行を可能にするために利用可能であり、将来廃止される予定です。廃止された機能を引き続き使用するには、それらをサポートする最後のLTS OpenVINOバージョンに戻す必要があります。

詳細については、レガシー機能とコンポーネントOpenVINOページを参照してください

2024.0 で生産終了:

  • ランタイム・コンポーネント:
    • インテル® Gaussian & Neural Accelerator(インテル® GNA)。 ニューラル・プロセシング・ユニット (NPU) は、インテル® Core™ Ultra 世代や第 14 世代以降などの低消費電力システムでの使用を検討してください。
    • OpenVINO C++/C/Python 1.0 API ( 参考については 2023.3 API 移行ガイド を参照)。
    • すべての ONNX フロントエンドのレガシー API (ONNX_IMPORTER_API と呼ばれます)
    • 'PerfomanceMode.UNDEFINED' プロパティを OpenVINO Python API の一部として使用します。
  • ツール:
    • 導入マネージャー。現在の配布オプションについては、インストールおよび導入ガイドを参照してください。
    • 精度チェッカー
    • ポストトレーニング最適化ツール (POT)代わりに、ニューラル・ネットワーク圧縮フレームワーク (NNCF) を使用する必要があります。
    • ハギングフェイス/トランスフォーマーとのNNCF統合のためのgitパッチ。推奨されるアプローチは、 Hugging Face のモデルの上に NNCF 最適化を適用するために Huggingface / optimum-intel を使用することです。
    • Apache MXNet、Caffe、および Kaldi モデル・フォーマットのサポート。ONNX への変換は、ソリューションとして使用できます。

非推奨であり、今後削除される予定:

  • OpenVINO™ 開発ツール・パッケージ (pip インストール openvino-dev) は、2025.0 OpenVINO以降、インストール・オプションと配布チャネルから削除されます。
  • モデル・オプティマイザーは 2025.0 OpenVINOで廃止されます。代わりにOpenVINO モデル コンバーター (API 呼び出し: OVC) の使用を検討してください。詳細については、モデル変換移行ガイド に従ってください
  • OpenVINOプロパティの Affinity API は、OpenVINO 2025.0 で廃止されます。これは、CPU バインディング構成 (ov::hint::enable_cpu_pinning) に置き換えられます。
  • OpenVINO・モデル・サーバーのコンポーネント:
    • 受信リクエスト (自動シェイプおよび自動バッチサイズ) に基づくランタイムでのモデルのリシェイプは推奨されておらず、今後削除される予定です。代わりに、OpenVINOの動的形状モデルを使用することをお勧めします。

システム要件

免責 事項。 特定のハードウェア (GPU および NPU を含むがこれに限定されない) が正しく動作したり、ハードウェア機能を最適に利用したりするためには、特定のドライバーやその他のソフトウェア・コンポーネントを手動でインストールする必要があります。これには、Linux カーネルを含むがこれに限定されないオペレーティング・システムの更新が必要になる場合があります。詳細については、Linux カーネルのドキュメントを参照してください。これらの変更はユーザーが処理する必要があり、OpenVINOインストールの一部ではありません。これらの変更はユーザーが処理する必要があり、インストールOpenVINOは含まれません。システム要件については、リリースノートのシステム要件セクションを参照してください

取り付け手順

OpenVINO™ ランタイムのインストール方法は、オペレーティング・システムに応じて選択できます。

ダウンロード・パッケージの内容

  • C/C++ 向け OpenVINO™ ランタイム / 推論エンジン

役立つリンク

注: リンクは新しいウィンドウで開きます。

このダウンロードは以下の製品での動作が確認されています。

このページのコンテンツは、元の英語のコンテンツを人力翻訳および機械翻訳したものが混在しています。この内容は参考情報および一般的な情報を提供するためものであり、情報の正確さと完全性を保証するものではありません。インテルは不正確な翻訳があった場合でもいかなる責任を負いません。このページの英語版と翻訳の間に矛盾がある場合は、英語版に準拠します。 このページの英語版をご覧ください。