OpenVINO™ツールキットのインテル® Distribution

753640
4/25/2024

概要

本パッケージには、Linux*、Windows*、macOS* 用 OpenVINO™ ツールキット・ソフトウェア・バージョン 2024.1 のインテル® Distributionが含まれています。

ご利用可能なダウンロード

  • CentOS 7 (1908)*
  • サイズ : 51.2 MB
  • SHA256 : 8F1D8B7D51DD8364BEB330B8364C8C98B15AE70164E5D2843C6D0D71375B83FD
  • Debian Linux*
  • サイズ : 25 MB
  • SHA256 : 916C33CA6902665F62DE80F25309E0B5BDC252225DA33213164C8E2000ABF035
  • Red Hat Enterprise Linux 8*
  • サイズ : 44.3 MB
  • SHA256 : A6EB3A623B1AEB252A10AC57AAD118871E2907B87C4DBE318CAEBC04519C7B5B
  • Ubuntu 18.04 LTS*
  • サイズ : 44.3 MB
  • SHA256 : BAC6A147EBD6D32A9E097C56652553663191FD5D784E5C11EE16A8D3C35A0718
  • Ubuntu 20.04 LTS*
  • サイズ : 47.2 MB
  • SHA256 : F6DAF300D235458B22A03789F8CB4BC81CA9108A0B72C18480090B4EF84BF751
  • Ubuntu 20.04 LTS*
  • サイズ : 33.3 MB
  • SHA256 : 7B8A88ACC9EF8E65E6B896D4BE4BCCCB9FEE7AC19FC20C62B4F99DB18BF15084
  • Ubuntu 22.04 LTS*
  • サイズ : 48.3 MB
  • SHA256 : 69F15878F54D7B61EB54EB5B2631741F147E85383539F5436A6672FB07C459D2
  • macOS*
  • サイズ : 126.4 MB
  • SHA256 : 4FEB824F610D65D8218183D3453C8DA6DB5EA641F858B5CB98413B675554898F
  • macOS*
  • サイズ : 30.8 MB
  • SHA256 : 6997E398DC14F0E52B7A286374CC7A02FE6B3285CE52E2F6324FB5D928050A95
  • Windows 11*, Windows 10, 64-bit*
  • サイズ : 99.1 MB
  • SHA256 : 4EE0C4036C91A3C1423C14F47E31B5B4C15082A6CFF3A5B7A63CF12DA39B70E6

詳細

最新情報

コード変更を最小限に抑えるための、より多くの世代の AI カバレッジとフレームワークの統合。

  • インテル® Xeon® プロセッサーのパフォーマンス向上に最適化された Mixtral* モデルと URLNet* モデル。
  • 安定した Diffusion* 1.5、ChatGLM3-6B*、Qwen-7B* モデルは、GPU 内蔵プロセッサー上で推論速度の向上に最適化インテル® Core™ Ultra。
  • 優れたパフォーマンス指標を備えた、GenAI Large Language Model (LLM) のすぐに使えるチャット / Instruct モデルである Falcon-7B-Instruct* のサポート。
  • 新しい Jupyter* ノートブックの追加: YOLO V9*、YOLO V8* 指向バウンディングボックス検出 (OOB)、Keras* での安定拡散、MobileCLIP*、RMBG-v1.4* バックグラウンド削除、Magika*、TripoSR*、AnimateEveryone*、LLaVA-NeXT*、OpenVINO™ と LangChain* 搭載の RAG システム。

より広範な LLM モデルサポートとより多くのモデル圧縮技術。

  • 圧縮エンベデッドによるさらなる最適化により、LLMのコンパイル時間を短縮。インテル® Advanced Matrix Extensions (インテル® AMX) 搭載の第 4 世代および第 5 世代 インテル® Xeon® プロセッサーでの LLM の第 1 世代トークンのパフォーマンスを改善しました。
  • インテル® Arc™ GPU 向けの oneDNN、INT4、INT8 サポートにより、LLM 圧縮率の向上とパフォーマンスの向上を実現します。
  • GPU 内蔵のインテル® Core™ Ultraプロセッサーで、一部の小型 GenAI モデルのメモリーを大幅に削減。

エッジ、クラウド、またはローカルで AI を実行するためのポータビリティーとパフォーマンスの向上。

  • インテル® Core™ Ultra プロセッサー向けのプレビュー版 NPU プラグインは、PyPI* のメインの OpenVINO パッケージに加えて、OpenVINOオープンソースの GitHub* リポジトリーで利用できるようになりました。
  • JavaScript* API は、npm リポジトリーから簡単にアクセスできるようになり、JavaScript 開発者は OpenVINO API にシームレスにアクセスできるようになりました。
  • ARM* プロセッサーでの FP16 推論が畳み込みニューラル・ネットワーク (CNN) 向けにデフォルトで有効になりました。

OpenVINO™ ランタイム

共通

  • キャッシュされたモデルの Unicode ファイルパスが Windows* でサポートされるようになりました。
  • 前処理 API をパッドして、定数でエッジ上の入力テンソルを拡張します。
  • 特定の画像生成モデルの推論失敗の修正が実装されました (変換後の I/O ポート名の融合)。
  • コンパイラのエラーとしての警告オプションがオンになり、コーディング基準と品質が向上しました。ビルドの警告は新しい OpenVINO コードでは許可されず、既存の警告は修正されました。

自動推論モード

  • ov::CompiledModel から ov::enable_profiling 値を返すことがサポートされるようになりました。

CPU デバイスプラグイン

  • LLMの第1トークンパフォーマンスは、インテル® Advanced Matrix Extensions(インテル® AMX)を搭載した第4世代および第5世代のインテル® Xeon®プロセッサで改善されました。
  • 圧縮エンベデッドによるさらなる最適化により、LLM のコンパイル時間とメモリー・フットプリントが改善されました。
  • MoE (Mixtralなど)、Gemma*、GPT-J のパフォーマンスがさらに向上しました。
  • ARM デバイス上の幅広いモデル・セットのパフォーマンスが大幅に向上しました。
  • FP16 推論精度が、ARM デバイス上のすべてのタイプのモデルのデフォルトになりました。
  • CPU アーキテクチャーに依存しないビルドが実装され、さまざまな ARM デバイスで統一されたバイナリ配布が可能になりました。

GPU デバイスプラグイン

  • 統合 GPU プラットフォームとディスクリート GPU プラットフォームの両方で、LLM の最初のトークンのレイテンシーが改善されました。
  • ChatGLM3-6B* モデルでは、統合 GPU プラットフォームでの平均トークン・レイテンシーが改善されました。
  • 安定拡散 1.5 FP16 の精度については、インテル® Core™ Ultra プロセッサーのパフォーマンスが向上しました。

NPU デバイスプラグイン

  • NPU プラグインは、OpenVINO GitHub リポジトリーの一部になりました。最新のプラグインの変更はすべて、リポジトリですぐに利用できるようになります。NPU は インテル® Core™ Ultra プロセッサの一部であることに注意してください。
  • OpenVINOを使ったNPUの使い方を紹介するOpenVINO™ノート「Hello, NPU!」を追加しました。
  • Microsoft Windows® 11 64 ビット版が NPU で推論を実行するには、バージョン 22H2 以降が必要です。

OpenVINO Python* API

  • GIL を使用しない RemoteTensors の作成が使用されました - GIL を保持することは、プロセスがマルチスレッドに適していないことを意味し、GIL ロックを解除すると RemoteTensor の概念にとって重要なパフォーマンスが向上します。
  • Python API レベルのパックドデータ型 BF16 が追加され、NumPy* では処理されないデータ型をサポートする新しい方法が開かれました。
  • ov::p reprocess::P rePostProcessorItem に対する 'pad' 演算子のサポートが追加されました。
  • Ov。PartialShape.dynamic(int) 定義が提供されました。

OpenVINO C API

  • スケールと平均に関する 2 つの新しい前処理 API が追加されました。

OpenVINO Node.js API

  • JavaScript API を CPP API に合わせるための新しいメソッド、例えば CompiledModel.exportModel(), core.import_model(), Core set/get property and Tensor.get_size(), and Model.is_dynamic() などが追加されました。
  • 開発者が JavaScript アプリケーションと OpenVINO™ の統合を開始するのに役立つように、ドキュメントが拡張されました。

TensorFlow フレームワークのサポート

  • tf.keras.layers.TextVectorization トークナイザー がサポートされるようになりました。
  • 変数およびハッシュテーブル (ディクショナリ) リソースを含むモデルの変換が改善されました。
  • 8つの新しい操作が追加されました(NEWとしてマークされているここのリストを参照してください)。
  • 10 個の演算が COMPLEX テンソルのサポートを受けています。
  • TF1 モデルの入力テンソル名は、入力ごとに 1 つの名前を持つように調整されました。
  • Hugging Face* モデルのサポート範囲は、以下の理由により大幅に増加しました。
    • メモリ内のモデルの入力シグネチャの抽出が修正されました。
    • メモリ内のモデルの変数値の読み取りが修正されました。

PyTorch* フレームワークのサポート

  • PyTorch モデルの新しいタイプの拡張機能である ModuleExtension がサポートされるようになりました (PR #23536)。
  • 22の新しい操作が追加されました。
  • torch.export (FX グラフ) で生成されたモデルの実験的サポートが追加されました (PR #23815)。

OpenVINOモデルサーバー

  • OpenVINO™ ランタイムバックエンドは 2024.1 を使用
  • 出力時に文字列データ型のOpenVINO™モデルがサポートされています。現在、OpenVINO™ Model Server は String 型の入力と出力を持つモデルをサポートできるため、開発者はモデルに組み込まれたトークン化を最初のレイヤーとして利用できます。開発者は、テキストのみを返すモデルに埋め込まれた後処理に依存することもできます。ユニバーサル文エンコーダー モデル文字列出力モデルのデモを使用した文字列入力データのデモを確認してください
  • MediaPipe* Python カリキュレーターが更新され、関連するすべてのコンフィグレーションおよび Python コードファイルの相対パスがサポートされるようになりました。これで、コードを変更することなく、完全なグラフ構成フォルダーを任意のパスにデプロイできます。
  • KServe* REST API サポートが拡張され、NVIDIA Triton* と互換性のあるバイナリー形式と同様に、JSON 本文の文字列形式を適切に処理できるようになりました。
  • モデルサーバーに完全に委任された完全なRAGアルゴリズムを紹介するデモが追加されました。

ニューラルネットワーク圧縮フレームワーク

  • モデルサブグラフを INT8 ポストトレーニング量子化の無視されるスコープ nncf.quantize() で定義できるようになりました。これにより、量子化から精度に敏感なレイヤーを簡単に除外できます。
  • 1 を超えるバッチサイズが INT8 ポストトレーニング量子化で部分的にサポートされるようになり、プロセスが高速化されました。トランスベースのモデルは精度に影響を与える可能性があるため、お勧めしません。デモの 例を次に示します
  • ポストトレーニング量子化後に INT8 モデルに微調整を適用して、モデルの精度を向上させ、ポストトレーニングからトレーニング対応量子化への移行を容易にすることが可能になりました。デモの 例を次に示します

OpenVINO トークナイザー

  • TensorFlow のサポートが拡張されました - テキストベクトル化レイヤーの変換:
    • 既存の演算をTF演算に合わせ、それらのトランスレータを追加しました。
    • 新しい不規則なテンソル演算と文字列演算を追加しました。
  • 新しいトークナイザーの種類である RWKV がサポートされるようになりました。
    • 不規則なテンソルの Trie トークナイザーと Fuse op を追加しました。
    • OVトークナイザーを取得する新しい方法:ファイルから語彙を作成します。
  • トークナイザーのキャッシュは、OpenVINO™ モデルのキャッシュ メカニズムで動作するように再設計されました。

その他の変更点と既知の問題

Jupyter ノートブック

OpenVINO™ Notebooks リポジトリのデフォルトのブランチが「メイン」から「最新」に変更されました。ノートブックリポジトリの「メイン」ブランチは現在非推奨であり、2024年9月30日まで維持されます。

新しいブランチ「最新」は、大幅なリファクタリングとディレクトリの命名構造の改善により、ユーザーエクスペリエンスが向上し、メンテナンスが簡素化されます。

GitHub Pages のローカル README.md ファイルとOpenVINO™ノートブックを使用して、コンテンツ内を移動します。

次のノートブックが更新または新しく追加されました。

確認されている問題点

コンポーネント - CPU プラグイン

ID - 該当なし

説明:

Windows のデフォルトの CPU ピン留めポリシーは、OpenVINO プラグインで CPU ピン留めを制御するのではなく、Windows のポリシーに従うように変更されました。これにより、Windowsで特定の動的またはパフォーマンスの差異が生じます。開発者は ov::hint::enable_cpu_pinning を使用して、CPU のピン留めを明示的に有効または無効にできます。

コンポーネント - ハードウェア構成

ID - 該当なし

説明:

新しい CPU では、LLM のパフォーマンスが低下することがあります。これを軽減するには、BIOS のデフォルト設定を変更してシステムを 2 NUMA ノードシステムに変更します。

1. BIOS設定メニューに入ります。

2. EDKII メニュー -> ソケット構成 -> アンコア構成 -> アンコア一般構成 -> SNC を選択します。

3. SNC設定はデフォルトで自動に設定されています。起動時に SNC 設定を disabled に変更して、起動時にプロセッサー・ソケットごとに 1 つの NUMA ノードを構成します。

4. システムの再起動後、numatcl -H を使用して NUMA ノード設定を確認します。ノード 0 と 1 のみが表示されます。

以下のマッピングを持つ 2 ソケット・システム:

ノード - 0 - 1

0 - 10 - 21

1 - 21 - 10

システム要件

免責 事項。 特定のハードウェア (GPU および NPU を含むがこれに限定されない) が正しく動作したり、ハードウェア機能を最適に利用したりするためには、特定のドライバーやその他のソフトウェア・コンポーネントを手動でインストールする必要があります。これには、Linux カーネルを含むがこれに限定されないオペレーティング・システムの更新が必要になる場合があります。詳細については、Linux カーネルのドキュメントを参照してください。これらの変更はユーザーが処理する必要があり、OpenVINOインストールの一部ではありません。これらの変更はユーザーが処理する必要があり、インストールOpenVINOは含まれません。システム要件については、リリースノートの「システム要件セクションを参照してください

取り付け手順

OpenVINO™ ランタイムのインストール方法は、オペレーティング・システムに応じて選択できます。

ダウンロード・パッケージの内容

  • C/C++ 向け OpenVINO™ ランタイム / 推論エンジン

役立つリンク

注: リンクは新しいウィンドウで開きます。

このダウンロードは以下の製品での動作が確認されています。

このページのコンテンツは、元の英語のコンテンツを人力翻訳および機械翻訳したものが混在しています。この内容は参考情報および一般的な情報を提供するためものであり、情報の正確さと完全性を保証するものではありません。インテルは不正確な翻訳があった場合でもいかなる責任を負いません。このページの英語版と翻訳の間に矛盾がある場合は、英語版に準拠します。 このページの英語版をご覧ください。