インテル® Xeon® プロセッサーのインテル® Data Center Diagnostic Tool

ドキュメント

メンテナンス & パフォーマンス

000058107

2022/06/23

導入

インテル® Data Center Diagnostic Toolは、データセンター・プラットフォーム上で以下を実行できる診断ソフトウェア・ツールです。

  • インテル® Xeon® プロセッサー内のすべてのコアの機能を検証します。
  • 通常のシステム・メンテナンス・プログラムの一部として使用できます。

データセンターにおける高い信頼性と可用性には、適切なツールとメンテナンスへのコミットメントが必要です。インテルは、このようなメンテナンス・ツールを初期導入と定期的なテストの両方に使用して、最高のシステム体験を確実にすることが業界のベストプラクティスであると考えています。

    メモ最新のコンピューティング・インフラストラクチャーは、サービス品質と高可用性に対するビジネスの期待と組み合わせて処理能力に対する需要が増え続けます (そして、サービスレベル契約 [SLA] 全般に対する保証)。 これらの予想は、サービスの品質やアップタイムを損なう可能性のある予期せぬシステム障害を予測、特定、最小限に抑えることができる強力なソフトウェア・ツールの必要性を強調しています。インテル® Data Center Diagnostic Toolを含む診断ツールの必要性について説明した IDC のホワイトペーパー をお読みください。

    システム要件

    インテル Data Center Diagnostic Toolは、現在の多くの Linux ディストリビューションにインストールして実行できる Linux* アプリケーションです。このツールには Windows* のバージョンはありません。

    最大限のカバレッジを得るための、サーバーのルートシステムでアプリケーションを実行します。コンテナまたは仮想マシン内で実行することは可能ですが、一部の機能が無効になっている可能性があることに注意してください。

    対応プロセッサー:

    • 第 3 世代インテル® Xeon®・スケーラブル・プロセッサー (旧Ice LakeおよびCooper Lake)
    • 第 2 世代インテル® Xeon®・スケーラブル・プロセッサー (旧Cascade Lake)
    • 第 1 世代インテル® Xeon® スケーラブル・プロセッサー (開発コード名 Skylake)
    • インテル® Xeon® プロセッサー E5 v4 ファミリー (開発コード名 Broadwell)
    • インテル® Xeon® プロセッサー E7 v4 ファミリー (開発コード名 Broadwell)
    メモ
    • 開発者向け: インテルは Open Data Center Diagnostic Project を開始し、インテルの Data Center Diagnostic Framework を開き、選択したテストを提供します。これにより、デベロッパーは、独自のテスト画面やその他の革新的なソリューションを開発することで、オープンソース・コミュニティーの創造性を引き出し、クラウドフリート管理を強化する、一貫したテスト開発フレームワークを提供します。このフレームワークやテストの詳細とアクセスについては、以下を参照してください

    インストール

    ノート
    • 詳細については、インストールに含まれている /usr/share/doc/dcdiag/README.rst ファイルを参照してください。
    • リポジトリにリンクするには、以下のセクションの手順を使用して、最新バージョンのインテル® Data Center Diagnostic Toolを確実に取得することをお勧めします。ただし、ダウンロード可能なバイナリーが必要な場合は、RPM ファイル または DEB ファイル を使用してください。

     

    Debian*/Ubuntu*

    Debian ベースのディストリビューションにインテル® Data Center Diagnostic Toolソフトウェア・パッケージをインストールするには、インテル ソフトウェア・パッケージ・リポジトリーを追加して、適切なパッケージをインストールします。

    コンソールにコピー+貼り付ける前に、sudo パスワードプロンプトでコマンドが消費されないように、sudo ls を実行してパスワードを入力してください。

    キーを設定してパッケージ署名を検証します。

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    リポジトリーのセットアップ

    sudo apt-add-repository 'deb [arch=amd64] https://repositories.intel.com/dcdt/debian stable main'

    パッケージのインストール

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    Fedora ベースのディストリビューションにインテル Data Center Diagnostic Tool・ソフトウェア・パッケージをインストールするには、インテル ソフトウェア・パッケージ・リポジトリーを追加してパッケージをインストールします。

    初めてインストールすると、YUM または DNF は署名キーの承認を求めます。指紋が次の通りであることを確認し、受け入れます。
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    コンソールにコピー+貼り付ける前に、sudo パスワードプロンプトでコマンドが消費されないように、sudo ls を実行してパスワードを入力してください。

    リポジトリー・ファイルのインストール

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    パッケージのインストール

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise*:

    リポジトリー・ファイルのインストール

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    パッケージのインストール

    sudo zypper install dcdiag

    respond.xml に署名がないことを警告します。「はい」と回答して続行します。パッケージの署名を確認する機会がもう 1 つ与えられるでしょう。指紋が次の通りであることを確認し、受け入れます。

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    インテル® Xeon®・プロセッサーのテスト方法

    インストールが完了すると、バックグラウンド・エグゼキューションのためにインテル Data Center Diagnostic Toolが自動的に有効になります。次のコマンドを使用して、これが正常に完了したことを確認できます。

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    メモ

    インテル Data Center Diagnostic Toolのバックグラウンド・エグゼキューションを無効にする場合は、次を実行します。

    systemctl disable --now dcdiag

    systemctl(1) コマンドの使用に関する詳細は、Linux* のマニュアル・ページ を参照してください。

    バックグラウンドでインテル Data Center Diagnostic Toolの実行中にエラーが検出された場合、ツールはエラーをシステムログに記録します。また、バックグラウンド スキャンで --query 引数を使用してエラーが検出されたかどうかをクエリすることもできます。

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    このツールは、Linux コマンドプロンプトで実行することにより、フォアグラウンドで手動で実行することもできます。

    # dcdiag

    手動テストは約 45 分間実行され、CPU 使用率が高くなります。

    診断が完了すると、システムは次のいずれかのメッセージを返します。

    • テストは正常に完了しました。問題が検出されません。
       
    • テストは正常に完了しました。1 つ以上のコンピューター・チェック・エラーが発生しました。システムのログを確認してください。
       
    • このプロセッサーは、このバージョンのツールではサポートされていません。

      システムのプロセッサーのモデルとバージョンを確認します。このメッセージは、インテル Data Center Diagnostic Toolがサポートされているプロセッサーの製品版を検出しない場合に表示されます。エンジニアリング・サンプルは、このツールではサポートされていません。

      プロセッサーの識別に関するサポートを確認する
       
    • テストは完了しました。マイクロコードの旧バージョンのため、結果は決定的ではありません。

      マイクロコードの最新バージョンは、既知の問題に対応しています。更新してください。マイクロコードのアップデートは、通常、Linux ディストリビューションのベンダーが、さまざまなコンポーネント向けのセキュリティー・フィックスやその他のファームウェア・アップデートとともに提供します。お使いのシステムでこれらのアップデートが有効になっていない場合は、有効にすることを推奨します。マイクロコードは起動時に Linux カーネルによって自動的にロードされ、ルートとして次のコマンドを実行するとランタイムに再読み込みできます。

      echo 1 > /sys/devices/system/cpu/microcode
       
    • テストは完了しました。システムが制限温度を超えているため、結果は決定的ではありません

      これは、CPU が必要な温度制限の範囲内で動作するための十分な冷却を提供していないシステムのさまざまな問題が原因である可能性があります。必要な冷却が正しく動作していることを確認するために、システムを確認することをお勧めします。これにはファンの不具合、エアフローの誤り、その他の環境問題が含まれる場合があります。
       
    • テストは完了しました。結果は決定的な結果であり、1 つ以上のコンピューター・チェック・エラーが発生しました。

      システムのログを確認します。
       
    • テストは失敗しました。サポートについては、システムの製造元またはプロセッサーのベンダーにお問い合わせください。

      テスト結果に失敗したと表示される場合、サーバーノードのプロセッサーが保証期間内であるかどうかを確認します。

      • ボックス版インテル® Xeon® プロセッサーが 3 年間の保証期間内の場合は、インテル・カスタマー・サポート にお問い合わせください。
      • トレイ版プロセッサーをお持ちの場合は、システムまたはプロセッサーのベンダーまたは購入元に連絡して、プロセッサーが保証期間内であるかどうかを確認してください。
        メモトレイ版プロセッサーは、システムの製造元またはインテル認定ディストリビューターに直接販売されます。インテルは、インテル® データセンター・ブロック (インテル® DCB) サーバーシステムにプレインストールされていない限り、トレイ版プロセッサーに直接保証を提供しません。インテル DCBシステムを除き、トレイ版プロセッサーの保証は、プロセッサーがプリインストールされているベンダーまたは購入元、またはシステムから提供されます。インテルでは、認定インテル® ディストリビューター、認定インテル® サプライヤー、インテル製品の®リセラー から購入することをお勧めします。
      • インテルには保証外の交換プログラムはありません。
         
    • テストは失敗しました。

      テストが完了し、 /sys/devices/system/cpu/cpuXX を含む物理プロセッサーでエラーが検出されました。

      サポートについては、システムの製造元またはプロセッサーのベンダーにお問い合わせください。

    • テストは失敗しました。

      テストでは、障害の原因となった物理プロセッサーを特定できません。

      サポートについては、システムの製造元またはプロセッサーのベンダーにお問い合わせください。
       

    バージョン履歴

    日付バージョン説明
    2021年7月7日540初期バージョン

     

    関連トピック
    インテル® Xeon®・サポート・セントラルのウェブサイト
    インテル® プロセッサーの保証情報