インテル® Xeon® プロセッサーのインテル® Data Center Diagnostic Tool

ドキュメント

メンテナンス & パフォーマンス

000058107

2021/11/18

導入

インテル® Data Center Diagnostic Toolは、データセンター・プラットフォームで実行できる診断ソフトウェア・ツールです。

  • インテル® Xeon® プロセッサー内のすべてのコアの機能を確認します。
  • 通常のシステム・メンテナンス・プログラムの一部として使用してください。

データセンターにおける高い信頼性と可用性には、適切なツールとメンテナンスへの取り組みが必要です。インテルは、このようなメンテナンス・ツールを初期導入と定期的なテストの両方に使用して、最高のシステム体験を確実に行うのが業界のベストプラクティスであると考えています。

    メモ
    • 最新のコンピューティング・インフラストラクチャーは、サービス品質と高可用性に対するビジネスの期待 (およびサービスレベル契約 (SLA 全般) の保証) と組み合わせて、処理能力に対する需要が増え続けています。これらの期待は、サービス品質や稼動時間に妥協する可能性のある予期しないシステム障害を予測、特定、最小化するのに役立つ強力なソフトウェア・ツールの必要性を強調しています。 IDC の論文 を読んで、インテル® Data Center Diagnostic Toolなどの診断ツールの必要性について説明します。

    システム要件

    インテル Data Center Diagnostic Toolは、現在の多くの Linux ディストリビューションでインストールおよび実行できる Linux* アプリケーションです。このツールには Windows* 版はありません。

    最適なカバレッジを得るためのサーバーのルートシステムでアプリケーションを実行します。コンテナーまたは仮想マシン内で実行することは可能ですが、一部の機能が無効になっている可能性があることに注意してください。

    サポートされているプロセッサー:

    • 第 3 世代インテル® Xeon® スケーラブル・プロセッサー (以前のIce LakeおよびCooper Lake)
    • 第 2 世代インテル® Xeon® スケーラブル・プロセッサー (旧Cascade Lake)
    • 第 1 世代インテル® Xeon® スケーラブル・プロセッサー (旧 Skylake)
    • インテル® Xeon® プロセッサー E5 v4 ファミリー (旧 Broadwell)
    • インテル® Xeon® プロセッサー E7 v4 ファミリー (旧 Broadwell)
    メモ
    • 開発者向け: インテルは Open Data Center Diagnostic Project を開始し、インテルのデータセンター診断フレームワークを開き、一部のテストを提供します。これにより、オープンソース・コミュニティーの創造性を引き出し、独自のテスト画面やその他の革新的なソリューションの開発を通じてクラウドフリート管理を強化する一貫したテスト開発フレームワークを開発者に提供します。このフレームワークとテストの詳細とアクセスについて

    インストール

    ノート
    • その他の詳細については、インストールに含まれている /usr/share/doc/dcdiag/README.rst ファイルを参照してください。
    • 以下のセクションの手順を使用してリポジトリーにリンクし、確実に最新バージョンのインテル® Data Center Diagnostic Toolを入手することをお勧めします。ただし、ダウンロード可能なバイナリーが必要な場合は、RPM ファイル または DEB ファイル を使用してください 。

     

    Debian*/Ubuntu*

    Debian* ベースのディストリビューションにインテル® Data Center Diagnostic Tool・ソフトウェア・パッケージをインストールするには、インテル software・パッケージ・リポジトリーを追加し、適切なパッケージをインストールします。

    コンソールにコピー + 貼り付けする前に 、sスタング ls を実行してパスワードを入力して 、sシグタン のパスワード・プロンプトでコマンドが消費されないようにしてください。

    パッケージ署名を確認するキーを設定します。

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    リポジトリーの設定

    sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

    パッケージをインストールする

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    Fedora ベースのディストリビューションにインテル Data Center Diagnostic Tool・ソフトウェア・パッケージをインストールするには、インテル software・パッケージ・リポジトリーを追加してパッケージをインストールします。

    初めてインストールする際に、YUM または DNF が署名キーに同意するように求めるメッセージが表示されます。指紋認証が次の通りであることを確認し、受け入れます。
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    コンソールにコピー + 貼り付けする前に 、sスタング ls を実行してパスワードを入力して 、sシグタン のパスワード・プロンプトでコマンドが消費されないようにしてください。

    リポジトリー・ファイルをインストールする

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    パッケージをインストールする

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise*

    リポジトリー・ファイルをインストールする

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    パッケージをインストールする

    sudo zypper install dcdiag

    respond.xml に署名がないことを警告されます。[はい] に応答して続行します。パッケージ署名を確認する機会がもう 1 つ与えられるでしょう。指紋認証が次の通りであることを確認し、受け入れます。

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    インテル Xeon プロセッサーのテスト方法

    インストールが完了すると、バックグラウンド実行用にインテル Data Center Diagnostic Toolが自動的に有効になります。次のコマンドで正常に動作することを確認できます。

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    エラーが検出された場合、ツールはエラーをシステムログに記録します。また 、--query 引数を使用してバックグラウンド・スキャンでエラーが検出されたかどうかも確認できます。

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    このツールは、Linux コマンド・プロンプトで実行することで、前景で手動で実行することもできます。

    # dcdiag

    手動テストは約 45 分間実行され、CPU 使用率が高くなります。

    診断が完了すると、システムは次のいずれかのメッセージを返します。

    • テストは正常に完了しました。問題は検出されません。
       
    • テストは正常に完了しました。1 つ以上のコンピューター・チェック・エラーが発生しました。システムログを確認してください。
       
    • このプロセッサーは、このバージョンのツールではサポートされていません。

      システムのプロセッサーのモデルとバージョンを確認します。このメッセージは、インテル Data Center Diagnostic Toolがサポートされているプロセッサーの製品バージョンを検出しない場合に表示されます。エンジニアリング・サンプルはこのツールではサポートされていません。

      プロセッサーの識別方法を確認する 方法
       
    • テストは完了しました。マイクロコードの旧バージョンのため、結果は決定的ではありません。

      最新バージョンのマイクロコードは、既知の問題に対処します。更新してください。マイクロコードのアップデートは、通常、さまざまなコンポーネントのセキュリティー修正やその他のファームウェア・アップデートとともに Linux ディストリビューション・ベンダーによって提供されます。お使いのシステムでこれらのアップデートが有効になっていない場合は、有効にすることをお勧めします。マイクロコードは起動時に Linux カーネルによって自動的に読み込まれ、実行時に次のコマンドを root として再ロードできます。

      echo 1 > /sys/devices/system/cpu/microcode
       
    • テストは完了しました。システムが温度制限を超えているため、結果は決定的ではありません。

      これは、CPU が必要な温度制限内で動作するのに十分な冷却を提供していないシステムのさまざまな問題が原因である可能性があります。システムをチェックして、必要な冷却が正しく動作していることを確認することをお勧めします。ファンの不具合、気流の誤り、その他の環境上の問題が含まれる場合があります。
       
    • テストは完了しました。結果は決定的なものではなく、1 つ以上のマシンチェック・エラーが発生しました。

      システムログを確認します。
       
    • テストに失敗しました。サポートについては、システムの製造元またはプロセッサーのベンダーにお問い合わせください。

      テスト結果に失敗した場合は、サーバーノードのプロセッサーが保証期間内かどうかを確認します。

      • ボックス版インテル® Xeon® プロセッサーがまだ 3 年間の保証期間内である場合は、インテル・カスタマー・サポート にお問い合わせください。
      • トレイ版プロセッサーをお持ちの場合は、システムまたはプロセッサーのベンダーまたは購入元に問い合わせて、プロセッサーがまだ保証期間内かどうかを確認してください。
        メモトレイ版プロセッサーは、システムの製造元またはインテル認定ディストリビューターに直接販売されます。インテルは、インテル® データセンター・ブロック (インテル® DCB) サーバーシステムにプレインストールされている場合を除き、トレイ版プロセッサーのエンドユーザーに直接保証を提供しません。インテル DCBシステムを除き、トレイ版プロセッサーの保証は、プロセッサーがプリインストールされている場合、プロセッサーまたはシステムのベンダーまたは購入元からの保証です。認定インテル® ディストリビューター、認定インテル® サプライヤーインテル®製品のリセラー から購入することをお勧めします。
      • インテルには保証外交換プログラムはありませんのでご注意ください。
         
    • テストに失敗しました。

      テストが完了し 、/sys/devices/system/cpu/cpuXX を含む物理プロセッサーでエラーが検出されました。

      サポートについては、システムの製造元またはプロセッサーのベンダーにお問い合わせください。

    • テストに失敗しました。

      テストでは、どの物理プロセッサーが障害を引き起こしたかを判断できません。

      サポートについては、システムの製造元またはプロセッサーのベンダーにお問い合わせください。
       

    バージョン履歴

    日付バージョン説明
    2021年7月7日540初期バージョン