インテル® サーバー・ボードの修正可能/修正不可能な ECC メモリーエラーの基本的な診断

ドキュメント

トラブルシューティング

000024007

2023/12/21

メモ この記事に記載されているトラブルシューティングのサポートについては、ご利用のサーバー・プラットフォームのテクニカル・ プロダクト・スペシフィケーション を参照してください。

現象 / 問題点

メモリーモジュールの修正可能および / または修正不可能なエラー訂正コード (ECC) イベント。例えば:

MMRY ECC センサー SMI ハンドラー警告 メモリー CPU: 1、DIMM: D0 DIMM ランク: 1。 - 修正可能な ECC / その他の修正可能なメモリーエラー - アサート。

メモリ・エラー訂正コード (ECC) 訂正可能エラー・イベントとは何ですか?

ECC 修正可能エラーとは、特定の時間枠内でのデュアル・インライン・メモリー・モジュール (DIMM) のしきい値オーバーフローのことです。


解決方法:

メモリー・データ・エラーは、修正可能または修正不可能としてログに記録されます。発生したエラーのタイプに基づいて、以下の手順 を参照してください

error types

ノート
  • 致命的な問題 (パープル・スクリーン・オブ・デス (PSOD) または予期しない再起動) がなく、修正可能な ECC エラー (適応型二重デバイスデータ訂正 (ADDDC) エラーを含む) が、DIMM 位置ごとに 24 時間ごとに 10 イベント未満であり、しきい値制限内にある場合は、イベントをトリガーする DIMM の場所ごとに ECC エラーが再発していないかどうかをサーバーで 監視 することをお勧めします。
  • 致命的な問題 (パープル・スクリーン・オブ・デス (PSOD) または予期しない再起動) があり、DIMM の位置ごとに 24 時間ごとに 10 イベント未満の場合、適応型二重デバイスデータ訂正 (ADDDC) エラーなどの修正可能な ECC エラーがある場合は、次の手順に従って各 DIMM の位置を取り付け直すことをお勧めします。
    1. システムの電源を切り、AC 電源ケーブルを取り外します
    2. 取り付け直す DIMM の位置を特定します。DIMM の位置を特定するには、ご使用のサーバー・プラットフォームの テクニカル・プロダクト・スペシフィケーション を参照してください。
    3. 識別したDIMMを取り付け直します。
    4. AC 電源ケーブルを挿入し、システムの電源を入れ直します。
    5. ECC エラーの再発がないか 24 時間待機します。
    6. 取り付け直したのと同じ DIM 位置でも ECC エラーが続く場合は、BMC Web コンソールから生成された SEL ログとデバッグログを生成して送信インテル Customer Support
  • 高度なメモリーテスト (AMT) 機能は、インテル® サーバー・システム S2600BP、S2600WF、およびS2600STの BIOS リビジョン 02.01.0014 以降、BIOS およびファームウェア・スタックに導入されました。BIOS リビジョン 22.01.0097 以降インテル® サーバー・システム S9200WKこれらの製品では、BIOS セットアップ・ユーティリティーで Advanced Memory Test (AMT) およびパッケージ修復後 (PPR) 機能を有効にし、メモリーの状態をフルチェックすることを推奨します。詳しい手順については、 インテル® 62X チップセット - ホワイトペーパー を搭載したインテル® サーバー製品のメモリー交換ガイドラインおよび高度なメモリーテスト の第 5 章 を参照してください。

ノート

エラー訂正コード (ECC) エラーは自己修正機能です。メモリーの信頼性可用性保守性 (RAS) の構成によっては、統合メモリー・コントローラー (IMC) が影響を受ける DIMM をオフラインにする場合があります。

インテル® サーバー・プラットフォームによってイベント定義に違いがあります。サーバー・プラットフォームのシステム・イベント・ログ・トラブルシューティング・ガイド を参照してください

インテルでは、システム BIOS をダウンロードして、ご利用のサーバー・プラットフォームで 利用可能な最新バージョン にアップデートすることを推奨します。

システムが Nutanix* Enterprise Cloud 向けインテル® データセンター・ブロックである場合は、Nutanix* ライフサイクル・マネージャーのページにアクセスしてください。ハードウェアおよびファームウェアの互換性の一覧については、Nutanix* ハードウェアおよびファームウェアの互換性ページ を参照してください

関連トピック
インテル® 62X チップセット搭載インテル® サーバー製品のメモリー交換ガイドラインと高度なメモリーテスト – ホワイトペーパー
ECC メモリーの役割
インテル® サーバー・ボード向け IERR からリカバリーする方法
マイサーバーのクラッシュおよびエラーの表示:衝突してこのエラーを表示する: プロセッサー CPU マシンのチェック
ファームウェアのアップデートとトラブルシューティングのヒント
メモリ・エラー訂正コード (ECC) 訂正可能エラー・イベントとは何ですか?
SDLA ツール ECC エラーのカウント方法