インテル® サーバー・ボードおよびインテル® サーバー・システムでの Fault Basilent Booting (FRB) の仕組み

ドキュメント

製品情報 & ドキュメント

000007197

2023/12/11


症状:

  • FRB とは何ですか?
  • それが機能しているかどうかはどうすればわかりますか?
  • インテル® サーバーでのフォールト・レジリエント・ブート。


ソリューション:

フォールト・レジリエント・ブート

BMC (ベースボード管理コントローラー) は、FRB レベル 1、2、および 3 を実装しています。デフォルトのブートストラッププロセッサ(BSP)がブートプロセスを完了できない場合、FRBは代替プロセッサを使用して起動を試みます。

  • FRB レベル 1 は、POST 中に検出された BIST 障害から回復するためのものです。この FRB リカバリーは、BIOS コードで完全に処理されます。
  • FRB レベル 2 は、POST 中のウォッチドッグ・タイムアウトからリカバリーするためのものです。FRB レベル 2 のウォッチドッグ・タイマーは、BMC に実装されています。
  • FRB レベル 3 は、ハード・リセット時または電源投入時のウォッチドッグ・タイムアウトからリカバリーするためのものです。これにより、このレベルの FRB のハードウェア機能が提供されます。

FRB-1

マルチプロセッサ システムでは、BIOS はアプリケーション プロセッサをマルチプロセッサ(MP)テーブルと ACPI APIC テーブルに登録します。BSP によって開始されるときに、アプリケーション・プロセッサー (AP) が一定時間内に初期化を完了できなかった場合、そのプロセッサーは機能していないと見なされます。アプリケーション・プロセッサーが BIST にエラーを起こした、または機能しないことを BIOS が検出すると、BMC にそのプロセッサーの無効化を要求します。

BMC はプロセッサーを無効にしている間にシステムリセットを生成します。BIOS は、次の起動サイクルで障害が発生したプロセッサーを認識しません。障害のある AP は MP テーブルにも ACPI APIC テーブルにもリストされず、OS からは見えません。BSP が BIST に失敗したことを BIOS が検出すると、現在のプロセッサーを無効にする要求を BMC に送信します。使用可能な代替プロセッサーがない場合、BMC はスピーカーのビープ音を鳴らし、システムを停止します。BMC が別のプロセッサーを検出できた場合、システム・リセットにより、BSP の所有権はそのプロセッサーに移転されます。

FRB-2

BMC の 2 番目のウォッチドッグ・タイマー (FRB-2) は BIOS によって約 6 分間に設定され、システムが BIOS POST を確実に完了するように設計されています。FRB-3 タイマーが無効になる前に FRB-2 タイマーが有効になり、 保護されていない 時間枠が防止されます。POST の終了間際にオプションROM が初期化される前に、BIOS は BMC の FRB-2 タイマーを無効にします。

システムに 1 GB を超えるメモリがあり、ユーザーがメモリのすべての DWORD をテストすることを選択した場合、この構成ではメモリ テストに 6 分以上かかることがあるため、拡張メモリ テストを開始する前にウォッチドッグ タイマーが無効になります。POST 中にシステムがハングした場合、BIOS は BMC のタイマーを無効にしません。これにより、非同期システムリセット (ASR) が生成されます。

FRB-3

最初のタイマー(FRB-3)は、システムがハードリセット(通常は約5秒)から抜け出すたびにカウントダウンを開始します。BSP が正常にリセットされて実行が開始されると、BIOS はFRB_TIMER_HLT信号 (GPIO) のアサートを解除して BMC の FRB-3 タイマーを無効にし、システムは POST の処理を続行します。BSP が BIOS コードの取得または実行に失敗したためにタイマーが期限切れになった場合、BMC はシステムをリセットし、障害のあるプロセッサーを無効にします。

システムは、BIOS POST が BMC の FRB-3 タイマーの無効化を通過するまで、BSP の変更を続けます。BMC は正常なプロセッサーの検出に失敗した場合、スピーカーからビープ音を鳴らします。システムのリセットまたは電源を入れ直した際に、すべてのプロセッサーでサイクルするプロセスが繰り返されます。