Quantcast
Channel: 英特尔开发人员专区文章
Viewing all articles
Browse latest Browse all 583

英特尔® 至强® 处理器家族具备全新的可靠性、可用性和可服务性 (RAS) 特性

$
0
0

简介

英特尔® 至强® 可扩展处理器家族为全部产品线(SKU 将命名为铜牌、银牌、金牌和铂金)推出了多项全新的可靠性、可用性和可服务性 (RAS) 特性。这些新增特性将支持平台从不良数据使用中恢复、检查不良指令并重新尝试交易以进行恢复,从而显著增强最终用户体验。该处理器还提供一种创新方法以标记出故障 DRAM 设备,从而帮助延长 DIMM 的使用寿命。

本篇宣传材料将介绍自适应双 DRAM 设备更正 (ADDDC)、高级错误检测与纠正 (AEDC)、本地机器校验异常 (LMCE) 等特性。

自适应双 DRAM 设备更正 (ADDDC)

英特尔® 至强® 处理器推出了一种创新方法,用于管理 DDR4 DRAM DIMM 可能在产品使用寿命期间诱发的错误。ADDDC 在运行时部署,可动态标记出故障的 DRAM 设备,并持续在 DIMM 上提供 SDDC ECC 覆盖,进而延长 DIMM 的使用寿命。这一操作通常在 DRAM Bank 和/或 Rank 的精细化过程中进行,以便对整个系统性能产生的影响达到最小。

随着 ADDDC 的出现,内存子系统通常配置为以性能模式运行。当 DRAM 设备的更正数量达到目标阀值,所识别的故障 DRAM 区域将在 UEFI 运行时代码的帮助下自适应地被放置在锁步模式下,以便从 ECC 中标记出 DRAM 设备的故障区域。如果是 ADDDC,高速缓冲行 ECC 将持续覆盖单个 DRAM (x4) 错误检查并将纠错算法运用于半字节。

根据处理器 SKU 的不同,每个 DDR4 渠道可支持一至两个区域,从而在 Bank 和/或完整 Rank 的粒度上管理一至两个故障 DRAM。由于这种操作存在动态性质,因此只有在 DRAM 设备被检测出故障时,系统上的锁步操作才会产生较大的性能影响。目前,锁步操作对系统性能产生的总体影响可反映出渠道中故障 DRAM 设备的数量,最坏的情况是每个 DDR4 渠道中出现两个故障 Rank。

银牌/铜牌 SKU 能够在 Bank 的粒度上提供自适应数据更正 (ADC [SR]) 功能,而铂金/金牌 SKU 则能够在 Bank 和 Rank 的粒度上提供自适应双 DRAM 设备更正 (ADDDC [MR]) 功能,还具备其他硬件功能以支持设备标记。

高级错误检测与纠正 (AEDC)

AEDC 利用专用剩余代码故障检测校验来识别和更正处理器可能在执行引擎(阵列和逻辑)中的内部通道中遭遇的错误,从而提高内核执行引擎中的故障覆盖率。AEDC 将试图重新运行指令以纠正错误。如果重新运行指令成功,将视作已纠正事件;否则将记录和发出严重 MCERR 信号。

处理器中的 AEDC 技术是独立的。它使用现有的错误信号和记录来标记错误,并且不需要操作系统提供任何特定协助就可完成这一操作。所有产品 SKU 均支持 AEDC 技术。

本地机器校验异常 (LMCE)

LMCE 是一项全新的 RAS 操作,可将对不良数据使用的处理定位在正基于不良数据执行的内核上。通过以这种方式实现本地错误处理,系统可防止多机器校验情况的出现,并提高 MCA 恢复 — 执行路径的性能。

通过实现本地错误信号发送,遭遇不良数据的各个远程内核都可调用自己的 LMCE,尝试在不被其他内核操作干扰的情况下进行恢复。LMCE 可帮助在多种极端情况下完成恢复,还可完善成功恢复的流程。

MCA 恢复 — 执行路径

MCA 恢复 — 执行路径特性支持系统在处理器无法纠正内存子系统中的数据错误的情况下持续运行,并支持软件层(操作系统、VMM、DBMS 和应用)参与系统恢复。

如果出现 SRAR 错误类型也可进行恢复,而且机器校验架构协议要求将机器校验错误 (MCERR) 广播至所有线程,并建立一个汇合点。如果临近的内核相互使用不良数据,每个发送 MCERR 错误信号的线程都可创建导致意外系统关闭的多 MCERR 情况。

LMCE 可帮助处理这种情况,具体方法是在本地将 MCERR 信号仅发送至正在使用数据的线程,从而支持每个线程从使用的不良数据情况中恢复。协议中的这种变化要求操作系统同样知道 LMCE 就绪型平台,并选择支持 LMCE 流程。

如何启用 LMCE

LMCE 支持要求处理器、UEFI 代码和操作系统支持该操作。默认情况下该操作处于禁用状态,只有每个堆栈上的组件都可用时才可启用该操作。使用 LMCE 需首先完成以下步骤:

  1. 硬件指出 SKU 支持 LMCE 的 UEFI 代码。
  2. 在固件优先的模式中,UEFI 代码必须了解 LMCE 流程并发送平台就绪信号,以支持针对该操作系统的流程。
  3. 操作系统需了解 LMCE 流程,并检查平台就绪状态以支持 LMCE。如果操作系统不知道这一特性,那么 LMCE 将保持 OFF 状态。

更多关于 LMCE 的信息请参阅英特尔® 64 和 IA-32 架构软件开发人员手册

结论

英特尔至强处理器将面向计算行业内各细分市场持续增强系统 RAS 特性产品。充分利用不同处理器 SKU(铜牌、银牌、铂金或金牌 SKU)的英特尔® 至强® 平台均可获益于这些增强功能。这些全新功能意味着可通过创新的错误检测和重新尝试机制、更加完善的恢复方法,以及性能经过优化的内存子系统(可延长 DDR4 DIMM 的使用寿命),进一步提高系统的可靠性和可用性。

参考资料

  1. 英特尔® 可靠运行技术
  2. 如何运用面向错误检测的剩余代码
  3. 错误代码检测与更正

Viewing all articles
Browse latest Browse all 583

Trending Articles