PC 服务器的 RAS 能力

曾经被问过很多次这样的问题：PC 服务器的可靠性到底是怎样的? 能否给出一个可用率数值?

这问题说来话长，而且也算不上是什么好问题，当然这里面有非常值得琢磨的地方，那就是 PC 服务器的 RAS 能力到底如何? 只有弄清楚这一点，才会明白在 PC 服务器计算能力已经如此强大的今天，为什么昂贵的小型机依然有市场。在服务器选型的时候才不会拍脑袋做决策。

我们说到 RAS ，也就是 Reliability 、Availability 以及 Serviceability，实际上很多人会认为前两者是一回事，至少提问的时候可能同时说的是这两者。对于多数 PC 服务器厂商来说，宣传页面上也只会写 Availability 的一些指标，对另外两点则选择性的回避? 为什么? 因为做不到高端服务器的 RAS 能力，而 RAS 能力实际上是需要成本的(硬件冗余成本、专有技术的成本)，但这个问题似乎是很多用户选型的时候忽略的一点，很多人更愿意看重性能、性价比之类的指标，当然这也没错。

现在 PC 服务器宣称的卖点主要集中在内存上，比如内存的 ECC 特性(最基本的)，Spare Row、ChipKill、Single Device Data Correction (SDDC)等，其中 ChipKill 是 IBM 的专利技术，主要用在高端服务器上。根据 Google 与一些机构的合作研究表明，内存错误率其实比想象中的要高（refer)，这是个很有参考价值的信息。实际上，尽管有的 PC 服务器可能提供了很多内存相关的特性，但默认未必是激活的，这一点要注意。

高端设备的 RAS 能力比较，至少要看看 System 级别的 RAS 特性、CPU RAS 特性、内存 RAS 特性、I/O RAS 特性等方面，如果有虚拟化的需求，还要关注一下 Application/Partition RAS 特性(refer)。这些都是卖点，当然，很少有销售人员懂得如何向用户宣传这一点。

即使是有了最好的设备，如果不能充分利用，其实也和普通 PC 服务器没啥区别。而对于绝大多数互联网应用来说，高端服务器也是高射炮打蚊子。

最后补充一点，充分利用带外管理能力是运维人员应该具备的基本意识。什么是”带外管理”请使用避难到香港的 Google 来搜索。

–EOF–

附：Dell PowerEdge 服务器激活内存 RAS 特性的指导文档。