PC 服务器的 RAS 能力

曾经被问过很多次这样的问题:PC 服务器的可靠性到底是怎样的? 能否给出一个可用率数值?

这问题说来话长,而且也算不上是什么好问题,当然这里面有非常值得琢磨的地方,那就是 PC 服务器的 RAS 能力到底如何? 只有弄清楚这一点,才会明白在 PC 服务器计算能力已经如此强大的今天,为什么昂贵的小型机依然有市场。在服务器选型的时候才不会拍脑袋做决策。

我们说到 RAS ,也就是 Reliability 、Availability 以及 Serviceability,实际上很多人会认为前两者是一回事,至少提问的时候可能同时说的是这两者。对于多数 PC 服务器厂商来说,宣传页面上也只会写 Availability 的一些指标,对另外两点则选择性的回避? 为什么? 因为做不到高端服务器的 RAS 能力,而 RAS 能力实际上是需要成本的(硬件冗余成本、专有技术的成本),但这个问题似乎是很多用户选型的时候忽略的一点,很多人更愿意看重性能、性价比之类的指标,当然这也没错。

现在 PC 服务器宣称的卖点主要集中在内存上,比如内存的 ECC 特性(最基本的),Spare Row、ChipKill、Single Device Data Correction (SDDC)等,其中 ChipKill 是 IBM 的专利技术,主要用在高端服务器上。根据 Google 与一些机构的合作研究表明,内存错误率其实比想象中的要高(refer),这是个很有参考价值的信息。实际上,尽管有的 PC 服务器可能提供了很多内存相关的特性,但默认未必是激活的,这一点要注意。

高端设备的 RAS 能力比较,至少要看看 System 级别的 RAS 特性、CPU RAS 特性、内存 RAS 特性、I/O RAS 特性 等方面,如果有虚拟化的需求,还要关注一下 Application/Partition RAS 特性(refer)。这些都是卖点,当然,很少有销售人员懂得如何向用户宣传这一点。

即使是有了最好的设备,如果不能充分利用,其实也和普通 PC 服务器没啥区别。而对于绝大多数互联网应用来说,高端服务器也是高射炮打蚊子。

最后补充一点,充分利用带外管理能力是运维人员应该具备的基本意识。什么是”带外管理”请使用避难到香港的 Google 来搜索。

EOF

附:Dell PowerEdge 服务器激活内存 RAS 特性的指导文档

此文作者:, 位于 Arch 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

11 thoughts on “PC 服务器的 RAS 能力

  1. myflywhale

    怎么欲言又止的。。。
    我补充一点:高端服务器之所以还有市场。跟习惯有关。习惯的力量是强大的。
    另外,对IT部门来讲,预算并不总是越节约越好。大家总要吃饭的。
    就算是革命,也需要一个过程。

    Reply
  2. 达内

    RAS是衡量服务器的标准之一,但是只是其中一个的方面,我以前考虑这方面比较少,希望博主能再写写这方面的文章

    Reply
  3. fuhao1013

    我们公司普遍用的DELL服务器,确实没关注过服务器RAS这块功能,跟楼上几位有疑问的兄弟一样,我也对此功能对服务器性能或是稳定性的提升有多少用处不清楚,希望楼主今后多介绍下这方面的知识。我们作为小公司肯定是希望设备能尽其所能地提高使用率的。

    Reply
  4. fuhao1013

    这里所说到的“带外管理”对我来说是个新名词,刚才看了下维基百科对其的解释说明,相对应的有个“带内管理”,看来我们平时用得多的都是“带内管理”了,我的理解的话,使用VPN的话应该是算“带外管理”的一种方式吧,如有错误请指正,谢谢!

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *