HA - DBA Notes · 闲思录

曾经被问过很多次这样的问题：PC 服务器的可靠性到底是怎样的? 能否给出一个可用率数值?

这问题说来话长，而且也算不上是什么好问题，当然这里面有非常值得琢磨的地方，那就是 PC 服务器的 RAS 能力到底如何? 只有弄清楚这一点，才会明白在 PC 服务器计算能力已经如此强大的今天，为什么昂贵的小型机依然有市场。在服务器选型的时候才不会拍脑袋做决策。

我们说到 RAS ，也就是 Reliability 、Availability 以及 Serviceability，实际上很多人会认为前两者是一回事，至少提问的时候可能同时说的是这两者。对于多数 PC 服务器厂商来说，宣传页面上也只会写 Availability 的一些指标，对另外两点则选择性的回避? 为什么? 因为做不到高端服务器的 RAS 能力，而 RAS 能力实际上是需要成本的(硬件冗余成本、专有技术的成本)，但这个问题似乎是很多用户选型的时候忽略的一点，很多人更愿意看重性能、性价比之类的指标，当然这也没错。

现在 PC 服务器宣称的卖点主要集中在内存上，比如内存的 ECC 特性(最基本的)，Spare Row、ChipKill、Single Device Data Correction (SDDC)等，其中 ChipKill 是 IBM 的专利技术，主要用在高端服务器上。根据 Google 与一些机构的合作研究表明，内存错误率其实比想象中的要高（refer)，这是个很有参考价值的信息。实际上，尽管有的 PC 服务器可能提供了很多内存相关的特性，但默认未必是激活的，这一点要注意。

高端设备的 RAS 能力比较，至少要看看 System 级别的 RAS 特性、CPU RAS 特性、内存 RAS 特性、I/O RAS 特性等方面，如果有虚拟化的需求，还要关注一下 Application/Partition RAS 特性(refer)。这些都是卖点，当然，很少有销售人员懂得如何向用户宣传这一点。

即使是有了最好的设备，如果不能充分利用，其实也和普通 PC 服务器没啥区别。而对于绝大多数互联网应用来说，高端服务器也是高射炮打蚊子。

最后补充一点，充分利用带外管理能力是运维人员应该具备的基本意识。什么是”带外管理”请使用避难到香港的 Google 来搜索。

–EOF–

附：Dell PowerEdge 服务器激活内存 RAS 特性的指导文档。

前几天 MySQL 站点上有个为期 12 天以 Scale-Out 为主题的活动，列举了不少成功的案例，每个页面有下方的这个图很引人注意：

注意到主备服务器之间的 HA 是通过 DRBD(Distributed Replicated Block Device)做到的。DRBD 号称是 “网络 RAID”，开源软件，由 LINBIT 公司开发，MySQL 与 LINBIT 达成了合作关系，大张旗鼓的搞了这个 “12 天 Scale-Out” 活动也是这个商业合作驱动的吧。DRBD 助力 MySQL, 号称可以得到四个 9 的可靠性，这不低于任何一款商业数据库软件了。

DRBD 的出现的确对 MySQL 集群的可用性有很大提高。而且，有独到的特点，非常适合面向互联网的应用。因为是在存储层的数据块同步，很容易的做到应用层的 IO 负载均衡(备机承担一定的读压力)，不但支持数据库失败接管，还能做到 IP 失败接管，接管时间小于 30 秒，真是穷人的绝佳集群解决方案(相比 Oracle 下的一些方案，比如 eBay 采用的方案，性价比还是不错的)。国外已经有很多成功的实现案例，国内的 Web 2.0 站点不知道是否已经有人在用，在这里推荐一下。更为有趣的是，已经有人通过 DRBD 来实现 Oracle 的另类集群。

怪不得前一阵子已经有开源爱好者开始宣称类似 “RAID即将成为过去式” 的激进言论。

–EOF–

创业感悟，以及关于互联网的记忆碎片

Tag Archives: HA

PC 服务器的 RAS 能力

DRBD 提升了 MySQL 的集群能力