Tag Archives: 网站维护

一件事故看 BlogBus 的网站维护质量

在国内的 BSP 中, BlogBus 给我的印象是挺注重技术一家站点(比如搞一些搬家活动,虽然…但是还是会方便用户的)。不过从最近的数据恢复事故能看出来还是网站维护质量存在挺大的问题。
BlogBus 的公告板上写到:

事故原因:BlogBus于7月1日增加了两台新服务器用以解决网站负载问题,7月20日发现一台服务器可能由于Raid卡或硬盘出现故障,导致一个3G多的数据库文件损坏,致使7月1日至7月19日用户日志数据丢失。
解决办法:由于BlogBus采用静态页面发布,所有已发布日志均生成静态页面保存,所以丢失数据可以由静态页面导回数据库——就是说丢失的数据可以反向导回恢复。

让我不敢相信, 将近 20 天的时间内,数据库没有备份?! 难道他们的数据库是不做备份? 解决办法是静态页面导回数据库,不知道要耗费多少人力劳动。就算是技术人员写脚本,恐怕也不是那么省时的事情。估计最后可能仍然不可避免的会丢掉少量用户的元数据。
我曾经感慨过 Web 2.0 应用服务稳定性仍然任重道远,现在看起来,Web 2.0 应用服务的可靠性也会逐渐成为用户担心的问题。
备份! 备份!
-EOF-

可用性级别与停机时间

一个网站 99.99% 的可用性是什么概念 ? 每年停机时间不能超过 53 分钟, 平均下来, 每个季度 13 分钟多一点点. 其他常说的几个级别见下图:
网站的维护级别
对于国内的网民来说, Google 的可用性应该是最低的. 从用户的角度上看, 恐怕连 95.0% 都达不到. 当然这不是 Google 的错.
IM 工具的可用性程度也不高, 比如 MSN Messenger 经常的掉线、消息发不出去;虽然用户也怨声载道, 但是没看到谁因为登陆不上 MSN Messenger 而转用别的 IM 的。个人估计微软的 MSN 对于 普通用户来说可用程度也就是 比 95.0% 好一点.
Web 2.0 的站点可用级别也比较低的. 可用级别最高的或许能达到 99.9%. Del.icio.us 去年就连续断电了几次, Bloglines 出来过多次水管子工,而豆瓣也出现过几次停机故障. 因为用户黏度在那里, Web 2.0 站点还真不用担心那么一会儿停机会丢失用户的问题, 除非真是拿到了花不完的风险投资,否则投入大笔费用来提高一个 “9” 的可用能力没有太大必要。
电子商务站点应该是很讲究可用性级别的, 联机事务处理能力要求相对较高, ‘1 秒钟几十万上下’, 提高可靠性的手段无非是高投入–通过大量软件硬件的冗余、更多的技术更为精湛的维护人员.
需要什么样的维护级别 ? 当然不是拍脑袋想出来的, 我想任何一个理性的公司都应该考虑投入产出比, 不考虑实际应用类型而盲目的追求高可用性不可取.
前几天和朋友聊天说起来,

A: "你上个季度系统的稳定性怎么样 ? "
B: "四个 9 阿"
A: "这么强?"
B: "嘿嘿, 虽然没啥防范措施, 凑巧没有宕机而已"

把这个当作笑话吧…

EOF

更新: 纳斯达克的可用性 99.98 ,基本上是微软软件构建的。eBay 可用性,披露出来的数据是 99.94%.