Tag Archives: 可用性

Linux 服务器可用性技巧关注与积累

好多 Windows 平台的 DBA 一定比较烦操作系统升级时 “重启动才能生效” 这个问题,可能就是因为这个原因,可能没多少人愿意管理 Windows 平台的数据库。其实 Linux 有的时候也有类似的毛病,对 Kernel 打 Patch 基本也要重启动操作系统,除非你不去理它。而最近 Slashdot 一则关于 Linux 的新闻值得关注, Ksplice: Rebootless Linux kernel security updates,对于非常关注系统可用性的 DBA 来说,这是个很关键的技术改进。

提高可用性技术,前期细致周密的规划是重要一环。比如大文件系统的 fsck 问题,默认情况下达到一定 mount 次数或者超过一定时间,系统会自动启动 fsck 检验操作。而一个运行一段时间的 Linux Server 如果崩溃 reboot 后,文件系统校验时间漫长的叫人绝望。如果最初对这个问题进行预处理,即可避免不必要的停机时间。

另外维护中能尽量积累那些”可用性高”的技术或技巧也是必不可少的。比如 Kernel 重新读取分区表的问题,Fdisk 命令是搞不定的,而这里提到的 partprobe 命令 刚好派上用场。

以前我也记录过类似 Linux 如何不重启而识别新增的 LUN 的话题,积少成多,也就有用了。

EOF
Updated:

Dreamhost 又掉链子了

Dreamhost 掉链子其实不是一次两次了,所以一般的服务不能访问也就是忍了,今天一口气停了 6 个小时,有些过份。
最开始看 DreamhostStatus.com 上说这是一次 Planned Power Outage,将影响三个小时。后来又说 核心路由器受到影响,又影响了3个小时。Dreamhost 维护的时候还总是喜欢挑选那边的凌晨,恰恰是我们这边的白天。
SiteUpTime 的监控是有 6 小时 43 分不能访问本站。考虑到15分钟间隔的监控频率,实际的宕机时间或许更长。这是监控到的站点可用性数据:

Since: August 11, 2006
Outages: 20
Total Uptime: 99.543%

只要可靠性能达到 99%,我忍。Dreamhost 的性价比仍然是我认为比较好的,何况前几天刚给我解决掉下一年的托管费呢…
小声吆喝一下,要想上 Dreamhost 的贼船,优惠代码: FENNG
EOF
另外,Blog 的 TrackBack 打开了