作者文章: Fenng

Red Hat 企业版 Linux 的一些改进

Red Hat 正式发布了企业版 Linux 5.5 版本。原以为这个版本发布不会有太多新鲜的内容,读了一下 Release Notes,还是有不少值得关注的地方。

注意其中有一句话,一定要关注一下,每个逻辑 CPU 推荐至少需要 1GB 的内存。为什么?

这一版本对于虚拟化环境中使用 HugePages 有所改进。系统设定使用 HugePages 之后,Libvirt(虚拟化 API) 针对 Virtual Guest Memory 自动使用 HugePages 。需要技术人员考虑这对虚拟化环境中的 DB 有什么影响?

改进了 Completely Fair Queuing (CFQ) I/O 调度器在某些应用场景下的性能。很多 Linux 用户都不太注意默认调度器的问题。性能上其实还是会有很大差异的。知其所以然才好。

关于 SystemTapValgrind 的引入对于系统管理员来说,是个好消息。前者有助于性能调查,后者有助于内存泄漏分析。

阅读 Release Notes 是个很有趣的事情,技术人针对自己感兴趣的领域可以多关注一些类似产品的特性,用其所长,技术选型上应该采取主动一点的态度。

EOF

数据库技术大会以及我的演讲主题

今天晚上和几个同事飞赴北京,参加明天开始的 2010 数据库技术大会

在明天(4月2号)下午我将做一个演讲,题目有点偏,关于”数据库与用户体验“。我相信在此之前,没有谁会做这样的话题,所以这个话题在做数据库的技术人员眼里有点陌生或是有点忽悠。我的出发点是这样的:可能绝大多数 DBA 都会认为自己的工作和用户体验(User Experience) 是风马牛不相及的事情。实际情况并非如此,DBA 很多关键的工作都会和用户体验相关联,理解到其中的细微之处,能让 DBA 在技术团队发挥更大的作用,创造更大的价值。希望我的演讲到时候会对一些有困惑的朋友真的有帮助。

应主办方要求,演讲时间将控制在 45 分钟左右,所用的 PPT 几经修改已经定稿。在会后我将尽快分享到 SlideShare 上,并将做一个简洁一点的描述,核心的内容可能用较短的篇幅即可说清。

这次会议,阿里巴巴集团旗下各家子公司去了不少同事,当然,都是带着演讲主题去的,我对他们即将分享的技术话题也很期待。

另外,支付宝当前的 DB 团队仍然需要资深 DBA。如果有哪位朋友有意向来杭州发展,在会场我们不妨沟通一下。

EOF

最近事情比较多,这里更新较少。再过一段时间,我会有机会做更多的总结,与朋友们分享一些心得。

此文作者:, 位于 Database 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

PC 服务器的 RAS 能力

曾经被问过很多次这样的问题:PC 服务器的可靠性到底是怎样的? 能否给出一个可用率数值?

这问题说来话长,而且也算不上是什么好问题,当然这里面有非常值得琢磨的地方,那就是 PC 服务器的 RAS 能力到底如何? 只有弄清楚这一点,才会明白在 PC 服务器计算能力已经如此强大的今天,为什么昂贵的小型机依然有市场。在服务器选型的时候才不会拍脑袋做决策。

我们说到 RAS ,也就是 Reliability 、Availability 以及 Serviceability,实际上很多人会认为前两者是一回事,至少提问的时候可能同时说的是这两者。对于多数 PC 服务器厂商来说,宣传页面上也只会写 Availability 的一些指标,对另外两点则选择性的回避? 为什么? 因为做不到高端服务器的 RAS 能力,而 RAS 能力实际上是需要成本的(硬件冗余成本、专有技术的成本),但这个问题似乎是很多用户选型的时候忽略的一点,很多人更愿意看重性能、性价比之类的指标,当然这也没错。

现在 PC 服务器宣称的卖点主要集中在内存上,比如内存的 ECC 特性(最基本的),Spare Row、ChipKill、Single Device Data Correction (SDDC)等,其中 ChipKill 是 IBM 的专利技术,主要用在高端服务器上。根据 Google 与一些机构的合作研究表明,内存错误率其实比想象中的要高(refer),这是个很有参考价值的信息。实际上,尽管有的 PC 服务器可能提供了很多内存相关的特性,但默认未必是激活的,这一点要注意。

高端设备的 RAS 能力比较,至少要看看 System 级别的 RAS 特性、CPU RAS 特性、内存 RAS 特性、I/O RAS 特性 等方面,如果有虚拟化的需求,还要关注一下 Application/Partition RAS 特性(refer)。这些都是卖点,当然,很少有销售人员懂得如何向用户宣传这一点。

即使是有了最好的设备,如果不能充分利用,其实也和普通 PC 服务器没啥区别。而对于绝大多数互联网应用来说,高端服务器也是高射炮打蚊子。

最后补充一点,充分利用带外管理能力是运维人员应该具备的基本意识。什么是”带外管理”请使用避难到香港的 Google 来搜索。

EOF

附:Dell PowerEdge 服务器激活内存 RAS 特性的指导文档

此文作者:, 位于 Arch 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

我所体验到的中国电信网上营业厅

昨天出差回来,发现家里的宽带因为欠费被停了。浏览器提示页面说宽带服务已经到期,可以在线付费或者到营业厅缴费云云。

初探

印象中电信宽带在服务到期之前会提示,这次什么提示都没有,所以就拨 10000 号客服电话询问,拨通后等了很久,人工服务才接通,客服告知,因为到期转成包月的服务了,就不提示,而且已经欠费。如果续费的话,必须先付清欠费才能续下一年的年费。

考虑到自己也算是做互联网的,而且人家居然还提供在线付费的功能。那就尝试一下吧,也省得跑营业厅了,没想到这是噩梦的开始。点击在线充值,选择地区,输入自己的号码,这地方没有别的提示,我只好认为就是我的宽带账户,填好,然后跳到新的页面,首选是工行网银,因为自己只有招行的网银,所以点击”其它网银/百事通卡支付”,弹出页面提示:

不支持的产品类型:99,请确认你输入的号码(包括地区)

这个提示我猜测了半天没明白到底要说什么,只好重新回到开始的页面,反复数次,还是如此,难道是浏览器的问题?换成 IE,我用的是 IE8,依然是这样的错误。莫非是 IE6 才能兼容? 我特地下载了一个 IETester,折腾了一下还是不行。

再探

又拨了一次 10000 号,这次等了六分钟终于接通了,我假装成不懂网络的用户,客服一步一步教我怎么做。首先要登录到网上营业厅(不登录还没有用? 我心里暗想,果然刚才没这么做,笨啊),然后选择”我要支付”,然后选择地区,再选择号码。我在这里问,这个号码到底要我输入什么号码? 客服告诉我,就是你宽带帐户的号码。可是我刚才用了很多次也不行啊。客服又改口,不对,应该是你绑定的座机电话的号码,我当时晕倒。心想,这次估计不会出问题了。遂挂断电话,继续折腾。

这次果然,用我家绑定的座机的号码–这个宽带办理的时候是和家里的电话一起办的套餐。终于提示选择使用哪家银行了,好,用招行,发现无法登录,莫非是网络不通? 没办法,只好把自己的无线网卡插上,续费,完毕(后来证实服务停掉也是可以使用指定网银的)。

然后回到网上营业厅首页,一刷新,账户欠费为0了,去办理”宽带续费”。提示”如果你未办理宽带续包业务,请先点击业务办理”,”如果你已经完成业务办理,则请选择在线支付”。点击”立即办理”,出现”中国电信股份公司浙江分公司业务申请协议”页面,确认同意,然后选择定制套餐,选好,确认。然后? 发现不能在线支付。而且发现似乎要等一个”受理结果”才可以。天啊,这大半夜的,难道还要拨打 10000 号找客服? 这次倒好,不管怎么等,客服人工服务就是接不通。

沟通

这时候我已经忍无可忍了,在我的 Twitter微博 上各自发了数条信息声讨这这糟糕的网上营业厅,发现这事情很多朋友都有同感,大家都对电信营业厅的用户体验相当有怨言。

有点累,休息了一会儿回来继续折腾。重新登录到网上营业厅,一看,差点晕倒,刚才显示欠费 329.68 元,付费之后,现在显示欠费 322.95 元。这到底怎么回事呢? 莫名其妙。想了半天,或许是因为内部数据同步问题吧(后来有该项目的承包商公司的人回复说:真正的原因是:实际欠费322.95,欠利息 6.73元,合计329.68。当你付款进入系统时,先扣利息,再扣欠费,有两次余额。天啦,这样的解释给用户意义在哪里? 即使是内部人员也未必有多少人理解是怎么回事吧?)。我在 Twitter 上的抱怨有朋友看到,给我发消息告诉我这是因为”百事通平台和CRM对接兼容导致“,预计要等到 4 月份会解决。我最关心的还是怎么能最快开通我的宽带,这位朋友说看看能否直接帮我处理一下。过了一会儿,一个网上营业厅的小伙子用自己的电话打过来,和我说了半天,最后告诉我,要等10000号处理了我的业务申请之后,才能生成一个工单,有了这个工单,我才能缴费。正常时间要 1-2 个工作日,他明天会帮我催。

新浪围脖上有人告诉我中国电信客户服务部总监张女士也在,直接发了条私信过去,接着通过私信沟通了一下,张女士也相当的坦诚,”服务方面要改进的很多。包括网厅的优化、宽带续费问题等等”,最后我留了电话愿意提供进一步的反馈。

这时我在微博质疑 10000 号到底是怎么回事,为什么到了晚上拨打不进去? 到底有没有人值班? 过了一会儿,张女士给我打来电话,说是可以拨进去的,要我再试试。本来想休息去了,既然这样,我就再测试一次,再拨,过了7分钟,依然告诉我”人工繁忙,继续等待请按2″…

看了一会儿Twitter和新浪围脖上网上网友的评论和反馈,不乏精辟论断,比如”要是有他们推广业务的那个劲头,这种事就会少很多”。也通过反馈信息进一步了解了电信网上营业厅现状的由来。只是,网厅的确有很多地方要改进才是。

结局

今天早晨,还在睡梦中的我接到 10000 号客服电话,直接给了我一个 18 位的工单号,终于付款成功了。过了 10分钟,路由器重新拨号,宽带恢复。

今天晚上九点半,接到浙江电信 10000 号客服经理的电话,向我表达了歉意,我对昨天的使用感受做了反馈,当然是不怎么留情面的批评了一下垃圾的网站功能。

后记

这次的事情,反映出来的中国电信内部信息各个子系统环节衔接的混乱令人发指,网站基本谈不上什么用户体验,当然网友也告诉我,这还不算是最差的。就事论事,一系列的接触的过程中,电信人的态度都还是不错的,对待批评倒是有则改之(只是不知道这样的声音是否能传递给公司管理层)。此外,能够通过微博听取反馈相当令人赞赏

有些地方,可能仅仅是一行文字就可以描述的更加准确,为什么就不从使用者的角度考虑一下呢? 用户体验,不需要高深的东西,只需要常识就够了。

Twitter 、新浪微博发挥了起到了很重要的传播和反馈作用,进而促进平等对话

如果有其他的选择的话,我当然不想用现在任何一家宽带公司的服务,但是,没得选择,所以我们只好忍受莫名其妙的提价,只好忍受 DNS 劫持… 不过,既然我是你的用户,”你不给我一个说法,我就给你一个说法“,作为用户,我们理应对服务提供商提出一些最基本的要求。这就是我这次较劲的目的。

EOF

后记:今天和电信的有关人员做了进一步沟通,得知电信内部对此类事件也比较重视,当然,类似电信这样的企业全面转向互联网思维可能也需要时间。期待未来的服务能更好一点吧。