作者文章: Fenng

3PAR 存储架构解析

对于国内存储市场来说,3PAR 是不折不扣的后来者。也是个相对陌生的存储产品,以至于其竞争对手的人员甚至都不知道这家公司已经杀入中国市场。

3PAR 在 1999 年成立,几个创始人主要出自 Sun ,前身叫作 3PARdata , 2008 年上市。要知道在存储技术领域竞争还是比较激烈的,EMC / HDS 等控制着高端存储的主要市场,3PAR 能突破技术壁垒并最后成功上市,没两把刷子那是绝对做不到的。

InSpire 硬件结构

3PAR 背板采用全网状的连接结构,每个控制器节点之间高速直连。因为是全网状的,所以基本上一个链路坏掉只影响直连的两个节点的通信,对其它节点无影响。每个控制器节点内置一块硬盘,用于操作系统安装。控制器节点最多可以扩展到 8 个,是 3PAR 存储最核心的组件。

相比之下,HDS 架构采用全光线交换方式(Universal Star Network),而 EMC 是采用直连矩阵方式(新一代产品采用虚拟矩阵架构–Virtual Matrix ,其实已经放弃了直连矩阵架构了)。这些连接方式的孰优孰劣历来是厂商攻击竞争对手的着眼点,能否最大限度发挥性能是用户最需要关心的。

3Par_full-MESH.jpg

3PAR 针对 I/O 指令和数据移动使用不同的计算芯片。I/O 指令(元数据/控制Cache)用 Intel 的芯片,而 数据移动/Cache 则使用专门设计的 ASIC 芯片来完成。

3Par_Controller_Node_IO.jpg

因为有专门的硬件 ASIC 芯片用于 RAID 5 XOR 校验,3PAR 号称有了其第三代 ASIC 芯片,实现的 RAID 5 是业界最快的,甚至 SATA 盘也能有不错的性能表现。(从 Oracle 公司测试的数据来看,和 RAID 10 速度的确相差无几。)

InForm 操作系统软件与虚拟化

3PAR 的操作系统叫 InForm,最初就是面向层次化的设计。与其他存储不同的是,3PAR 所有磁盘被分成 256MB 统一大小的小盘(Chunklet),可以根据需要用多个 Chunklet 组成 RAIDlet(逻辑磁盘)。因为这个独特的设计方式,3PAR 是可以很容易做到不同容量的磁盘混用,同一个 RAID 组里都可以有不同大小、不同转速的磁盘混用,这是其他存储做不到的。而且,所有的磁盘都可以利用,因为Hotspare Chunklet 以更小的单位分散在不同的磁盘上,也不再需要单独留热备盘。空间利用率可以更充分一些。 

3Par_3level_virtualization.jpg

多说一句,有这个冗余机制,3PAR 更换磁盘也是与众不同:直接抽磁盘盒子(一个盒子可是四块磁盘啊),我当初看到 3PAR 技术人员这么操作真是着实吓了一跳。

因为固定大小的 Chunklet 的存在,可以将 I/O 更为均匀的分散到多个磁盘上。

3Par_balance.jpg

对于熟悉Oracle 的朋友来说,会发现这和 ASM 的思想非常接近。因而也可以和 Oracle 数据库进行无缝集成:

3Par_Thin_Provision_Oracle_ASM.jpg

因为软件做得非常具有易用性,日常管理与维护远远没有其他高端存储那么复杂,新增磁盘这种事情,都是一行命令之后底层自动处理。其实在 Thin Provisioning 方面 3PAR 也是很值得一说的,比一些厂商的伪 Thin Provisioning 具体多了。限于篇幅,不赘述。

3PAR 在美国有很多金融证券行业的客户,也有 Web 2.0 行业的客户–MySpace 。在保证 I/O 响应在 10ms 以内的前提下,3PAR 的 IOPS 能力非常优异(这才是卖点,不难理解其客户多集中在证券、金融领域)。虽然有些厂商号称能得到更高的 IOPS ,但那是在 I/O 响应时间很差的情况下的数据。要说明的是,现在随着一些存储厂商在高端服务器上也支持 SSD ,未来几年如何还要再看。

前两年 3PAR 推行所谓 Utility Storage(功用存储) 理念,现在貌似改成敏捷存储了。说实话,我觉得敏捷存储真的挺适合的,3PAR 命令行批量创建 LUN 真的很让人感觉舒服。当然,也在宣传云存储和绿色存储的理念,那是题外话了。

3PAR 原来只做中高端市场,只有 T 这一个系列,现在也开始关注中低端市场了,推出了 F 系列的产品。软硬件体系基本没变,倒是没仔细看过。

(Note: 相关图片主要来自 3PAR 公开资料.)

EOF

此文作者:, 位于 Arch 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

微软创建 NT 之路

这段时间不喜欢写东西,倒是看了不少书。和 IT 有关的图书中,《观止-微软创建NT和未来的夺命狂奔》值得一读。虽说是写 IT 的书,倒是感觉比小说还有趣,所以拿到图书的那天是一口气读完。

这本书中大卫·卡特勒(David Cutler)是主角。这是个中国技术人员不那么熟知的软件巨匠(或许是因为这本书这么晚才翻译到国内吧)。因为 VMS 的成功,使得他被称为世界上最好的操作系统设计者,不过在他迈向更高的台阶的时候,DEC 居然终止了他的 Prism 项目,这实在是个无比愚蠢的决策,直接造成了卡特勒出走 DEC ,跳槽到微软。这也给我们一个启示:一个公司留不住人才的时候,这家公司必将走下坡路

如果换了我们,假设给足够多的钱,你会怎么做一个大项目? 很多人的答案或许是招人,招更多的人!不过牛人不一定有钱就能招来,还需要给足够多的空间与承诺。NT 是微软当时史无前例的大项目,即使是到了最后,也不过是200多人的开发团队。在这本书里你不会发现什么所谓管理一书,尽管项目做起来万分艰难,紊乱如麻,最后的成功也是顺其自然之事。没什么特殊的地方,似乎就是无招胜有招。致胜的关键还是在人,这是事情的根本。卡特勒本人具有敏锐的方向感,不过自己也承认管理集体软件创作团队不是容易的事情,”最理想的软件团队是一个人组成的”,他控制整个团队的节奏一致性,这有点像电影导演,当然,卡特勒也是杰出的演员–汇编能力已达化境。

五年的研发需要的忍耐和等待。盖茨作为老板,对技术前瞻性也是颇为自负的,居然很少插手,一方面是相信卡特勒的能力,另一方面也是盖茨的过人之处,有些事情,欲速则不达。要知道,在国内,很多大项目往往是大老板的动摇不定或者是过度干预才最终导致夭折的

卡特勒刚到微软的时候,不少 DEC 的旧将纷纷投靠过来,这帮家伙技术过人自然也自视甚高,对微软的公司文化格格不入,让盖茨和鲍尔默们一度很头疼。解决的办法倒也巧妙,把微软其他技术团队最牛的史蒂夫·伍德放进来和”卡特勒的部落”磨合,这家伙是最强的,如果他也不行,那整个微软恐怕都要被卡特勒的部落鄙视。看到这里长出一口气,还好不是派个感化官过去要大家学习微软文化…

吃自己的狗粮(Eat Your Own Dogfood),在微软内部十分盛行,卡特勒非常倾向于这个做法,所有开发者都应如此,这样才会让所有人对不够好的软件有切肤之痛,这样才能更快的改进现有问题。NT,是否是英文”新技术”的缩写,似乎微软从来没官方证实过。这本书也没澄清一下。Windows NT 的推出让所有人都受益匪浅。还记得 Windows 95/98/me 时代每天几次的蓝屏吧? 对个人用户来说,那是个让人崩溃的时代,微软也因此遭受广泛的鄙视…如果不是 NT 核心的出现,谁知道这会延续多久呢?

似乎卡特勒自己不愿意称自己为 NT “设计者”,而是自谦”…was merely one of the contributors to design the system”。

这本书的英文名字是 Show Stopper ,译者张银奎(《软件调试》的作者)老师将其译为”观止”,到位。

EOF

关于OakTable Network –TOP 前言摘录

OakTable Network本身就是一群喜欢相互讨论并和有类似想法的朋友交往的人。更确切地说,是一群致力于对Oracle数据库技术进行科学探讨并爱追根究底的家伙。

这一切都始于1998年的某个时候,那时一帮Oracle专家,包括Anjo KolkCary MillsapJames Morle和其他一大群朋友开始每年以各种借口进行一到两次聚会。每个人都会带来一瓶苏格兰或波本威士忌,作为回报他们也赢得了在我家里某些地方打地铺的权利。
大部分时间我们围着餐桌闲坐,周围布满了电脑、网线、纸和其他一些东西,讨论Oracle,聊聊趣事,使用数据库领域新的并且更优异的方法做实验。在2002年的春天,所有条件更加成熟。一天夜里,我意识到我有16位世界知名的Oracle科学家闲坐在我的餐桌旁。我们三四个人挤在一个房间睡觉,甚至不得不在早上借邻居的淋浴。Anjo Kolk建议我们把自己叫做”OakTable Network”(名字来源于我的餐桌),大约两分钟以后,我们注册了域名http://www.OakTable.net

James Morle 现在和他的妻子Elain一起维护这个网站,虽然或许网站没有像预期的那样保持经常更新,但至少可以用来提供链接、名字等等,这就挺有用了。我们经常在上面进行问答挑战。

挑战是我们在讨论过程中偶尔发生的事情。询问我们任何关于Oracle的技术问题,如果我们不能在24小时内提供答案(不管是对,错或解决办法),提问者都将得到一件T恤,代表他(或她)打败了OakTable。

这个挑战,尽管有时没有像我们想要的那样进行,也许是因为它看起来好像是我们喜欢被自己回答不上的问题挑战。不过它的反面却是真实的,那就是我们的目的是解答任何人的疑问,不管这些问题看上去是多么的”简单”或是”容易”。

注:这是 Mogens NørgaardTroubleshooting Oracle Performance 一书前言中介绍 OakTable 技术组织的来龙去脉。OakTable 是 Oracle 数据库领域最有趣的一个技术组织,他们以运用科学方法(以及科学团体的伦理)从事所有活动。其成员都是顶尖的技术高手,现有大约70位成员,遗憾的是,或许因为语言的隔阂,还没看到来自中国的成员。Ooops , 前言真的不好翻译…

EOF

此文作者:, 位于 Database 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

IDC 的电力问题到底有多严重?

最近在不同场合都遇到涉及 IDC 电力问题的讨论。对于这个话题我一直不是特别留意,直到昨天我说了一句比较武断的话之后,感觉到没有调查就没有发言权,所以找了一些数据来。

国内很多互联网公司关心 IDC 电力问题,可能有一部分是受了一些美国公司(尤以 Google 为代表)的影响。根据美国环境保护署的预测数据,到了 2011 年,美国数据中心消耗的电力将达到 1000 亿千瓦–这个数字够惊人的,这个问题如果放到美国的大环境上来看可能又不算什么,因为这个数字占美国总耗电量的比例 大约是 2.625%。那么中国呢? 考虑到中美能源利用效率的差异,我想现在数据中心用电量绝对不会超过 1%。Google 这类公司强调节能、绿色 IDC 之类的说法有他们的理由,且不说提高企业形象 — 在欧美如果大企业不提倡环保,还不被那些环保组织骂死 ? 另外,省钱也的确是硬道理。此外,有一大票鼓吹绿色 IT 的家伙是各色商业公司,当然,宣传的目的是为了多购买他们的”更加省电”的产品。

中美电力使用的一个巨大差异是,美国工业用电与商业用电相对比较便宜,而居民用电反而比较贵。在中国倒是相反,居民用电相对便宜,而工业用电和商业用电是比较贵的(前不久的发改委才要求工业、商用同价格,参考)。考虑到地域差异,以及各种因素,美国居民用电平均大约 10 美分左右(信息来源),而国内的价格,是一笔糊涂账,我所居住的杭州,正常时段的价格要超过 0.55 元,而且根据用电量大小、时间、类型等等有不同的计算价格,以我这个智商恐怕算不清楚的。不管怎么样,中美的居民用电价格是相差不大的,考虑到中美人民的收入,这里面实际差异还是很大的。(国内在 2008 年 7 月 1 日曾经提过一次电价,每千瓦时提价 2 分 5 厘– 看似很小的涨价? 这意味着每年就可以多收近千亿的人民币。嗯,有点跑题了。) 限于这多少算技术贴,其他层面的东西就不说了。

工业用电价格贵,那么似乎的确应该节电了? 在目前国内,有一些数据中心的确已经面临电力问题,但这些问题集中在 IDC 如何抢到电力资源(毕竟不同地区电力资源分配不均衡),而不是如何少用电,更为关键的是,你少用你那么一点点电(本来就没多用多少),可能真的解决不了什么问题,因为如果收费的标准不根据你用了多少电来衡量 — 体现到经济效益上来也就不会有多大,要是新闻联播每天少播 5 分钟,那全国要节省多少电阿… 很少有 IDC 根据电力对用户收费,更多还是根据物理空间、网络带宽等指标收费。作为用户一厢情愿的考虑 IDC 的问题乃至环保,或许还有点早(不是说不重要,而是这个问题不是我们最迫切的事情,当然,有这样的想法还是好的,是值得肯定的)。个人觉得提升计算性能充分发挥机器能力或是提供更好的产品给用户,可能也会节省大量资源,产生更大的经济效益。既然丁磊都说了”企业最大的慈善就是把产品做好”,我们可以套用一句,做好产品、给用户提供更好的体验也是环保…

对了,我那句武断的话是(洁本):

三年内,中国网络公司不用担心电力太贵;五年之内,不需要讨论环保问题。

不是这方面专家,引用的数据或许有误,当然,我的结论也明显有问题,您就对付着看吧。

EOF

电这个问题,如果 IDC 抢到的少,即使你用的少,别人也同样会用得多。经济因素影响真的不是那么大。

更新一下结论,IDC 如果抢不到电力,别的说什么都是收效甚微的事情。

此文作者:, 位于 Arch 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.