作者文章: Fenng

HadoopDB

首先思考一个问题:针对弱关系型数据的数据仓库解决方案会是怎样的?

耶鲁大学的这个 HadoopDB 研究项目挺有意思。这是个并行 DBMS(PostgreSQL) 技术和 MapReduce 的结合的产物。

HadoopDB_Arch.jpg
(上图来源)

上图中的 SMS 是 “SQL to MapReduce to SQL” 的缩写。这是 HadoopDB 的一个设计难点。经过了两层转换,对于 SQL 执行的效率多少会是个问题。

也可以对比一下 Facebook 的 Hive :
HiveDB.jpg

说起 DBMS 和 MapReduce 结合,自然要提起 GreenPlum, 原来是 Hadoop 的间接竞争对手,现在变成直接的了。相比来说,GreenPlum 要更成熟一些。HadoopDB 毕竟是学院派的东西。

GreenPlum_GPDB_Arch.jpg

二者都是典型的 Share-Nothing 结构。类似 Oracle 集群的 Share-Storage 的模式现在已经有点过时了。更多混搭出来的技术解决方案让人喜忧参半,喜的是有很多东西可以选择,忧的是你不知道哪个项目生命期更长久。

EOF

近视眼戴眼镜

That out of hell,leads up to light(一出地狱即见光明)
--弥尔顿《失乐园》

前几天公司出游,在海边玩的时候眼镜被海浪冲走,不折不扣的当了两天盲人,直到回到杭州才算重见光明,深深体会了一下近视的苦处。周云蓬有首歌叫《如果你突然瞎了怎么办》,如果问我自己,一时真的给不出答案。

我自己从小就喜欢躺着看书,被父亲语重心长的劝诫过多次,但是只当作耳旁风。如果不是小学的时候骑自行车有一次碰了一下眼睛,可能这辈子都未必遇到视力问题。即使是这样,大学前两眼视力也都正常。大学宿舍等灯光昏暗,视力倒是有点下降。话说直到我大学毕业的时候,还是不怎么戴眼镜的,毕业时候两只眼睛虽说已经有点近视,但也就是 100 多度而已,只有去看电影的时候才戴眼镜。

正式参加工作后因为大量时间面对电脑,加上糟糕的 CRT 显示器,第一年视力就急剧下降。到了杭州之后,因为处理数据的敏感性,领导看我眼睛都快贴到屏幕上,跟我说了几次,”要带眼镜啦”,于是乎,正式配了副常戴的眼镜。总体下来,记得价格是 500 多,在杭州的宝岛眼镜店,2005 年。

这幅眼镜带了不到三年,中间换了一次镜片。直到去年,觉得视力又有所下降,验光下来,两只眼睛已经接近平均 500 度了。这时候才感觉有点担忧起来。这样下去,谁知道会不会继续严重呢? 有些事情就是发生了之后才会引起你的重视,而之前别人怎么说都是惘然不觉的。去年那次选择镜架的时候,在店员的极力劝说下,换了一副新的镜架,加上镜片下来,总体两千左右,事后查询了一下眼镜的相关成本,发现自己不折不扣的再当了一回冤大头。也了解到眼镜行业乃是不折不扣的暴利行业,一度荣登十大”暴利行业”,并非虚言。

因为度数的增加,刚开始的几天非常不适应,看东西(比如电脑屏幕)感觉有所缩小,这让我非常疑惑,究竟我原来看的东西是真实的还是也是虚幻的? 到底这个屏幕实际有多大,可能我自己永远无法通过感官获知了。

公司现在每年也都有体检,不过检查视力的时候相对还是很简略的。即使到医院单独做视力方面的检查,也是比较粗线条的操作。有朋友说,到医院检查一下视力,然后再去眼镜店配眼镜,我个人觉得可能最后都差不多,比较准确的视力结果要在不同情况下,多次检查取个平均值可能更好。

这次在海边被冲走的这副眼镜,戴起来其实也没那么舒服,最主要的一点还是镜架比较沉–尽管已经是比较轻的材质,但眼镜这东西每天在鼻子上搭着,怎么说也要越轻越好。奇怪的是,我没看到一个眼镜店可以给眼镜称重的。对每个镜架的重量也都是完全凭感觉。看起来这个行业也还是没有多么深耕细作。即使是这次去的这家号称平价的菲狐,也没有体现出什么特别的地方,当然价格的确是比对面的宝岛眼镜低了不少。

时至今日,身边的同事或是朋友几乎都带着眼镜,偶有不带的其实也是出于美观而用隐形眼镜的。有了眼镜,似乎有了理由可以对眼睛的爱护少一些。这次没了眼镜之后偶尔抢同事的眼镜用一下,发现多半人的镜片都十分模糊。这样下去无疑会更加加重眼睛的负担。”目前问题”,值得重视起来。

简单估量一下,中国至少有几亿人配戴眼镜,眼镜业是个不折不扣的大产业了。不管信不信,镜架和镜片的成本都是相当低的,不难理解杭州出现第一家平价眼镜店后,同行雇佣打手上门打砸的原因。考虑到材质本身没有太大区别,所以相对经济一点的办法是到网络上直接采购镜架,然后到眼镜店买镜片(当然验光后通过网络买镜片应该更省)。总体来说,减少损失的办法就是不要买太贵的眼镜,你享受到的质量都差不多–除非你非常享受那些眼镜店的免费白开水或者是廉价速溶咖啡。”即使一个人足够有钱,也没有任何理由去给一个暴利行业去捐款。”

近视眼戴眼镜–解决”目前问题”。这问题不是个小问题,应该重视起来。否则,就不是 “Myopia”,而是 “Short Sight”了,整天在电脑屏幕前的朋友,尤其如此。

EOF

更新:最后配了一副不到 500 块的眼镜,无框,材质更轻,感觉比以前的还好。一分钱一分货在眼镜业这里不适用。在一个技术性网志里写眼镜这个话题,只是因为和我们多数人技术人都相关,而多数时候这是被我们忽略的事情。

此文作者:, 位于 MyLife 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Doug Cutting 离开雅虎

两年前我写道 Yahoo! “应该担心 Doug Cutting 别被 Google 挖去”,现在这个担心成为现实。对”从来就不是一家搜索公司”的 Yahoo! 来说,坏消息是 Doug Cutting 离开了,好消息是他没加入 Google ,也没去微软,而是加入 Cloudera (via)。Cloudera 致力于提供 Hadoop 企业级支持,关心 Hadoop 的人可以松口气,即使 Yahoo! 不再支持这个项目,也还有 Cloudera 接棒呢。

可能所有人都间接用过 Doug Cutting 的作品,他是 Lucene NutchHadoop 等项目的发起人,是他把高深莫测的搜索技术形成产品贡献给普罗大众,某种意义上的盗火者,国内很多网站的搜索引擎都有他的项目的影子。

从此之后,Yahoo! 也可以说自己”再也不是一家搜索公司”了。

EOF

3PAR 存储架构解析

对于国内存储市场来说,3PAR 是不折不扣的后来者。也是个相对陌生的存储产品,以至于其竞争对手的人员甚至都不知道这家公司已经杀入中国市场。

3PAR 在 1999 年成立,几个创始人主要出自 Sun ,前身叫作 3PARdata , 2008 年上市。要知道在存储技术领域竞争还是比较激烈的,EMC / HDS 等控制着高端存储的主要市场,3PAR 能突破技术壁垒并最后成功上市,没两把刷子那是绝对做不到的。

InSpire 硬件结构

3PAR 背板采用全网状的连接结构,每个控制器节点之间高速直连。因为是全网状的,所以基本上一个链路坏掉只影响直连的两个节点的通信,对其它节点无影响。每个控制器节点内置一块硬盘,用于操作系统安装。控制器节点最多可以扩展到 8 个,是 3PAR 存储最核心的组件。

相比之下,HDS 架构采用全光线交换方式(Universal Star Network),而 EMC 是采用直连矩阵方式(新一代产品采用虚拟矩阵架构–Virtual Matrix ,其实已经放弃了直连矩阵架构了)。这些连接方式的孰优孰劣历来是厂商攻击竞争对手的着眼点,能否最大限度发挥性能是用户最需要关心的。

3Par_full-MESH.jpg

3PAR 针对 I/O 指令和数据移动使用不同的计算芯片。I/O 指令(元数据/控制Cache)用 Intel 的芯片,而 数据移动/Cache 则使用专门设计的 ASIC 芯片来完成。

3Par_Controller_Node_IO.jpg

因为有专门的硬件 ASIC 芯片用于 RAID 5 XOR 校验,3PAR 号称有了其第三代 ASIC 芯片,实现的 RAID 5 是业界最快的,甚至 SATA 盘也能有不错的性能表现。(从 Oracle 公司测试的数据来看,和 RAID 10 速度的确相差无几。)

InForm 操作系统软件与虚拟化

3PAR 的操作系统叫 InForm,最初就是面向层次化的设计。与其他存储不同的是,3PAR 所有磁盘被分成 256MB 统一大小的小盘(Chunklet),可以根据需要用多个 Chunklet 组成 RAIDlet(逻辑磁盘)。因为这个独特的设计方式,3PAR 是可以很容易做到不同容量的磁盘混用,同一个 RAID 组里都可以有不同大小、不同转速的磁盘混用,这是其他存储做不到的。而且,所有的磁盘都可以利用,因为Hotspare Chunklet 以更小的单位分散在不同的磁盘上,也不再需要单独留热备盘。空间利用率可以更充分一些。 

3Par_3level_virtualization.jpg

多说一句,有这个冗余机制,3PAR 更换磁盘也是与众不同:直接抽磁盘盒子(一个盒子可是四块磁盘啊),我当初看到 3PAR 技术人员这么操作真是着实吓了一跳。

因为固定大小的 Chunklet 的存在,可以将 I/O 更为均匀的分散到多个磁盘上。

3Par_balance.jpg

对于熟悉Oracle 的朋友来说,会发现这和 ASM 的思想非常接近。因而也可以和 Oracle 数据库进行无缝集成:

3Par_Thin_Provision_Oracle_ASM.jpg

因为软件做得非常具有易用性,日常管理与维护远远没有其他高端存储那么复杂,新增磁盘这种事情,都是一行命令之后底层自动处理。其实在 Thin Provisioning 方面 3PAR 也是很值得一说的,比一些厂商的伪 Thin Provisioning 具体多了。限于篇幅,不赘述。

3PAR 在美国有很多金融证券行业的客户,也有 Web 2.0 行业的客户–MySpace 。在保证 I/O 响应在 10ms 以内的前提下,3PAR 的 IOPS 能力非常优异(这才是卖点,不难理解其客户多集中在证券、金融领域)。虽然有些厂商号称能得到更高的 IOPS ,但那是在 I/O 响应时间很差的情况下的数据。要说明的是,现在随着一些存储厂商在高端服务器上也支持 SSD ,未来几年如何还要再看。

前两年 3PAR 推行所谓 Utility Storage(功用存储) 理念,现在貌似改成敏捷存储了。说实话,我觉得敏捷存储真的挺适合的,3PAR 命令行批量创建 LUN 真的很让人感觉舒服。当然,也在宣传云存储和绿色存储的理念,那是题外话了。

3PAR 原来只做中高端市场,只有 T 这一个系列,现在也开始关注中低端市场了,推出了 F 系列的产品。软硬件体系基本没变,倒是没仔细看过。

(Note: 相关图片主要来自 3PAR 公开资料.)

EOF

此文作者:, 位于 Arch 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.