Tag Archives: Greenplum

EMC 收购 Greenplum 这事儿

自从 Oracle 收购 Sun 之后,似乎放慢了收购步伐。这次  EMC 收购 Greenplum 的消息传出来,倒像是 Oracle 被偷袭。因为 Greenplum 和 Sun 之间关系密切,据说 Sun 还是大股东 (?),Greenplumn 出来打市场,基本上是和 Sun 硬件捆绑着卖的。Oracle 收购 Sun 后,我一度以为早晚 Greenplum 也会被 Oracle 收入囊中呢。

在我看来,EMC 收购 Greenplumn 目的其实也挺明确–就是为了卖更多的存储出去(当然要打着云计算的噱头)。我不看好这个买卖,EMC 在高端存储的优势余威犹在,在低端上似乎快被甩下了,我不是说技术上的问题,而是现在整个计算环境的模式已经发生了很大变化,廉价存储方案比比皆是,买存储盒子的用户只怕会越来越少。针对大规模数据的处理,Greenplumn 类似的计算模式颠覆了传统的数据仓库技术环境,估计也是 Oracle 不愿意看到的。但这是趋势,谁也无力抗拒。随着 Oracle 也开始卖自己的 Exadata 存储,与很多合伙伙伴都逐渐开始了竞争关系,EMC 倒也不能不防。

个人觉得 Redhat 倒是挺适合收购 Greenplum 的。原因无他,数据库软件和操作系统捆在一起卖更容易讨用户喜欢,而随着硬件卖,用户会有被挟持了的感觉。当然,我也是信口扯淡,我这么一说,你这么一听也就算了。

这次收购也让人猜测麦克尼利大叔与拉里大爷是不是关系紧张了呢?

EOF

此文作者:, 位于 Review 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

MySQL 大企业级应用可行性分析(之四)

如果你觉得 MySQL 不够好,那是因为你不会用。

这是以前开了头的一个话题,现在有了一点新的想法和变化,倒是可以记录一下和大家分享。

数据仓库解决方案

一般来说,一个企业随着不断快速发展,或许在数据库上的投入到后期反而不如数据仓库、商业智能上面的投入。在数据仓库解决方案上,MySQL + InfoBright (参考)是个不错的解决方案。在数据仓库亦或是海量数据处理方面,倒是有几个基于 PostgreSQL 的解决方案,其中之一就是 GreenPlum ,最近一段时间受到很多人的关注。但是总体来说,这些方案的成熟度还有待于时间的考验。

站内数据搜索友好–全文搜索引擎

这里的站内搜索友好是说数据库是否更利于技术人员开发站内搜索技术。MySQL 在这个方面还是可圈可点,因为借助于 Sphinx 之类的开源全文搜索引擎,很方便的就能搭建一个可用的站内搜索引擎,多快好省。对于 Oracle 或是 DB2 这样的产品来说,似乎没有特别好的搜索引擎。至少 Oracle 的全文搜索基本上没法开放给前台用户使用的。

MySQL 前途曲折

前两天,Oracle 面对漫天谣言悍然宣布将对 SPARC 平台和 Solaris 投入重金研发,但只字未提 MySQL ,这无疑会让人怀疑 MySQL 在 Oracle 内部是不受待见的。Oracle 会把 MySQL 剥离出去么?让其变成自己的敌人? 唯一能让我放心的是 MySQL 不会死去,毕竟有那么多的克隆已经在蓬勃发展了。

这个系列的话题,我只提供陈述,选择由你来决定。

EOF

HadoopDB

首先思考一个问题:针对弱关系型数据的数据仓库解决方案会是怎样的?

耶鲁大学的这个 HadoopDB 研究项目挺有意思。这是个并行 DBMS(PostgreSQL) 技术和 MapReduce 的结合的产物。

HadoopDB_Arch.jpg
(上图来源)

上图中的 SMS 是 “SQL to MapReduce to SQL” 的缩写。这是 HadoopDB 的一个设计难点。经过了两层转换,对于 SQL 执行的效率多少会是个问题。

也可以对比一下 Facebook 的 Hive :
HiveDB.jpg

说起 DBMS 和 MapReduce 结合,自然要提起 GreenPlum, 原来是 Hadoop 的间接竞争对手,现在变成直接的了。相比来说,GreenPlum 要更成熟一些。HadoopDB 毕竟是学院派的东西。

GreenPlum_GPDB_Arch.jpg

二者都是典型的 Share-Nothing 结构。类似 Oracle 集群的 Share-Storage 的模式现在已经有点过时了。更多混搭出来的技术解决方案让人喜忧参半,喜的是有很多东西可以选择,忧的是你不知道哪个项目生命期更长久。

EOF

Greenplum 短板

初接触 Greenplum 的确让人挺惊艳的,计算能力给习惯于 RDBMS 传统处理能力的 DBA 会留下很深刻的印象。有点一招鲜吃遍天的感觉。

Greenplum 还可以结合 Solaris 进行虚拟化 — Sun 任何时候都能搭配上自己的东西。

GreenPlum Solaris.jpg

看上去都很美,问题就是海量数据每天怎么导入到 Greenplum 中来? 借助传统的 ETL 工具(Informatica / DataStage …) 或者自己写 ETL 功能脚本来做。这就是个麻烦事。海量数据的载入与导出,对于 Greenplum 来说,似乎只能用传统的老办法。如果 Greenplum 带一个 ETL 工具就真的强了。

在大哥大电话刚流行的年代,有个笑话说,发明家发明了一款超小超轻的手机,向另外一个人推销,价格还贼便宜。顾客买下刚要走,被发明家叫住:这里还有个大箱子是送给你的。这是什么? 这是这个手机的电池……

EOF

Greenplum 支持的这个 Bizgres 最近两年倒是好像停滞了。免费的午餐不是没有,但不会长久倒是真的。