Tag Archives: Hadoop

Google 的计算能力仍是独步武林

从 Greg Linden 的文章看到的数据:Google 的 MapReduce 平均每天处理 20 Petabytes 的数据。每天能跑完 10 万个工作任务。光是 07 年 9 月,就用掉了 11081 个”机器年” ,跑了 220 万个 Mapreduce 任务。这个计算能力是惊人的。

Yahoo! 也用 Hadoop 实现了 Mapreduce , 我个人感觉和 Google 可能还有一段距离。光有计算环境还不行,还要有应用程序来实现功能,Google 已经实现了超过 1 万个应用程序,Yahoo! 有多少呢?

这方面估计微软更没戏了,要是弄个不包括 “Window” 的 Windows 服务器集群估计还能差不多,否则,光是一个视窗要耗费多少计算资源? 如果服务器规模是几万、几十万台,计算能力的浪费是惊人的。微软的对抗计划是 Dryad.

所以说啊,Google 的计算能力仍是独步武林,虽然有不服气的,但有什么办法? 这方面 Google 就是强啊

EOF
补充:
更多的数据(来源):
MapReduce.png

Yahoo! 与 Hadoop

hadoop-logo.jpg

Yahoo! 和 Carnegie Mellon 大学合作的开源分布式计算项目代号为 M45,这个 超级计算集群 有 4000 个处理器,3T 内存,1.5 PB 存储空间,自称足以跻身世界超级计算机 50 强。这两天网络上搜索最火的一个词应该就是 Hadoop 了吧? 雅虎的这套集群就是跑在 Hadoop 上。

Hadoop 现在已经有很多不错的应用案例可以参考,比如这篇 Running Hadoop MapReduce on Amazon EC2 and Amazon S3

Yahoo! 或许早意识到自己的 Web 1.0 方式下的计算能力比 Google 差的太远,干脆放手一博,助力 Hadoop 项目,期望能借助开源的力量与 Google 掰一下手腕。从这里我们得知 Yahoo! Hadoop 团队早在 06 年就成立了,当然,这个团队成立的前提是 Doug Cutting 入职雅虎。

雅虎现在不应该担心追不上 Google ,应该担心 Doug Cutting 别被 Google 挖去,否则,可真的没机会了。

EOF