Tag Archives: Nutch

Doug Cutting 离开雅虎

两年前我写道 Yahoo! “应该担心 Doug Cutting 别被 Google 挖去”,现在这个担心成为现实。对”从来就不是一家搜索公司”的 Yahoo! 来说,坏消息是 Doug Cutting 离开了,好消息是他没加入 Google ,也没去微软,而是加入 Cloudera (via)。Cloudera 致力于提供 Hadoop 企业级支持,关心 Hadoop 的人可以松口气,即使 Yahoo! 不再支持这个项目,也还有 Cloudera 接棒呢。

可能所有人都间接用过 Doug Cutting 的作品,他是 Lucene NutchHadoop 等项目的发起人,是他把高深莫测的搜索技术形成产品贡献给普罗大众,某种意义上的盗火者,国内很多网站的搜索引擎都有他的项目的影子。

从此之后,Yahoo! 也可以说自己”再也不是一家搜索公司”了。

EOF

Nutch 正式发布 1.0 版本

看到消息说 Nutch 正式发布 1.0 版本。这个 Lucene 的衍生项目,现在已经孵化长大。

很早以前我无聊的时候记录过一点使用 Nutch 的笔记(),现在还有人搜过来 :) 时过境迁,已经没啥用啦。

Apache 基金会下面的几个搜索项目应该说是极大解放了生产力,让搜索引擎这个看似高深莫测的东西走入寻常百姓家。很多公司自己的搜索引擎都参考了 Lucene 和 Nutch 不少吧。

EOF

几年前我

不久的将来,有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候,或许 Google 这种垄断式搜索巨头的影响力已经不再!

原来只是痴人说梦。

此文作者:, 位于 Web 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Yahoo! 与 Hadoop

hadoop-logo.jpg

Yahoo! 和 Carnegie Mellon 大学合作的开源分布式计算项目代号为 M45,这个 超级计算集群 有 4000 个处理器,3T 内存,1.5 PB 存储空间,自称足以跻身世界超级计算机 50 强。这两天网络上搜索最火的一个词应该就是 Hadoop 了吧? 雅虎的这套集群就是跑在 Hadoop 上。

Hadoop 现在已经有很多不错的应用案例可以参考,比如这篇 Running Hadoop MapReduce on Amazon EC2 and Amazon S3

Yahoo! 或许早意识到自己的 Web 1.0 方式下的计算能力比 Google 差的太远,干脆放手一博,助力 Hadoop 项目,期望能借助开源的力量与 Google 掰一下手腕。从这里我们得知 Yahoo! Hadoop 团队早在 06 年就成立了,当然,这个团队成立的前提是 Doug Cutting 入职雅虎。

雅虎现在不应该担心追不上 Google ,应该担心 Doug Cutting 别被 Google 挖去,否则,可真的没机会了。

EOF

Swish-e, 在 Dreamhost 构建小型搜索引擎

自从搭上 Dreamhost 的贼船之后,我就在幻想 Dreamhost 什么时候能够支持 Nutch 就好了,这样就可以搭建一个个人的搜索引擎。令人沮丧的是 Dreamhost 似乎一直没有支持 Nutch 的打算(当然,Nutch 这个东西一旦能够被支持,一个普通的用户恐怕要吃掉所有的资源)。
今天从 Vingel 的 Blog 上看到他使用的 Swish-e, 是一个不错的选择。
安装 Swish-e 相对比较顺利。参见指导手册的 Installing without root access 部分。详细的设置记录随后给出吧。
初步效果参见: http://www.search.dbanotes.net/
准备把 Oracle 的文档索引一份,便于自己使用。
现在 Oracle 9i, Apache HTTPD 2.0 的文档已经可以搜索了。
这个工具一个最大的缺点: 不支持 Unicode,所以只能搜索英文文档。
EOF