Tag Archives: Lucene

Doug Cutting 离开雅虎

两年前我写道 Yahoo! “应该担心 Doug Cutting 别被 Google 挖去”,现在这个担心成为现实。对”从来就不是一家搜索公司”的 Yahoo! 来说,坏消息是 Doug Cutting 离开了,好消息是他没加入 Google ,也没去微软,而是加入 Cloudera (via)。Cloudera 致力于提供 Hadoop 企业级支持,关心 Hadoop 的人可以松口气,即使 Yahoo! 不再支持这个项目,也还有 Cloudera 接棒呢。

可能所有人都间接用过 Doug Cutting 的作品,他是 Lucene NutchHadoop 等项目的发起人,是他把高深莫测的搜索技术形成产品贡献给普罗大众,某种意义上的盗火者,国内很多网站的搜索引擎都有他的项目的影子。

从此之后,Yahoo! 也可以说自己”再也不是一家搜索公司”了。

EOF

Nutch 初体验之二

前几天介绍了 Nutch 的基本信息 以及 如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

  • Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。
  • 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型:
    • fetchlist:指定待获取的一个页面集合的文件
    • fetcher output:包含获取到的页面的文件集合
    • index:fetcher 输出的 Lucene 格式的索引

注:如果发现有解释不清的地方,请参考这里,不过说实话,Nutch的文档远远不够完善,还存在很多语焉不详的地方。

继续阅读

此文作者:, 位于 Web 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Nutch 初体验

前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具 一文提到 Nutch,很是感兴趣,但一直没有时间进行测试研究。趁着假期,先测试一下看看。用搜索引擎查找了一下,发现中文技术社区对 Larbin 的关注要远远大于 Nutch 。只有一年多前何东在他的竹笋炒肉中对 Nutch 进行了一下介绍

继续阅读