Tag Archives: Lucene

Doug Cutting 离开雅虎

两年前我写道 Yahoo! “应该担心 Doug Cutting 别被 Google 挖去”，现在这个担心成为现实。对”从来就不是一家搜索公司”的 Yahoo! 来说，坏消息是 Doug Cutting 离开了，好消息是他没加入 Google ，也没去微软，而是加入 Cloudera (via)。Cloudera 致力于提供 Hadoop 企业级支持，关心 Hadoop 的人可以松口气，即使 Yahoo! 不再支持这个项目，也还有 Cloudera 接棒呢。

可能所有人都间接用过 Doug Cutting 的作品，他是 Lucene 、Nutch 、Hadoop 等项目的发起人，是他把高深莫测的搜索技术形成产品贡献给普罗大众，某种意义上的盗火者，国内很多网站的搜索引擎都有他的项目的影子。

从此之后，Yahoo! 也可以说自己”再也不是一家搜索公司”了。

–EOF–

Nutch 初体验之二

前几天介绍了 Nutch 的基本信息以及如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

Web 数据库。包含所有Nutch可以辨别的页面，以及这些页面间的链接信息。
段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型：
- fetchlist：指定待获取的一个页面集合的文件
- fetcher output：包含获取到的页面的文件集合
- index：fetcher 输出的 Lucene 格式的索引

注：如果发现有解释不清的地方，请参考这里，不过说实话，Nutch的文档远远不够完善，还存在很多语焉不详的地方。

继续阅读 →