前几天介绍了 Nutch 的基本信息 以及 如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。
Nutch 的数据包括两种类型:
- Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。
- 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型:
- fetchlist:指定待获取的一个页面集合的文件
- fetcher output:包含获取到的页面的文件集合
- index:fetcher 输出的 Lucene 格式的索引
注:如果发现有解释不清的地方,请参考这里,不过说实话,Nutch的文档远远不够完善,还存在很多语焉不详的地方。