好久没关注Nutch了,看邮件列表,学到了几招关于 Nutch 的小技巧.
- 如何索引动态 URL 站点?
调整 regex-urlfilter.txt 或是 crawl-urlfilter.txt 文件. 参见行”# skip URLs containing certain characters as probable queries,后面的内容.
- 编译 Nutch 需要用到的 Ant 版本至少要 1.6 以上.
好久没关注Nutch了,看邮件列表,学到了几招关于 Nutch 的小技巧.
调整 regex-urlfilter.txt 或是 crawl-urlfilter.txt 文件. 参见行”# skip URLs containing certain characters as probable queries,后面的内容.