Tag Archives: nutchhinthintsregexurlfilter

Some Hints for Nutch

好久没关注Nutch了,看邮件列表,学到了几招关于 Nutch 的小技巧.

  • 如何索引动态 URL 站点?

    调整 regex-urlfilter.txt 或是 crawl-urlfilter.txt 文件. 参见行”# skip URLs containing certain characters as probable queries,后面的内容.

  • 编译 Nutch 需要用到的 Ant 版本至少要 1.6 以上.

继续阅读