作者文章: Fenng

Heritrix Crawler vs. Nutch Crawler

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:

Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

继续阅读

为什么说国内Linux厂商的路快到了尽头

国内的 Linux 厂商似乎很久没什么动静了,不知道他们过得好不好?! 前不久,Linux巨头红帽子也杀进中国了,不知道 RedFlag 和 xteam 还能支持多久?

尽管政府一再提出各种政策扶植 Linux 为代表的开源软件,但是这群扶不起来的阿斗的表现总是让人感觉味道不对。为啥我们的 Linux 就发展不起来?

继续阅读

Nutch 也将并入 Apache 项目?

Doug Cutting 在邮件列表中提及新版本 0.6 的发布情况:

I plan to make a 0.6 release before anything is moved to Apache

移到 Apache 之前会发布 0.6 版本,现在 CVS 中的版本已经比较稳定。

Doug Cutting 开发的另一个项目已经贡献到 Apache 项目中,相信 Nutch 的并入会吸引更多优秀程序员投入到开发队伍中来。也相信,不久的将来,有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候,或许 Google 这种垄断式搜索巨头的影响力已经不再!

继续阅读

此文作者:, 位于 Web 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.