分类归档: Web

Heritrix Crawler vs. Nutch Crawler

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:

Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

继续阅读

Nutch 也将并入 Apache 项目?

Doug Cutting 在邮件列表中提及新版本 0.6 的发布情况:

I plan to make a 0.6 release before anything is moved to Apache

移到 Apache 之前会发布 0.6 版本,现在 CVS 中的版本已经比较稳定。

Doug Cutting 开发的另一个项目已经贡献到 Apache 项目中,相信 Nutch 的并入会吸引更多优秀程序员投入到开发队伍中来。也相信,不久的将来,有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候,或许 Google 这种垄断式搜索巨头的影响力已经不再!

继续阅读

此文作者:, 位于 Web 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

在 Plog 中可以显示 Backslash 么?

ITPub 的 Blog 是使用 Plog 搭建的。在发帖的时候如果是 ‘\'(backslash)则会被程序吃掉。

如果是多加一个反斜线,如引号中的样子: ‘\\’。可以在预览中显示出来,但是正式更新之后就不行了。HTML 模式下用 BackSlash Eating.png
来代替,更新文档,OK!应该可以了。(一定注意不要预览)。看来是 Plog 的 Bug 了。

继续阅读