作者文章: Fenng

Nutch 初体验之二

前几天介绍了 Nutch 的基本信息 以及 如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

  • Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。
  • 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型:
    • fetchlist:指定待获取的一个页面集合的文件
    • fetcher output:包含获取到的页面的文件集合
    • index:fetcher 输出的 Lucene 格式的索引

注:如果发现有解释不清的地方,请参考这里,不过说实话,Nutch的文档远远不够完善,还存在很多语焉不详的地方。

继续阅读

此文作者:, 位于 Web 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Google PR 更新以及其他

不期然感冒了,睡得昏昏沉沉,起来又是中午了。发现 Google 工具条的 PR 更新了。我的首页和 BLOG 都变成了 4 。虽然没啥大用处,还是很高兴!查了一下,居然是 1 日更新的(这里)。看看常去的几个 BLOG, Mark Rittman 的 PR 变成了6 。最近大家都在回顾2004,Rittman的 Review Of 2004, Part OneReview Of 2004, Part Two 这两篇 BLOG 非常值得一看。相比之下,《程序员》杂志1月份的回顾数据库的这一年那篇文章有些儿戏了,大部分内容都是关于 MySQL 的。

继续阅读

此文作者:, 位于 SiteLog 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Nutch 初体验

前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具 一文提到 Nutch,很是感兴趣,但一直没有时间进行测试研究。趁着假期,先测试一下看看。用搜索引擎查找了一下,发现中文技术社区对 Larbin 的关注要远远大于 Nutch 。只有一年多前何东在他的竹笋炒肉中对 Nutch 进行了一下介绍

继续阅读

ITPub Search Plugin for Firefox and Mozilla

先前在一篇帖子中描述了一下 AskTom Search Plugin for Firefox and Mozilla ,看了一下别的同类插件的代码,不是很复杂,顺便写了几个类似的小插件。其实可以针对一些特定的站点开发有特色的搜索插件。闲来无事,以 ITpub 为例,做个插件测试一下。

继续阅读