分类归档: Web

Nutch 初体验之二

前几天介绍了 Nutch 的基本信息以及如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

Web 数据库。包含所有Nutch可以辨别的页面，以及这些页面间的链接信息。
段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型：
- fetchlist：指定待获取的一个页面集合的文件
- fetcher output：包含获取到的页面的文件集合
- index：fetcher 输出的 Lucene 格式的索引

注：如果发现有解释不清的地方，请参考这里，不过说实话，Nutch的文档远远不够完善，还存在很多语焉不详的地方。

Nutch 初体验

前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具一文提到 Nutch，很是感兴趣，但一直没有时间进行测试研究。趁着假期，先测试一下看看。用搜索引擎查找了一下，发现中文技术社区对 Larbin 的关注要远远大于 Nutch 。只有一年多前何东在他的竹笋炒肉中对 Nutch 进行了一下介绍。

继续阅读 →

ITPub Search Plugin for Firefox and Mozilla

先前在一篇帖子中描述了一下 AskTom Search Plugin for Firefox and Mozilla ，看了一下别的同类插件的代码，不是很复杂，顺便写了几个类似的小插件。其实可以针对一些特定的站点开发有特色的搜索插件。闲来无事，以 ITpub 为例，做个插件测试一下。

继续阅读 →

2004 IT 技术年终盘点–个人篇

早晨起来看 BLOG ，发现不少人已经开始年终盘点了。这一年太多的风花雪月的事情，太多的花边、八卦新闻，以至于我看到朋友推荐我看的一个 BLOG 上写着：小道消息，只有小道消息，才能救中国。我不由得笑出声来。Kamus 说，2004，开始融入你的互联网 Horse 说，从blog开始，享受我的互联网
，我该怎么说呢？似乎是沉溺其中了……

继续阅读 →