作者文章: Fenng

Job Number 最大为多少?(FAQ)

有朋友问：我的 Oracle 据库每周要重建很多 JOB，导致 JOB 的编号不断增大。Oracle的数据库 JOB 编号的上限是多少？会不会哪一天数据库的 JOB 编号到了最大值，而无法新建JOB?

虽然 Nutch 新的版本(0.6)还没有正式发布。但是已经从 CVS 上看到相关的信息了。从Nutch官方站点也可以得到最新的 nightly 构建版本。0.6 相比 0.5 来说，添加了不少新功能，当然代码量也有很大的扩充–压缩包有 35M 之多。

Kamus 在论坛中说了一个问题：分析数据会影响Oracle使用RBO的判断？在讨论的最后，说到诊断事件 10053(cost-based optimizer tracing) 的 Trace 有的时候可能会忽略 Hint (?)

前几天介绍了 Nutch 的基本信息以及如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

Web 数据库。包含所有Nutch可以辨别的页面，以及这些页面间的链接信息。
段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型：
- fetchlist：指定待获取的一个页面集合的文件
- fetcher output：包含获取到的页面的文件集合
- index：fetcher 输出的 Lucene 格式的索引

注：如果发现有解释不清的地方，请参考这里，不过说实话，Nutch的文档远远不够完善，还存在很多语焉不详的地方。