好久没关注Nutch了,看邮件列表,学到了几招关于 Nutch 的小技巧.
- 如何索引动态 URL 站点?
调整 regex-urlfilter.txt 或是 crawl-urlfilter.txt 文件. 参见行”# skip URLs containing certain characters as probable queries,后面的内容.
- 编译 Nutch 需要用到的 Ant 版本至少要 1.6 以上.
好久没关注Nutch了,看邮件列表,学到了几招关于 Nutch 的小技巧.
调整 regex-urlfilter.txt 或是 crawl-urlfilter.txt 文件. 参见行”# skip URLs containing certain characters as probable queries,后面的内容.
昨天就看到有人说盛大要收购新浪,早晨来到公司已经有新闻出来了:
据上海盛大公告披露(北京时间2月19日):盛大公司于2月10日就同其控股的地平线媒体有限公司(Skyline Media Limited)一道,对新浪控股约19.5%。这些股份是通过公开市场购得的。
作为一个靠游戏起家的公司,居然可以做到这个份上,不能说不是奇迹了.很有戏剧性,颇有点像当年的美国在线收购华纳.很多人要大跌眼镜了吧?
刚才聚会回来,看了一下昨天加在del.icio.us/Fenng中的红帽企业 Linux AS 4 发行注记.RHEL 4 还是不用ReiserFS.有一些变化对DBA来说应该加以注意,摘抄一点:
红帽企业 Linux 4 包括一个叫做 hugemem 的新内核。这个内核支持每进程 4GB 用户空间(其它内核只支持 3GB)和 4GB 直接内核空间。使用这个内核允许 红帽企业 Linux 在拥有大至 64GB 主内存的系统上运行。一般来说,配置了 16GB 内存以上的系统需要 hugemem。使用较少内存的环境也可以从这个内核中获益,特别是在运行能够从较大的用户空间中获益的应用程序的时候。
虽然 红帽企业 Linux 4 包括对 rawio 的支持,但它已是一个过时的接口。如果您的应用程序使用这种接口,Red Hat 建议您改变您的应用程序,使它们通过 O_DIRECT 标志来打开块设备。rawio 接口会在当前的 红帽企业 Linux 4 中存在,但是它有可能会不再被包括在以后的发行版本中。
文件系统的异步 I/O(AIO)当前只支持 O_DIRECT 或是非缓冲的模式。另外,异步拉 (asynchronous poll) 接口已不再出现,管道 (pipes) AIO 也不再被支持。
需要注意的是,ext2online 并不能扩大它所在的块设备本身 — 一定要有足够的未被使用的空间在这个设备上。最简单的方法是使用 LVM 卷并运行 lvresize 或 lvextend 来扩展这个设备。