Some Hints for Nutch

好久没关注Nutch了,看邮件列表,学到了几招关于 Nutch 的小技巧.

  • 如何索引动态 URL 站点?

    调整 regex-urlfilter.txt 或是 crawl-urlfilter.txt 文件. 参见行”# skip URLs containing certain characters as probable queries,后面的内容.

  • 编译 Nutch 需要用到的 Ant 版本至少要 1.6 以上.

继续阅读

盛大收购新浪股权:变数横生?

昨天就看到有人说盛大要收购新浪,早晨来到公司已经有新闻出来了:

据上海盛大公告披露(北京时间2月19日):盛大公司于2月10日就同其控股的地平线媒体有限公司(Skyline Media Limited)一道,对新浪控股约19.5%。这些股份是通过公开市场购得的。

作为一个靠游戏起家的公司,居然可以做到这个份上,不能说不是奇迹了.很有戏剧性,颇有点像当年的美国在线收购华纳.很多人要大跌眼镜了吧?

继续阅读

此文位于 Review on by .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

RHEL AS 4,Which change a DBA should pay more attention ?

刚才聚会回来,看了一下昨天加在del.icio.us/Fenng中的红帽企业 Linux AS 4 发行注记.RHEL 4 还是不用ReiserFS.有一些变化对DBA来说应该加以注意,摘抄一点:

  • 首先关注一下内核相关变化:

    红帽企业 Linux 4 包括一个叫做 hugemem 的新内核。这个内核支持每进程 4GB 用户空间(其它内核只支持 3GB)和 4GB 直接内核空间。使用这个内核允许 红帽企业 Linux 在拥有大至 64GB 主内存的系统上运行。一般来说,配置了 16GB 内存以上的系统需要 hugemem。使用较少内存的环境也可以从这个内核中获益,特别是在运行能够从较大的用户空间中获益的应用程序的时候。

  • IO 相关的信息:

    虽然 红帽企业 Linux 4 包括对 rawio 的支持,但它已是一个过时的接口。如果您的应用程序使用这种接口,Red Hat 建议您改变您的应用程序,使它们通过 O_DIRECT 标志来打开块设备。rawio 接口会在当前的 红帽企业 Linux 4 中存在,但是它有可能会不再被包括在以后的发行版本中。
    文件系统的异步 I/O(AIO)当前只支持 O_DIRECT 或是非缓冲的模式。另外,异步拉 (asynchronous poll) 接口已不再出现,管道 (pipes) AIO 也不再被支持。

  • 红帽企业 Linux 4 仍然提供对 LinuxThreads 的支持,但是 红帽企业 Linux 5 将不再包括对 LinuxThreads 的支持
  • 默认使用LVM2,添加了新的图形化的 Logical Volume Manager (LVM) 配置工具 – system-config-lvm
  • e2fsprogs.ext2online 工具被添加用来在线地扩大已存在的 ext3 文件系统

    需要注意的是,ext2online 并不能扩大它所在的块设备本身 — 一定要有足够的未被使用的空间在这个设备上。最简单的方法是使用 LVM 卷并运行 lvresize 或 lvextend 来扩展这个设备。

继续阅读

2005 ,计划没有变化快

年前写的艰难的选择,本来以为年后已经没有机会了.尤其是昨天,几乎已经成了定局.自己也觉得双方都有了合适的借口,似乎忽然间去了一块心病.没想到的是,今天又有了变化.事情既然已经这样了,朋友仁至义尽,自己也就不能不识抬举了.不管怎么说,也该过去啦.是骡子是马,牵过去遛遛看.

继续阅读

此文位于 MyLife on by .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.