Nutch 0.6 is out !

2005 Jan 14 ,Nutch.org 发布了 Nutch 0.6 版本。和早前那篇概述中的描述变化不大。我感兴趣的但上次没介绍的内容有:

  • HTML 中添加了 BASE 标记的支持
  • 添加了插件 index-more 和 more.jsp
  • Fetcher.java 新添加了一个选项:-noParsing
  • 添加了 ontology 插件

继续阅读

此文作者:, 位于 Web 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

图片存储-CDN-数字图书馆-P2P-BT……

Linuxtea 上看到一个贴子:
大量图片如何保存到数据库?自己也加了一点错误的讨论。之后和 Piner 聊天的时候,由此他提到China Cache ,找了一下,了解一点 CDN 的概念:

CDN 的英文全称是 Content Delivery Network,即互联网内容发布网络,它是一个建立并覆盖在互联网(Internet)之上、由分布在不同区域的节点服务器群组成的虚拟网络,CDN可以实现把网站的内容高效、稳定地[注:不存在单点故障]发布到离网民最近的地方。这里还有点信息。

以前曾经考虑过下一波互联网的一个重要应用或许是如何快速分发大数据量的媒体内容。比如网络游戏的快速传播、网络直播等。当时考虑到 BT 等工具为代表的 P2P 技术或许能起到一定作用。但现在想起来,P2P 技术很难做到实时的分发。在媒体直播的时候就有些力不从心。

继续阅读

此文作者:, 位于 Web 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Bootchart 的新变化

前一段时间介绍了Bootchart。最近注意到该工具有了不少新变化。首先是官方站点迁移到http://www.bootchart.org 了;其次是2005-01-10 发布了新的版本 0.7,可以在这里下载。看了一下 TODO 列表中的内容:

  • Add additional performance layers: number of open files, disk write throughput
  • Include kernel boot profiling
  • Add an option to explicitly enable bootchart logging using a kernel command line option (and disable logging by default)
  • Prepare RPM package

继续阅读