2005 Jan 14 ,Nutch.org 发布了 Nutch 0.6 版本。和早前那篇概述中的描述变化不大。我感兴趣的但上次没介绍的内容有:
- HTML 中添加了 BASE 标记的支持
- 添加了插件 index-more 和 more.jsp
- Fetcher.java 新添加了一个选项:-noParsing
- 添加了 ontology 插件
在 Linuxtea 上看到一个贴子:
大量图片如何保存到数据库?自己也加了一点错误的讨论。之后和 Piner 聊天的时候,由此他提到China Cache ,找了一下,了解一点 CDN 的概念:
CDN 的英文全称是 Content Delivery Network,即互联网内容发布网络,它是一个建立并覆盖在互联网(Internet)之上、由分布在不同区域的节点服务器群组成的虚拟网络,CDN可以实现把网站的内容高效、稳定地[注:不存在单点故障]发布到离网民最近的地方。这里还有点信息。
以前曾经考虑过下一波互联网的一个重要应用或许是如何快速分发大数据量的媒体内容。比如网络游戏的快速传播、网络直播等。当时考虑到 BT 等工具为代表的 P2P 技术或许能起到一定作用。但现在想起来,P2P 技术很难做到实时的分发。在媒体直播的时候就有些力不从心。
前一段时间介绍了Bootchart。最近注意到该工具有了不少新变化。首先是官方站点迁移到http://www.bootchart.org 了;其次是2005-01-10 发布了新的版本 0.7,可以在这里下载。看了一下 TODO 列表中的内容:
邮件列表中有人问:如果有两个执行计划,如何判定哪一个更好?COST 能作为判断的依据么?