分类归档: Web

Nutch 正式发布 1.0 版本

看到消息说 Nutch 正式发布 1.0 版本。这个 Lucene 的衍生项目,现在已经孵化长大。

很早以前我无聊的时候记录过一点使用 Nutch 的笔记(),现在还有人搜过来 :) 时过境迁,已经没啥用啦。

Apache 基金会下面的几个搜索项目应该说是极大解放了生产力,让搜索引擎这个看似高深莫测的东西走入寻常百姓家。很多公司自己的搜索引擎都参考了 Lucene 和 Nutch 不少吧。

EOF

几年前我

不久的将来,有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候,或许 Google 这种垄断式搜索巨头的影响力已经不再!

原来只是痴人说梦。

此文作者:, 位于 Web 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

有道阅读的技术信息

最近北京奇遇花园咖啡馆举办了一场 “Beta 技术沙龙“, 关于”有道阅读器产品设计”的话题。

在杭州也没办法过去参加,倒是第一时间看到了 PPT。又问了以下,PPT 可以进行传播。所以截取了两张图(版权属于有道)学习一下。先是交互易用性问题。有道的数据库缓存策略是把当天的数据缓存起来,用 Memcached ,不知道改造过过还是默认方式使用。有道的 Ajax 交互的响应速度相对比较快。也是 用 JQuery — 几乎快成了居家旅行必备 JavaScript 库了。

Youdao_Data_Interactive.png.png

用 YSlow 分析了一下有道前端的一些策略,发现大部分都做得不错,挺专业。Web 服务器是 Apache (不是 Nginx ),不过大部分图片设置为一周过期有些问题,太保守了,其实图片不过期也没啥问题,RSS 阅读器中的静态文件其实几乎不变化–除了用户的头像。应该说,判断一个网站是否合格,看看前端优化做得如何就可以了,如果做的不好,要么是太有钱,不担心带宽和计算资源的浪费,要么是根本不考虑用户的使用感受。

Youdao_Data_Security.png

对于抓取的数据全部保存的问题,我不知道有道对 Feed 抓取过的内容更新问题如何处理。谁让咱没去现场呢,等下次有机会再了解一下吧。最后一点期望:有道什么时候能把订阅数让 FeedBurner 正确识别? 相信对大一点的网站 Google 多少能重视一点吧 ?

EOF

今年以来,一些小型但有针对性的技术沙龙逐渐活跃起来了,嗯,杭州,在 5 月份之后也将开搞,敬请期待。

肯定有人问哪里有 PPT ? 访问 Club.blogbeta.com

另参见:霍钜的 《关于有道阅读的beta技术沙龙》

Lighttpd 的 spawn-fcgi 成为独立项目

收到邮件说 Spawn-fcgi 成为独立项目,并且预发布了 1.6 版本。

原来很多人都用 Lighttpd 的 Spawn-fcgi 进行 FastCGI 模式下的管理工作,不过有不少缺点。而 PHP-fpm 的出现多少缓解了一些问题,但 PHP-fpm 有个缺点就是要重新编译,这对于一些已经运行的环境可能有不小的风险(refer)。

原来 spawn-fcgi 版本也比较乱的,期待独立后的项目能更稳定一些。这会给很多 Web 站点带来便利。

EOF

Web Analytics 方法

Web Analytics 的几种方法中,分析 Web 服务器日志(Logfile Analysis) 与页面标记方法(Page Tagging/JavaScript Tagging, 也有称之为”打点”)相对更常见一些。今天发现一个关于二者的对比表格,感觉还是挺有帮助的,粗翻了一下,留作参考。

Web Analysis Compare.png
(点击可看大图)

Page Tagging 的方式对业务控制(比如特定业务预警)更为灵活一些。其他的方法比如 Web Beacons(Web Bug) 的方法在 Web 1.0 的时候还是挺普遍的,对付当前的各种新型 Web 应用已经无能为力。

在设计 Web 应用的初期架构师就应该考虑 Web 分析的方法接口,就像在程序中预置性能调试接口那样,早点考虑,会少许多麻烦。

关于 Web Analytics,仍然存在许多误解与误用。冷暖自知吧。

EOF