测试 OpenRSS.net 在几个搜索引擎的情况

因为 Gregarius 的 URL_REWRITE 做的不错.OpenRSS.net 也算上线了几天了.好奇心起,看看在各个搜索引擎的收录情况.从访问日志上看,各个搜索引擎的机器人都有光顾.尤其以 Yahoo Slurp 和 百度的 BaiDuSpider 最为频繁.这两家的爬虫居然各自有几千次.Google 的 Googlebot 光顾的次数比较少.每天大约 5/6 次而已. MSNBot 光顾的还要再少一些.

从搜索的结果上看,用 site:www.openrss.net 搜索百度,居然有 540 个站内页面可以找到. 搜索Google,只有孤零零的一个结果,而 MSN 的爬虫虽然来的次数少,但是还是有效率,可以找到 31 项. Yahoo! Search 呢? 用 domain:www.openrss.net 查询,结果为零.不过从一搜那里倒是可以找到一个.

2005/10/27Update:现在在一搜中的结果已经到了 470个.Google 还是 1. 在 Search.yahoo.com 中也出现了 9 条记录.百度1090 .不过 一搜 的窜升速度太快了.相信不久就可以超过百度.从这边爬虫的来访频度来看,也是一搜越来越频繁.

继续阅读

Gregarius , Ajaxed Online Rss Reader

第一次注意到 Gregarius 是在 Lilina 的论坛里面. 看到 Gragarius 之后,就想抛掉 Lilina 以及 Ajax-ed Lilina. 因为 本身存在的一些问题没办法解决,不得不放弃.从一个普通用户的角度上看,Lilina 存在的主要问题有:

  • RSS 抓取速度太慢.尽管可以利用 Wget 工具在后台构建一个静态页面.但是 Lilina 订阅的种子数量还是不能太多.否则光解析就是灾难.
  • RSS Feed 不能分类.所有的 RSS 都放到一起.看起来有点杂乱无章.
  • 不支持数据库.
  • 开发进度缓慢,基本上已经停止开发.也就是说出现问题能够得到的支持非常的少.

另外一个功能类似的 Feedonfeeds ,结构太松散了.而对比之下, Gregarius 的功能似乎让人惊讶. 我比较关注的几点如下:

  • AJAX 能够带来更好的用户体验. 支持 AJAX 化的 Tag定制功能
  • Supports themes and plugins 带来了良好的扩展性.
  • Search in your feeds 具备查找功能 .
  • 良好的 url_rewrite 设计.
  • 支持 MySQL 和 SQLite

对 Gregarius 分析了几天之后,接着利用了几天的休息时间,把 Gregarius 在 OpenRSS.net 上搭建了起来.部署应该是个很简单的事情,但是因为是虚拟主机,遇到了很多问题.还好,大部分都已经解决.涉及到的问题大致有如下几个:

继续阅读

把 Feedburner 作为 Blog Proxy 来用

很多朋友是 FeedBurner 的忠实用户,把自己的 Blog ,图片书签等交给 FeedBurner 统一烧制成一个 Feed .其实,FeedBurner 也可以用来做 Blog 代理, BlogSpot 上的很多内容由于某种原因,国内都是不可以访问的,但是可以直接用 FeedBurner 烧制 Feed,这样间接的转一下,就可以看到大部分的 Blog 内容.

比如,Oracle 公司专家 Thomas Kyte 的 Blog ,就可以直接把 URL 交给 FeedBurner 烧制,可以自动探测出 Feed .

这样有的时候只能看到 Blog 的一部分.所以如果作者的 Blog “量给的足”,不是只有摘要(Excerpt)或者链接.这个在 OpenRSS.net 上当我抓取 Official Google Blog 的 Blog 的时候很有体会.一次给足是个不错的习惯.期待 FeedBurner 以后能够推出可以抓取 Blog 全文的服务.毕竟这不是难事.

继续阅读

备份 Del.icio.us 书签

美味书签比较好用,但是如果一旦数据丢失,对广大忠诚用户的损失可不小.和车东曾经聊起过,如果有个地方可以备份个人在 Del.icio.us 的上的书签就好了。今天发现 http://www.rawsugar.com/ 提供了备份 del.icio.us 书签的功能。 当然,这可不是挖 del.icio.us 的墙角。

备份的步骤比较简单。先在 RawSugar 注册。然后跑到 http://del.icio.us/api/posts/all ,输入在 Del.icio.us 的用户名字和密码,就可以把 del.icio.us 书签全部导出来。XML 格式的。接着,在这里就可以进行导入。唯一不够完美的是,这个导入是否完全不是立刻可以得到结果,必须等到 E-Mail 通知。(当然,这个时间并不需要很长)

继续阅读