最近一直在考虑这个关于信息的”五分钟”的问题。搜索了一下,发现还很少有人考虑这个现象,思路还没有完全理顺,先抛几个观点等待大家的补充吧,期待能引发一些对信息处理的思考。
最早注意到这个现象是每次我 BLOG 更新之后,在大约 5 分钟左右,通过 Google 的 BlogSearch 就可以看到内容。这个倒很容易理解,因为我用的 Movable Type 在发布文章的时候会自动通知一下 Google 服务器。接到通知之后,Google 能够较快的把信息合并(Merge)到当前的索引中,但是应该还没加上非常严格的排序(Sort),这是个很经典的处理技巧。
不过,Google 获得信息绝大部分是通过爬虫”抓取”,也就是”拉”(Pull)数据,只有少部分是用户”推送”(Push)的。这就导致 Google 在信息处理上节拍总要慢一点。Google 的目标是处理地球上的所有信息,无远弗届,但信息的及时性或许是最难解决的。
而 Facebook / Twitter / FriendFeed 等具备面向”实时信息流”(Real Time Lifestreaming)功能的网络应用,大部分信息都是用户”推送”上来的,所以也有天然的优势触及这五分钟之内的数据,并经过简单的局部计算之后呈现给用户。得到”即时”信息似乎是人的天性(另一个侧面的印证是人们无法摆脱手机而全部使用 IM 和电子邮件),所以五分钟之内的数据处理能力是对普通用户来说有着难以言明的吸引力。
“五分钟”只是个大致的说法,相信随着技术的发展,会缩短到三分钟,乃至更短。但这部分始终是 Google 无法完全覆盖的地方,技术没办法打败时间,这也是信息暗网的也无法解决的问题。最终我们发现,信息处理的巨人和信息处理的快刀手一起相处的比较融洽。
–EOF–
注:很明显,这个”五分钟”问题和我之前说的关于 I/O 的五分钟问题是不搭界的。
其实从及时信息来说,五分钟到四分钟再到三分钟,或许就是多添加一些服务器来抓取罢了。
但是从信息有效性来说,google和百度都偏重”老信息”。
实施上人们更相信”新信息”
在Twitter上想要搜某人或者某个主题的内容,难,痛苦,囧。
想在Google上搜到刚刚发生的信息,发现Google暂时还是个”聋子”,”瞎子”;-)
全和快很难做到两全,赞这句:“最终我们发现,信息处理的巨人和信息处理的快刀手一起相处的比较融洽。”!
期待能快一点看到融合的产物。
看标题还以为是上次专题的续篇呢~~
其实几分钟这个差距并不太重要亚,
倒是”可用性”更重要,比如现在的facebook和twitter…
每天都需要看最新的资讯,花5种吧
google在07年左右就已经有这么迅速的收录页面了,尤其是博客页面或者有推送更新的网站。Matt Cutts写过一篇文章说过这个:Minty Fresh Indexing (http://www.mattcutts.com/blog/minty-fresh-indexing/)
你有没有考虑过为什么 google 花那么大力气作类似于 Adsense/Analytics 这样的应用? google 把它的 js 脚本种到你的页面上,想知道你更新了哪些信息,还不是手到擒来。
@clickstone
你要么是技术天才,要么是技术白痴
Twitter 也用 Google 分析服务,为啥 Google不实时搜索呢?
敢问大辉,你平均每天通过Google可以得到多少广告费?我每天才0.5元
毕竟一个是“自家”的信息,一个是外部进来的信息,两者还是有差别的。
五分钟之内,差不多已经到了信息“实时”传送的范畴了。有的信息我们是需要实时的,但是大部分的情况下,这个实时性并不是排在第一位的。