Google 的 Deep-Web Crawl

搜索引擎的行为会对网站架构稳定性有影响么? 肯定的。影响都有哪些呢? 且说,Google 的 Jayant MadhavanVLDB 2008 会议上做了题为 Google’s Deep-Web Crawl 的报告。这个报告其实也透漏出了 Google 对一些网站的潜在影响的某个方面。

何为 Deep Web ?

 • HTML 表单后的隐藏内容(表单提交后显示的内容)
 • 通过普通搜索引擎获取不到的内容

Deep Web (译为深层网页?) 目前容量大约有多大? 超过100 亿的不重复表单,而且大量都是结构化数据。对搜索引擎用户来说,这部分潜藏的数据是非常有价值的。Deep Web 包括的信息内容:

 • 信息型表单;
 • 登录表单不要;
 • 交互性表单也有用;

Google 的解决办法是基于信息模板(informative templates)。其实不难理解,这些模板(似乎也叫查询模板, Query Template)是在 Google 进行了大量的数据分析的基础上得出来,然后通过反馈迭代修正,加上Google 引以自豪的算法啦,渐渐的模板就会很好用了。

绝大多数网站表单后面是要有数据库支撑的。Google 自己计算出来的模板实际上会对应被爬行网站的 DB 查询上来(Google 也是黑箱研究嘛),如果查询模板不是很匹配,或者是 Google 查询的频率过高,相信会对一个被爬行网站的稳定性带来很大冲击。尤其是针对数据库,一时爆发的大量查询引发的高负载可能会让系统撑不住。

EOF

更多的时候,搜索引擎带给一个网站的访问压力甚至大于用户带来的压力,所以,设计的时候也应该尽量采取悲观的方式,不能完全期待 Google 以及其他搜索引擎默认行为都是可以承受的。


3 thoughts on “Google 的 Deep-Web Crawl

 1. fanxiaowen

  在设计网站数据库访问负载这方面,基本都不考虑搜索引擎爬虫带来的高负载,所以公司的网站经常爆也算正常了。

  Reply
 2. 新手报到

  提个建议,老兄能不能来点更实惠的,多介绍一些优秀的架构,也好让大家了解一下阿里的技术平台。具体说就是架构原型是什么样子,什么情况下,做了哪些改造,解决了哪些问题,现在瓶颈有是什么,以后有什么规划,对新人有什么建议等等,或者来段开源代码的利弊分析让大家讨论讨论也实惠点啊。全是这些“空动”的文字实在是看的不过瘾啊。

  Reply
 3. Fenng

  @新手报道
  你认为你们公司(如果是商业公司)会让你把公司技术信息写出去么?
  如果要找不空洞的文字只能靠你来写了

  Reply

Leave a Reply

Your email address will not be published. Required fields are marked *