Google 的 Deep-Web Crawl
搜索引擎的行为会对网站架构稳定性有影响么? 肯定的。影响都有哪些呢? 且说,Google 的 Jayant Madhavan 在 VLDB 2008 会议上做了题为 Google’s Deep-Web Crawl 的报告。这个报告其实也透漏出了 Google 对一些网站的潜在影响的某个方面。
何为 Deep Web ?
- HTML 表单后的隐藏内容(表单提交后显示的内容)
- 通过普通搜索引擎获取不到的内容
Deep Web (译为深层网页?) 目前容量大约有多大? 超过100 亿的不重复表单,而且大量都是结构化数据。对搜索引擎用户来说,这部分潜藏的数据是非常有价值的。Deep Web 包括的信息内容:
- 信息型表单;
- 登录表单不要;
- 交互性表单也有用;
Google 的解决办法是基于信息模板(informative templates)。其实不难理解,这些模板(似乎也叫查询模板, Query Template)是在 Google 进行了大量的数据分析的基础上得出来,然后通过反馈迭代修正,加上Google 引以自豪的算法啦,渐渐的模板就会很好用了。
绝大多数网站表单后面是要有数据库支撑的。Google 自己计算出来的模板实际上会对应被爬行网站的 DB 查询上来(Google 也是黑箱研究嘛),如果查询模板不是很匹配,或者是 Google 查询的频率过高,相信会对一个被爬行网站的稳定性带来很大冲击。尤其是针对数据库,一时爆发的大量查询引发的高负载可能会让系统撑不住。
–EOF–
更多的时候,搜索引擎带给一个网站的访问压力甚至大于用户带来的压力,所以,设计的时候也应该尽量采取悲观的方式,不能完全期待 Google 以及其他搜索引擎默认行为都是可以承受的。
支付宝 2009 校园招聘
又到了校园招聘的时间。支付宝的校园招聘计划也启动了。对支付宝感兴趣的同学可以留意一下招聘行程。
支付宝(Alipay.com)是国内领先的独立第三方支付平台,由阿里巴巴集团创办。公司从2004年建立以来,始终以”信任”作为产品和服务的核心。致力于为中国电子商务提供”简单、安全、快速”的在线支付解决方案。
支付宝提出的建立信任,化繁为简,以技术的创新带动信用体系完善的理念,深得人心。短短三年时间,用户覆盖了整个C2C、B2C、以及B2B领域。截止2008年5月6日,使用支付宝的用户已经超过8000万,支付宝日交易总额超过3.5亿元人民币,日交易笔数超过150万笔。
目前除淘宝和阿里巴巴外,支持使用支付宝交易服务的商家已经超过46万家;涵盖了虚拟游戏、数码通讯、商业服务、机票等行业。这些商家在享受支付宝服务的同时,更是拥有了一个极具潜力的消费市场。
支付宝公司拥有专业化的风险监控系统,拥有与银行同等水平的资金管理团队,拥有国内同行业中一流的技术储备。08年产品技术团队将建立上海研发中心。
支付宝,有着创业团队火一般的激情与斗志!
宽阔的发展通路,活色生香的工作氛围,以及年轻、简单、快乐的人际环境。
校园招聘行程
杭州 浙江大学 玉泉校区邵逸夫科学馆 9月22日 19:00
杭州 杭州电子科技大学 第7教学楼127多媒体教室 10月16日 18:30
南京 南京大学 南大科技馆报告厅 10月9日 18:30
上海 华东师范大学 一号楼报告厅105 10月21日 18:30
上海 上海大学 第三教学楼5楼演讲厅 10月22日 14:00
成都 四川大学 招生就业办201报告厅 10月9日 18:30
成都 电子科技大学 清水河校区活动中心园厅(新校区) 10月10日 14:00
武汉 华中科技大学 华中科技大学学生活动中心513 10月13日 18:30
西安 西安交通大学 就业中心信息发布大厅 10月20日 14:00
更为具体的招聘职位,请访问支付宝招聘页面,这个页面还会持续更新。
–EOF–
Linux 的一点杂记
Q: 环境变量 LD_ASSUME_KERNE 是干啥的?
A: 动态连接器(dynamic linker)决定使用哪个操作系统 ABI (Application Binary Interface) 库的。LD_ASSUME_KERNE 的值要设定为操作系统版本号。比如 2.4.1 。更多参见 Metalink 文档:433292.1 。
Linux 有些版本的严重 Bug:GLIBC: calloc() Breaks when Application Runs with Locked Process Address Space
补充:在 Glibc-2.5-20 以上版本修复。各发行商有单独的版本。RHEL 4.x 中在 4.7 以上修复。不过 RHEL 4.7 Kernel 也有问题。
RHEL 5 特性几个值得关注的点
其中一个是 Root device MPIO support,尽管可能没有人会在根设备用 MPIO. 另外一个是 I/O-AT 的支持,I/O-AT 是 Intel 的网络加速技术. 第三个是 Dynamically switchable per-queue I/O schedulers 。
零星记录的一点东西,以后想到什么再补充。 另外,推荐一下 hutuworm 同学的 BLOG 。很有嚼头。
–EOF–