Google 的 Deep-Web Crawl

搜索引擎的行为会对网站架构稳定性有影响么? 肯定的。影响都有哪些呢? 且说,Google 的 Jayant MadhavanVLDB 2008 会议上做了题为 Google’s Deep-Web Crawl 的报告。这个报告其实也透漏出了 Google 对一些网站的潜在影响的某个方面。

何为 Deep Web ?

  • HTML 表单后的隐藏内容(表单提交后显示的内容)
  • 通过普通搜索引擎获取不到的内容

Deep Web (译为深层网页?) 目前容量大约有多大? 超过100 亿的不重复表单,而且大量都是结构化数据。对搜索引擎用户来说,这部分潜藏的数据是非常有价值的。Deep Web 包括的信息内容:

  • 信息型表单;
  • 登录表单不要;
  • 交互性表单也有用;

Google 的解决办法是基于信息模板(informative templates)。其实不难理解,这些模板(似乎也叫查询模板, Query Template)是在 Google 进行了大量的数据分析的基础上得出来,然后通过反馈迭代修正,加上Google 引以自豪的算法啦,渐渐的模板就会很好用了。

绝大多数网站表单后面是要有数据库支撑的。Google 自己计算出来的模板实际上会对应被爬行网站的 DB 查询上来(Google 也是黑箱研究嘛),如果查询模板不是很匹配,或者是 Google 查询的频率过高,相信会对一个被爬行网站的稳定性带来很大冲击。尤其是针对数据库,一时爆发的大量查询引发的高负载可能会让系统撑不住。

EOF

更多的时候,搜索引擎带给一个网站的访问压力甚至大于用户带来的压力,所以,设计的时候也应该尽量采取悲观的方式,不能完全期待 Google 以及其他搜索引擎默认行为都是可以承受的。

支付宝 2009 校园招聘

又到了校园招聘的时间。支付宝的校园招聘计划也启动了。对支付宝感兴趣的同学可以留意一下招聘行程。

Alipay_logo.gif支付宝(Alipay.com)是国内领先的独立第三方支付平台,由阿里巴巴集团创办。公司从2004年建立以来,始终以”信任”作为产品和服务的核心。致力于为中国电子商务提供”简单、安全、快速”的在线支付解决方案。

支付宝提出的建立信任,化繁为简,以技术的创新带动信用体系完善的理念,深得人心。短短三年时间,用户覆盖了整个C2C、B2C、以及B2B领域。截止2008年5月6日,使用支付宝的用户已经超过8000万,支付宝日交易总额超过3.5亿元人民币,日交易笔数超过150万笔。

目前除淘宝阿里巴巴外,支持使用支付宝交易服务的商家已经超过46万家;涵盖了虚拟游戏、数码通讯、商业服务、机票等行业。这些商家在享受支付宝服务的同时,更是拥有了一个极具潜力的消费市场。

支付宝公司拥有专业化的风险监控系统,拥有与银行同等水平的资金管理团队,拥有国内同行业中一流的技术储备。08年产品技术团队将建立上海研发中心。

支付宝,有着创业团队火一般的激情与斗志!

宽阔的发展通路,活色生香的工作氛围,以及年轻、简单、快乐的人际环境。

校园招聘行程

杭州 浙江大学 玉泉校区邵逸夫科学馆 9月22日 19:00
杭州 杭州电子科技大学 第7教学楼127多媒体教室 10月16日 18:30
南京 南京大学 南大科技馆报告厅 10月9日 18:30
上海 华东师范大学 一号楼报告厅105 10月21日 18:30
上海 上海大学 第三教学楼5楼演讲厅 10月22日 14:00
成都 四川大学 招生就业办201报告厅 10月9日 18:30
成都 电子科技大学 清水河校区活动中心园厅(新校区) 10月10日 14:00
武汉 华中科技大学 华中科技大学学生活动中心513 10月13日 18:30
西安 西安交通大学 就业中心信息发布大厅 10月20日 14:00

更为具体的招聘职位,请访问支付宝招聘页面,这个页面还会持续更新。

EOF

Linux 的一点杂记

Q: 环境变量 LD_ASSUME_KERNE 是干啥的?

A: 动态连接器(dynamic linker)决定使用哪个操作系统 ABI (Application Binary Interface) 库的。LD_ASSUME_KERNE 的值要设定为操作系统版本号。比如 2.4.1 。更多参见 Metalink 文档:433292.1 。

Linux 有些版本的严重 Bug:GLIBC: calloc() Breaks when Application Runs with Locked Process Address Space

补充:在 Glibc-2.5-20 以上版本修复。各发行商有单独的版本。RHEL 4.x 中在 4.7 以上修复。不过 RHEL 4.7 Kernel 也有问题

RHEL 5 特性几个值得关注的点

其中一个是 Root device MPIO support,尽管可能没有人会在根设备用 MPIO. 另外一个是 I/O-AT 的支持,I/O-AT 是 Intel 的网络加速技术. 第三个是 Dynamically switchable per-queue I/O schedulers 。

零星记录的一点东西,以后想到什么再补充。 另外,推荐一下 hutuworm 同学的 BLOG 。很有嚼头。

EOF

2008 软件技术英雄会上海站

我们到的时候,Ivar Jacobson 正好开讲,演讲的内容可能很精彩,那个 PPT 说实话真是挺一般。我倒是直接被现场的 叽歪 互动大屏幕吸引住了,巧的是,叽歪的展台上座位空着,我就不客气的霸占了。折腾了半天,才把笔记本的无线硬开关打开,然后抢了半天信号。发出了第一句消息

没想到这一发就不可收拾,信号越是抢不到,越是想抢。上午刚开始的时候大屏幕显示的消息基本上是报道消息和广告消息。到了 SAP 芮祥麟 和接下来的庞升东演讲的时候,大屏幕上的互动明显更活跃了。可见这两位演讲水平其实…芮 居然跑这里来谈什么 80/20 法则,而庞的 PPT 也太粗糙了一点。倒是 Google 的那位用几幅图蒙了不少人。毕竟好图值千言。不过也有眼尖的朋友 “张先生还没有使用 chrome”。这时候现场抱怨无线信号不好的人越来越多(1, 2.)

电梯演讲的时间还是很有趣的。因为每个人只有 5 分钟要展示自己的项目。所以第一个上去的词网科技的张跃语速那叫一个快啊,但”不要学韩乔生老师“嘛。他在台上的时候我才发现就是刚才坐在我旁边的人,我还开玩笑说, “真是静如处子,动如脱兔啊”. 而庄表伟的 PPT 第一句赫然是”十一届三中全会以来”,把所有人都震了,现场笑翻,”雷的我们外焦里嫩“。淘宝的兄弟们说”要顶“。电梯演讲结束后的 VC 点评就不说了吧,还不如台上的几位话语简洁呢。大屏幕上看到有人质疑:咱们这次会议的主题是技术呢还是找VC投资呢?

说说中午吃饭这个恼火事儿。签到的时候,发现参会证里面没有中午餐券,问了工作人员说过一会儿给我们补发。有了这句话,中午到吃饭的时候,淘宝、B2B 的几个兄弟跟我开玩笑说跟着我有饭吃,可被告知没餐券了。这里要批评一下有的工作人员,来的都是客,不能厚此薄彼,外面下着大雨,要我们到哪里去找餐馆 ? 也要批评一下组织者,发了多少张参会证还不知道么? 之前的大段时间就不能重新计划一下如何解决参会者用餐?

还好,凑巧碰到了蒋涛,我抱怨了一句,蒋总,兄弟们还没饭吃阿… 还好,这句话问对人了,总算拿到了另外几张餐券。蒋总涵养就是好,换了别人,谁还理你?

中午回来,孟子E章发消息说”没吃饱”,还有人没饭吃呢… 孟岩的演讲很赞。简明扼要,起码能让我用心听了。这时候我终于有”专线“了。发消息总算不在丢失了。而接下来的这个 IT 人士英语解决之道的演讲实在有点不招人待见。屏幕上出现了本次活动最 Geek 的一则消息,接着出现的消息更让大家捧腹:

  • 不懂英语挺好的,我从Oracle到了淘宝,很爽 by tellee
  • 朋友们,别睡!会场有点冷,感冒了就不好了 by dbanotes
  • 你直接说你的课程多少钱,怎么报名就好了吧?
  • 装一个Eclipse就有语言环境了。(那老师说学英语要有语言环境) by 超时空宝宝
  • 一觉醒来,开始上英语课了!by 135XXXX66102
  • 学电脑到新华 学英语到CSDN软件技术英雄大会 ! by 136XXXX9722

尽管这会儿的演讲最没劲,可台下的 Geek 们实在是最 Hi 的时候,估计那老师听着一阵阵莫名的笑声也发毛。

英雄会,会英雄。下午有一阵感觉我这个 ID (dbanotes) 上镜次数太多了,跑外面歇会儿。和范凯(Robbin)、阿朱、刘韧、张银奎(《软件调试》作者,这会儿我还不知道他是这本书的作者,倒是问了一些 Intel 官方 Blog 的运作的事儿)聊了一会儿。然后在图书展台看到了周筠老师以及图灵的几位编辑。还有 51 的桂新、好多人在找的车东…

回来的时候正是下午的电梯演讲时间。Para Engine 的演示倒是挺吸引人,不过直接说是”Second Life” 的中国版估计VC 就明白了。经过一上午的互动,大家对叽歪网其实也知道是怎么回事了。李卓桓的展示反而有些”绕”。倒是接下来蔡世友的演讲把很多人”震”了, “中气很足”, “这哥们儿嗓门真大”。

这里说说我自己对电梯演讲的看法。作为一个演讲人,你前三句要说清楚“你是谁”,”项目是干什么的”,”项目面向的用户是哪些人”这三个问题。如果三个做不到,那么前两点肯定要说清楚。只有 5 分钟,别太着急(你说的越快别人越记不住东西),你也别寒暄,也别描述什么应用场景(比如李卓桓),说不清楚项目是干什么的,就说出来这项目”像”谁,接下来点一下与被模仿者之间的差异就行了。如果能有个互动演示是最好的,这比语言描述更直接,而且时间容易控制。有一点值得提醒一下,似乎没有人提及自己的团队,都只介绍了自己。

这时的一个小花絮是唧歪大屏幕上出现了寻找 “hero2008” 这个 ID 的活动(0123,好多人感觉消息被屏蔽了不少,激起民愤了 :)

另一个小花絮是说 51.com 的开放平台支持 51ML什么的,然后好多人都在问这个 ML 是什么单词的缩写, 哈哈。

接下来的网络英雄论坛和 CTO 论坛似乎稍有点沉闷,个人感觉如果同时安排到两个会场可能效果会好很多。

因为要赶着回杭州,在大约 5点的时候就撤退了。当然临走也没忘广告一下:

支付宝公司近期将在上海举办专场招聘会,期待各路英雄加盟!此时此刻,非你莫属!参考: http://job.alipay.com/ 

本来支付宝也是会议的赞助商的。原计划还要在会场放置两个易拉宝做宣传。可惜易拉宝坏掉了。还好有叽歪大屏幕在。这也是我在会场频繁发消息的一个原因(如果大家对支付宝感兴趣,请联系我或者把简历发到 [email protected] ,我帮忙推荐)。当然另一个主要的原因也是好玩 :) JUST 4 FUN

最后唠叨几句对会议的感受。首先说叽歪互动大屏幕。尽管有人说可能会喧宾夺主,可对大多数技术人员,尤其是 Geek 来说,没有了这个会让这个会议很无聊(又那么一瞬间,我甚至以为到了中文网志年会会场)。但我不是说叽歪有多出色,我本人是 Twitter 的重度用户,现场用叽歪这个过程已经感觉有些地方的设计仍有改进的余地。另外,会议现场的互动不是多,而是太少了。尤其是缺乏交换名片的互动场景。IT 人员社交圈子也要打开。

批评一下会场的无线网络,真叫一个差。就这么一个弹丸之地,布署一个可靠一点的无线网络难么? 应该不是,只是没有用心罢了,我甚至看到还有一堆没拆封的无线路由器闲置在那里。

然后是前面说的用餐问题。不要让大家饿肚子。而没吃到饭的人肯定中午一去不复返了。尽管有意见,最后还是说,CSDN 的活动挺成功的,谁都知道,搞这么大的会议不容易。

最后说一下,认识了很多新朋友,见到了许多老朋友,在这里可能没提到您的名字,别介意,回忆断断续续的,文章容量也有限。

EOF

补充:1) 这次发现阿里集团内部 Geek 真是非常多啊。大家现场玩的都很高兴。粗略的找了一下,ID 有:超时空宝宝(refer)、tellee、Liang.ChenL、赵小马等。

2) 更多朋友参会感受