从后台日志上观察到有大量来自 114.com.cn 的搜索。最开始没有注意,还以为是 VNet 过来的–都有个 114 嘛。这两天查询突然暴增,仔细一看,还真不是一回事:
$ grep 114.com.cn access.log |awk '{print substr($11,1,80)}' |head "http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe& "http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe& "http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe& "http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe& "http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe& "http://so.114.com.cn/usearchp?logo=1&keyword=\xd4\xbd\xd3\xfc\xb5\xda\xd2\xbb\x "http://so.114.com.cn/usearchp?logo=1&keyword=\xd4\xbd\xd3\xfc\xb5\xda\xd2\xbb\x "http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe& "http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe& "http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
为了节省空间,没有把 URL 都打出来,所用的参数极为诡异,后面还有几个奇怪的参数,AWstats 也根本不能探测到引用的关键词是什么。
搜索了一下,这个站点叫”中国网上黄页”, 是厦门的一家叫什么”中资源”的公司做的。
添加了一下这个搜索引擎的定义,暂时叫他 ‘114’ 吧. 添加定义挺简单的,我做的修改:
$ diff search_engines.pm search_engines.pm.backup1003 192d191
< '114\.com\.cn',
366d364
< '114\.com\.cn','114',
578d575 < '114','keyword=',
754d750
< '114','114',
观察到的效果:
来自搜索引擎 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
感觉国内的个别搜索引擎根本不关心什么规范之类的事情,Bot 随便爬,爱咋咋地的态度。
–EOF–