Awstats 新的搜索引擎定义: 114.com.cn

从后台日志上观察到有大量来自 114.com.cn 的搜索。最开始没有注意,还以为是 VNet 过来的–都有个 114 嘛。这两天查询突然暴增,仔细一看,还真不是一回事:

$ grep  114.com.cn access.log |awk  '{print substr($11,1,80)}' |head
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?logo=1&keyword=\xd4\xbd\xd3\xfc\xb5\xda\xd2\xbb\x
"http://so.114.com.cn/usearchp?logo=1&keyword=\xd4\xbd\xd3\xfc\xb5\xda\xd2\xbb\x
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&  

为了节省空间,没有把 URL 都打出来,所用的参数极为诡异,后面还有几个奇怪的参数,AWstats 也根本不能探测到引用的关键词是什么。
搜索了一下,这个站点叫”中国网上黄页”, 是厦门的一家叫什么”中资源”的公司做的。
添加了一下这个搜索引擎的定义,暂时叫他 ‘114’ 吧. 添加定义挺简单的,我做的修改:

$ diff search_engines.pm search_engines.pm.backup1003
192d191
< '114\.com\.cn',
366d364
< '114\.com\.cn','114',
578d575 < '114','keyword=',
754d750
< '114','114',

观察到的效果:

来自搜索引擎  
17 个不同的搜索引擎转介参观者到本站 网页数 百分比 文件数 百分比
Baidu 3231 63.3 % 3461 60.6 %
Google 1602 31.4 % 1896 33.2 %
SoSo 78 1.5 % 78 1.3 %
Yahoo! 53 1 % 54 0.9 %
3721 29 0.5 % 29 0.5 %
NetEase 27 0.5 % 27 0.4 %
SoGou 23 0.4 % 23 0.4 %
Google (Images) 12 0.2 % 18 0.3 %
VNet 10 0.1 % 10 0.1 %
114 10 0.1 % 10 0.1 %
Unknown search engines 8 0.1 % 8 0.1 %
Windows Live 7 0.1 % 71 1.2 %
MSN Search 4 0 % 4 0 %
Iask 3 0 % 5 0 %
ZhougSou 2 0 % 2 0 %
Google (cache) 1 0 % 7 0.1 %
Ask 1 0 % 1 0 %

感觉国内的个别搜索引擎根本不关心什么规范之类的事情,Bot 随便爬,爱咋咋地的态度。
EOF


3 thoughts on “Awstats 新的搜索引擎定义: 114.com.cn

Leave a Reply

Your email address will not be published. Required fields are marked *