Tag Archives: Awstats

Nginx 与 Awstats (FastCGI for Perl)

配置好 Nginx 后,可能有的朋友还想用 Awstats 分析日志。如果另外再起一个 Apache ,觉得费二遍事。如果在 Nginx 上跑 Awstats ,还需要 FASTCGI 支持。配置的方法有些山寨。Nginx 尽管提供 Perl 模块支持,毕竟还是实验性质的。

对比了一些文章,决定还是用 nginx-fcgi 这个脚本。作者是 Daniel Dominik Rudnicki 。这个脚本要比顺子文中提到的要好一点。

该脚本中用到如下的 Perl 模块。所以使用前要确保相关 Perl 模块已经存在。要不,手工下载安装一下。

  • perl-FCGI
  • perl-Getopt
  • perl-IO
  • perl-Socket

使用命令示意:

/usr/local/nginx/nginx-fcgi -S /tmp/fastcgi.sock -l /var/log/nginx/nginx-fcgi.log
-pid /var/run/nginx-fcgi.pid

网上常见的那个脚本必须要显示的指定最为后台进程跑。不是很完善的方法。

注意事项:不能用 root 用户执行(会提示). 要用与 Nginx 相同身份的用户执行。否则可能会在 Nginx Log 中提示 Permision Denied 。

Nginx 中配置好 Log 格式:

log_format  main          '$remote_addr - [$time_local] "$request" ' 
'$status $body_bytes_sent "$http_referer"'
'"$http_user_agent" $http_x_forwarded_for';

相对应的 Awstats 中 Log 格式为:

LogFormat = "%host - %time1 %methodurl %code %bytesd %refererquot %uaquot" 

其他的配置参考一下Sunnyu 的 “为了Awstats给Nginx添加FastCGI方式的Perl支持” 应该就成了。

BTW: 应该说,Nginx 能够有效抵挡搜索引擎爬虫对网站的影响。对于 Apache 来说,这是个很大的进步。

EOF

更新:如果手工写脚本做 Nginx 日志 logrotate 的话,注意不要简单的用 mv 命令, cp 然后 echo ”> 的方式更好。

推荐: Sina 张宴的 Nginx 0.7.x + PHP 5.2.6(FastCGI)搭建胜过Apache十倍的Web服务器(第4版),这是目前关于 Nginx 最详细的实践文章。

AWstats 新版小记

刚在邮件列表里看到通知,AWstats 发布了 6.8 Beta 版。

上一次更新相比,新版本增加了特性不多:

Added OnlyUsers option.
Can show a full list for extrasection.
Can track RPC request.

如果要定制跟踪额外的访问信息,Extrasection 总是绕不过去的。还没测试这个版本,倒是希望这部分内容的配置能更清晰容易一些。

值得一提的是浏览器数据库的更新与 Patch 几乎都是中文搜索引擎与 Web 应用的爬虫相关,据我所知车东同学做了不少这方面的工作。

BTW: AWstats 堪称中小站点分析日志的不二之选。尽管这样,前段时间还是看到有些公司居然不了解这个好用的工具,嗯,推广之。

EOF

此文作者:, 位于 Web 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

AWStats 6.7 正式版发布

邮件列表里看到的消息。AWStats 6.7 正式版发布了。新特性/改进列表:

- Full support for -day option. To build different report for each day
- Added virtualenamequot tag
- Added option NotPageList
- Addes .jobs and .mobi domains

对于第一条,按日构建报告其实从 6.5 版本以后就提供了相关功能。6.7 版本说是 “Full Support”,没看明白怎么个 “Full”。更多内容可以参考车东的AWStats的千万级日志解决方案

EOF

Awstats 新的搜索引擎定义: 114.com.cn

从后台日志上观察到有大量来自 114.com.cn 的搜索。最开始没有注意,还以为是 VNet 过来的–都有个 114 嘛。这两天查询突然暴增,仔细一看,还真不是一回事:

$ grep  114.com.cn access.log |awk  '{print substr($11,1,80)}' |head
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?logo=1&keyword=\xd4\xbd\xd3\xfc\xb5\xda\xd2\xbb\x
"http://so.114.com.cn/usearchp?logo=1&keyword=\xd4\xbd\xd3\xfc\xb5\xda\xd2\xbb\x
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&
"http://so.114.com.cn/usearchp?keyword=\xd4\xbd\xd3\xfc\xb5\xda\xb6\xfe\xbc\xbe&  

为了节省空间,没有把 URL 都打出来,所用的参数极为诡异,后面还有几个奇怪的参数,AWstats 也根本不能探测到引用的关键词是什么。
搜索了一下,这个站点叫”中国网上黄页”, 是厦门的一家叫什么”中资源”的公司做的。
添加了一下这个搜索引擎的定义,暂时叫他 ‘114’ 吧. 添加定义挺简单的,我做的修改:

$ diff search_engines.pm search_engines.pm.backup1003
192d191
< '114\.com\.cn',
366d364
< '114\.com\.cn','114',
578d575 < '114','keyword=',
754d750
< '114','114',

观察到的效果:

来自搜索引擎  
17 个不同的搜索引擎转介参观者到本站 网页数 百分比 文件数 百分比
Baidu 3231 63.3 % 3461 60.6 %
Google 1602 31.4 % 1896 33.2 %
SoSo 78 1.5 % 78 1.3 %
Yahoo! 53 1 % 54 0.9 %
3721 29 0.5 % 29 0.5 %
NetEase 27 0.5 % 27 0.4 %
SoGou 23 0.4 % 23 0.4 %
Google (Images) 12 0.2 % 18 0.3 %
VNet 10 0.1 % 10 0.1 %
114 10 0.1 % 10 0.1 %
Unknown search engines 8 0.1 % 8 0.1 %
Windows Live 7 0.1 % 71 1.2 %
MSN Search 4 0 % 4 0 %
Iask 3 0 % 5 0 %
ZhougSou 2 0 % 2 0 %
Google (cache) 1 0 % 7 0.1 %
Ask 1 0 % 1 0 %

感觉国内的个别搜索引擎根本不关心什么规范之类的事情,Bot 随便爬,爱咋咋地的态度。
EOF