分类归档: Web

Web Clickstream 分析

点击流(用户访问路径分析) 似乎是互联网站必须要做的一件事情(我是 UE 门外汉)。如何从千差万别的用户访问行为发现共性,是个很有趣的可研究的东西。不知道这个地方是属于 BI 的活儿还是属于 UE 的(我是门外汉,只是对这个话题好奇罢了)。

类似的话题其实以前车东写过,几年过去了,用于进行 ClickStream 分析的开源工具真的不是很多(这或许也反应了业界对其需求吧)。常见的有 StatVizPathalizer ,还有 Visitors

辅助工具有 ZGRViewerGraphviz等。

php statviz.php --config dbanotes.conf 
dot -Gsize="4096" -Tpdf -o mysite_clickstream.pdf "pairs.dot"

第二行即为 Graphviz 在 Unix 下的基本使用。Ubuntu 系统上可以直接用 apt-get 安装 Graphviz 。

对于 StatViz 的聚合分析模式,觉得对站点分析价值不大。倒是 Individual Session Tracks (现在很多公司可能都自己开发类似的模块了)这个功能值得搞一下,可惜很多人都是集中于前者。对于中大型的站点,可以选择少数服务器激活 mod_usertrack ,收集有代表性的数据进行下一步分析。

Clickstream 这玩意儿是不是必须的? 前一段时间看云风的回忆,对“引擎加入录象” 这个细节印象很深刻。一个很复杂的系统如果缺乏缺陷捕捉能力,那么无疑不是很完美的系统。对于复杂得如迷宫一样的互联网站点,其实也是这样,你知道你的用户怎么访问自己的站点么?

EOF

根据 Session ID 跟踪输出的一份样例图:

ClickStream 样例

PHP FastCGI 进程管理器: PHP-FPM

最近 PHP-FPM (PHP FastCGI Process Manager) 这个话题在讨论组里很受关注。使用 PHP 的朋友对于 FastCGI 进程的管理估计都很头疼,比如 Nginx 下的 FastCGI 就有不少人用的 Lighttpd 的 spawn-fcgi 来对进程进行管理。但这样存在不少缺点(中文版本)。

PHP-FPM 配置起来很简单,但有一点比较有意思的是如何确定 Worker 的数量。PHP-FPM 作者 Andrei Nigmatulin 在新闻组里提到的小技巧如下:

1) 用 Linux top 命令观察 (这个方式比较土)
2) 用 'netstat -np | grep 127.0.0.1:9000' 收集数据。
设置 php-fpm.conf 中的 max_children 的数值使 等待的数量变为最小。

目前使用 PHP-FPM 还只是通过 Patch 方式,然后编译,期待能够早点并入正式的 PHP 代码中。当然,PHP 核心开发的那些大爷们也不知都在忙什么呢,莫非还在为 Unicode 较劲呢?

EOF

Tips : PHP-FPM on highload tips

此文作者:, 位于 Web 分类 标签: , , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

侠客行恭候网络侠客

后天,第二届中国网络工程师侠客行大会就召开了。届时,会有来自 Google、微软、雅虎的顶级专家进行技术分享。

Web 2.0 元素

和上次预告除了与会嘉宾稍稍有点出入的是,Yahoo! 旗下的 Flickr 这次会派出 John Thrall 进行题为 Flickr Architecture 的技术演讲。MySQL AB 公司创始人与 CTO David Axmark 将在上午有 Keynote。另外,下午还有 David Recordon 带来的 OpenID 话题。应该说这次会议也充满了 Web 2.0 技术元素的(其实个人觉得开放平台/SaaS 才是重点)。

关于门票

准备参加的朋友如果没有在网络报名打印报名表,我这里还有几张空余门票。给我留言,注明下午参加那个场次。我会回邮件告知电话,到时候在会场找我即可。

大侠风尚、Single Party

下午听完讲座后,可以用门票换取晚上的 大侠风尚和 Single Party 的门票。或许有朋友能结成良缘也说不定的:)

小广告: 支付宝招聘

支付宝技术部近期在招聘。网站上有相对具体的 招聘要求,我们这边目前对架构师和 DBA 还是比较缺的。感兴趣的,联系我。

EOF

Nginx 的推广问题

偶然发现 Nginx 稳定版本更新到了 0.6.31,这个版本修正的第一个 Bug 值得注意:

Nginx did not process FastCGI response if header was at the end of FastCGI record 

现在国内 Nginx 的用户越来越多了,多数拥抱 Nginx 的网站都钟意其优异的性能表现,如果是相对比较大的网站,节约下来的服务器成本无疑是客观的。而有些小型网站往往服务器不多,如果采用 Apache 这类传统 Web 服务器,似乎也还能撑过去。但个人觉得有其很明显的弊端: Apache 在处理流量爆发的时候(比如爬虫或者是 Digg 效应) 很容易过载,这样的情况下采用 Nginx 不失为大胆而有效的尝试。

当前 Ngnix 美中不足之处是相关的文档和用户经验都还是很欠缺,用户之间还很难做到可借鉴性的交流。

最近因为朋友遇到一些技术问题,我也翻阅了不少 Nginx 的邮件列表内容,发现大量的技术细节仍然在频繁变化中,可是中文社区内相关的记录和讨论太少了。相信国内这些 Nginx 用户积攒的经验肯定是不少的,但可能是因为某些其它因素考虑而看不到相关的技术分享。

当期待大家都做某件事情的时候,最好从自己做起。现在开始尝试收集 Nginx 的相关技术细节……

EOF

小发现,网易新闻用的是 nginx/0.5.36

此文作者:, 位于 Web 分类 标签: , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.