Tag Archives: Graphviz

Web Clickstream 分析

点击流(用户访问路径分析) 似乎是互联网站必须要做的一件事情(我是 UE 门外汉)。如何从千差万别的用户访问行为发现共性,是个很有趣的可研究的东西。不知道这个地方是属于 BI 的活儿还是属于 UE 的(我是门外汉,只是对这个话题好奇罢了)。

类似的话题其实以前车东写过,几年过去了,用于进行 ClickStream 分析的开源工具真的不是很多(这或许也反应了业界对其需求吧)。常见的有 StatVizPathalizer ,还有 Visitors

辅助工具有 ZGRViewerGraphviz等。

php statviz.php --config dbanotes.conf 
dot -Gsize="4096" -Tpdf -o mysite_clickstream.pdf "pairs.dot"

第二行即为 Graphviz 在 Unix 下的基本使用。Ubuntu 系统上可以直接用 apt-get 安装 Graphviz 。

对于 StatViz 的聚合分析模式,觉得对站点分析价值不大。倒是 Individual Session Tracks (现在很多公司可能都自己开发类似的模块了)这个功能值得搞一下,可惜很多人都是集中于前者。对于中大型的站点,可以选择少数服务器激活 mod_usertrack ,收集有代表性的数据进行下一步分析。

Clickstream 这玩意儿是不是必须的? 前一段时间看云风的回忆,对“引擎加入录象” 这个细节印象很深刻。一个很复杂的系统如果缺乏缺陷捕捉能力,那么无疑不是很完美的系统。对于复杂得如迷宫一样的互联网站点,其实也是这样,你知道你的用户怎么访问自己的站点么?

EOF

根据 Session ID 跟踪输出的一份样例图:

ClickStream 样例