Tag Archives: BI

啤酒与尿布的故事可以休矣

其实到现在我还在怀疑「啤酒和尿布」(Beer and Nappies)故事的真实性。这个故事最开始应该是从一些做商务智能(BI) 的软件厂商那里传出来的,神乎其神。按理说,这个故事应该给超级市场以无限启发才对,可实际上在超市里面观察一下,发现根本没有类似的物品摆放,相近的都很少。更多的时候,「聚类」才是最大的关联性。

「智能」是一回事,凭借经验也同样能推导出所谓的「智能」,比如找一些有经验的人站在收银台观察,应该也能同样总结出所谓的「模式」,成本或许更低。软件有的时候也不过是对真实世界的模拟而已,何况很多时候只是「指哪打哪」似的模拟。

经常在网络上能看到一些人拿着这个故事生搬硬套自己的观点,什么数据仓库啊、数据挖掘、数据分析啊,商务智能啊,甚至什么数据库营销都拉上这个故事来显示所谓的重要性,诚可笑也。在各种的商业场合上,看到太多造出数据从而证明观点的例子了。

国内的互联网应用中,能看到的一个真正有突破的是淘宝以前的推荐系统,用户在搜索婴幼儿智力玩具的时候,关联搜索会出现「孕妇减肥」相关的产品,稍微饶点弯才能发现其中的关联性,而且是真正的关联。这个还是有那么一点智能的意思的(不用去测试了,现在已经发生变化了)。其他如豆瓣、Amazon(中国) 的购物推荐,基本上还是根据「类别」的信息做关联,看似智能,不过是程序帮你更多做了一步。

啤酒和尿布的故事可以休矣,以后可以用「智力玩具与减肥药」了。

EOF

更新,最近看到另一个有趣的例子是有人建议「在线播放器」旁边放「卫生纸」的广告,当然是开玩笑的,不过我觉得比「啤酒和尿布」更接近真实场景一些,至于为什么,宅男估计很容易明白。

这是四年前写的东西,今天重新翻出来更新一下,面对各种以讹传讹的故事,我们还要仔细想想,不要自己骗了自己。

Updated: 后来证实,这个故事的确是编造出来的。信息来源

此文作者:, 位于 Review 分类 标签: , , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Paypal 的 数据仓库管窥

一直以来,Paypal 的技术信息都很封闭的,很少能看到披露后台关于信息架构的东西。

Paypal 当前的数据仓库用的是 NCR Teradata ,32 个节点,50 TB 的数据,耗时三年打造。而整个公司投入在 BI 范围上的资金占据全部 IT 投入的 60%。

之前 Paypal 用的是 Oracle 数据仓库的解决方案,旧的 Oracle 数据仓库环境其实类似生产环境 Schema 数据的镜像。从 Oracle 到 Teradata ,不是简单的迁移,而是完全重构了数据模型,对数据重新清洗并提高数据质量。

因为欧美是依赖信用卡的消费习惯,所以 Paypal 面对的信用卡消费欺诈还是很严重的,一度高达 0.25% 的资损(印象中好像有段时间来自俄罗斯和东欧的欺诈特别多),这可能也是 Paypal 在数据仓库/BI 上投入重金的一个原因(此外还收购Fraud Sciences 公司来减少这方面的风险)。

除了有效提供损益报告,Paypal 的数据仓库还必须即时有效的提供的一个指标叫做 “Funny Mix”,代表信用卡资金交易帐务平衡指标与 ACH(自动化清算所,Automated Clearing House) 帐务平衡。

作为对比 eBay 数据仓库环境每天新进来的数据就有 40TB(和Yahoo! 的DW不相上下),这样的数据量,处理起来的难度还是有一点点的,据说原来技术人员 90% 的时间要花费在数据清洗上,现在也开始用 Teradata 大集中式数据仓库的模式了。

尽管收集 Paypal 的信息非常不容易,但也希望能挖掘出点有意思的东西来。

EOF

淘宝的 Web 2.0 应用

其实淘宝的社区已经比较 Web 2.0 了,但是非常奇怪的是在主站点这边一直比较谨慎。前一段时间淘宝的收藏功能上线,经过一段时间的考验,据说效果非常好。

 聚宝盆 = Del.icio.us + Digg + BI 

del.icio.us 和 digg 的模式如果模仿起来并不难,但是淘宝很巧妙的和 BI 结合起来,这个产品的核心价值还在与 BI 的运用:智能推荐产品,“婴幼儿智力开发用品关联到丰胸露和产后塑身”,我开始看到还以为是搞笑,仔细一想还是比较惊讶的,几乎可以和著名的”尿布与啤酒”的 BI 案例相比了。

灵活的运用已有的应用模式,其实也是很好的创新。

EOF