啤酒与尿布的故事可以休矣

其实到现在我还在怀疑「啤酒和尿布」(Beer and Nappies)故事的真实性。这个故事最开始应该是从一些做商务智能(BI) 的软件厂商那里传出来的,神乎其神。按理说,这个故事应该给超级市场以无限启发才对,可实际上在超市里面观察一下,发现根本没有类似的物品摆放,相近的都很少。更多的时候,「聚类」才是最大的关联性。

「智能」是一回事,凭借经验也同样能推导出所谓的「智能」,比如找一些有经验的人站在收银台观察,应该也能同样总结出所谓的「模式」,成本或许更低。软件有的时候也不过是对真实世界的模拟而已,何况很多时候只是「指哪打哪」似的模拟。

经常在网络上能看到一些人拿着这个故事生搬硬套自己的观点,什么数据仓库啊、数据挖掘、数据分析啊,商务智能啊,甚至什么数据库营销都拉上这个故事来显示所谓的重要性,诚可笑也。在各种的商业场合上,看到太多造出数据从而证明观点的例子了。

国内的互联网应用中,能看到的一个真正有突破的是淘宝以前的推荐系统,用户在搜索婴幼儿智力玩具的时候,关联搜索会出现「孕妇减肥」相关的产品,稍微饶点弯才能发现其中的关联性,而且是真正的关联。这个还是有那么一点智能的意思的(不用去测试了,现在已经发生变化了)。其他如豆瓣、Amazon(中国) 的购物推荐,基本上还是根据「类别」的信息做关联,看似智能,不过是程序帮你更多做了一步。

啤酒和尿布的故事可以休矣,以后可以用「智力玩具与减肥药」了。

EOF

更新,最近看到另一个有趣的例子是有人建议「在线播放器」旁边放「卫生纸」的广告,当然是开玩笑的,不过我觉得比「啤酒和尿布」更接近真实场景一些,至于为什么,宅男估计很容易明白。

这是四年前写的东西,今天重新翻出来更新一下,面对各种以讹传讹的故事,我们还要仔细想想,不要自己骗了自己。

Updated: 后来证实,这个故事的确是编造出来的。信息来源

此文作者:, 位于 Review 分类 标签: , , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

20 thoughts on “啤酒与尿布的故事可以休矣

  1. Fenng

    @康德
    是很复杂。但复杂后起到的作用可能和聚类或者同一个Tag抓过来的信息差不多
    更多的时候,复杂未必是好事情。

    Reply
  2. easy

    dbanotes这其实也并不是什么难的事情。
    不过宣扬一下也是好事!计算两个词的同现是最基本的方法了。”婴幼儿” 和 “孕妇” 肯定是在offer中同现过一定的频率。

    Reply
  3. fork

    @Fenng
    tag和聚类的问题是太粗,包括进来的东西往往太多。我觉得很多推荐系统都是先用tag和聚类初选,然后用高级点的算法算相关度, 排序。 就像google, 先用根据网页内容过滤,然后对选中的网页用pagerank排序。

    Reply
  4. 地衣

    博主可以怀疑结论的现实性,但不要因为自己不做BI就嘲笑它用的方法,因为这已经是目前最专业的方法了。

    Reply
  5. pickerel

    智力玩具与减肥药这种关联只要产品人员多下点力气就能发现的,而一个好的挖掘系统,应该是能帮你发现那些你难以发现潜在关联的,啤酒与尿布就是这样的例子,这个例子远比智力玩具与减肥药来的更有分量。

    Reply
  6. 胖子

    啤酒和尿片的故事很早就有人置疑,可参考这个链接:http://web.onetel.net.uk/~hibou/Beer%20and%20Nappies.html。
    事实上,在网络数据/文本挖掘领域的从业者中,很少有人会刻意提到“智能”这个词,因为它实在是有点outdated。上个世纪六十年代AI在机
    器推理和知识表述领域巨大的成功,使得人们很乐观的估计要不了多长时间就能真正的实现机器智能。后来四十多年的发展证明这是个彻头彻
    尾的泥潭,反而是原来在AI领域不那么正统的机器学习越来越收到人们的重视。即便是对最外行的人作解释,任何一个严肃的机器学习专业的
    人也不会说自己的程序是智能的。
    十多年以前数据挖掘作为一个行业开始付出水面的时候,主要的从业者的专业背景来自三个方面:数据库、统计、机器学习。其中数据库的背
    景是最重要的,因为一方面他们有商业系统的经验,最贴近用户,另一方面他们有摆弄海量数据的能力。当时用到的主要是各种统计的方法,
    以及在此基础上建立的关联规则、决策树等模型。机器学习在这里更多的是作一些研究性质的工作。九十年代末互联网的爆发彻底改变了这种
    情况。在网络数据/文本挖掘领域,由于信息的数量和多样性迅速膨胀和计算资源大大丰富,以及快速获取用户反馈能力的迅速提升,数据的存
    储和挖掘算法逐渐分离,成为不同的专业领域。基于网络的挖掘和传统行业如电信/银行/零售等基于数据库的挖掘之间的差异越来越大,最终
    使得机器学习成为网络挖掘的主流应用。
    在机器学习中,聚类是聚类,关联是关联,是两件不同的事情。关联的数学基础强,相对比较客观;聚类的数学基础弱,主观性比较强。作为
    调和,很多时候聚类要用到关联的结果。事实上,每年都有各种各样千奇百怪的聚类算法出现,宣称自己能够更好的刻画测试数据集的内部结
    构,这是个冒险家的乐园。
    豆瓣的推荐既不是基于类别也不是基于tag,当然,如果你把SVD, pLSA, LDA这些甄别latent semantics的方式算作分类的话也没什么不可以的
    。卓越的推荐不了解,个人猜测,有可能是应用amazon现成的模型。如果是这样,起码在最后一层作过滤的时候tag是有用的,不过用户提交的
    中文tag的质量比英文tag差不少,最后用不用很难说。推荐不是什么高深莫测的东西,不过也绝不是婴儿玩具加减肥药这么简单。过去两年里
    ,netflix a million dollar grand prix的成功运作使得推荐算法在互联网的技术圈里得到了很好的普及,找些paper来看看并非难事。

    Reply
  7. 刘玉宽

    我支持啤酒鱼尿布规则的经典性
    1、现在国内超市里面没有把啤酒和尿布一起摆放或许是中国国情导致的。
    2、购物篮关联分析应该不会花费太多成本,而且对于大型超市肯定存在未被导购人员发现的关联规则。
    3、关联挖掘算法:FP-growth(Jiawei Han提出)可不止是指哪打哪儿的智能,它的穷举性确实可以发现人们未关注到的关联规则。

    Reply
  8. 匿名

    作者也真够可以的。
    从身边转过的几个超市没有发现啤酒和尿布放在一起的就否认了这个故事?这算是什么逻辑?
    从erp的数据搜集,再到dm,最后的bi,都是和行业,区域、文化密切相关的。
    啤酒和尿布在中国行不通,不见得在国外就一定行不通。作者这种逻辑混乱的文章也有人附和,可怜。

    Reply
  9. 朱鸿

    据我在沃尔玛这些地方的观察,这个现象是有的。比如,卖海鲜的地方放着苏泊尔的锅,这个算是类似应用吧

    Reply
  10. ytuwlg

    在企业应用中,数据分析是一回事,决策者对分析结果是否付诸于实现又是一回事。最终的决策在人。

    Reply
  11. xuhua

    真正的叫法是尿布与啤酒,2者是有前后顺序关联的,在国内的叫法很多人用错了顺序.
    尿布与啤酒这种关联是需要大量的历史数据作为基础,通过数据仓库,数据挖掘工具,LDM,整理后由BIU(商业智能小组)寻找有价值的关联信息,然后反复验证关联数据的可用性。
    时间敏段、客户人群特征,ROI,客单价,购物篮系数,购物顺序,地区性,产品特征,产品亲密度,产品关联度,产品生命周期,,客户采购周期,A/B测试,等等多维分析,尿布与啤酒的真相只有一个,这些需要由BIU的商业经验与”BI工具“配合后(领导通过批准)才能落地实施。
    尿布与啤酒只是众多零售数据中的一滴水,需要找出更多有价值的信息,需要BIU的经验,才能发挥出BI工具的能力,工具只是为人服务的,人很重要但人的能力也是有限,所以需要平衡才是最好的。

    Reply
  12. yonghu6666

    路人不同意楼主的观点。
    “啤酒和尿布”的故事,起源于沃尔玛连锁超市。故事起源地是美国,当时沃尔玛对BI系统分析后,找到了尿布与啤酒的数据关联关系,然后派出了一干市场分析人员与分析师对其进行调查,发现了“美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒”的现象。所以才会有啤酒与尿布摆在一起的促销手段。

    但在国内,这些丈夫们是否会去买尿布,或者在买尿布的时候顺手带回他们喜欢的啤酒,就值得怀疑了。这就可以解释楼主看到很多超市不选择“啤酒与尿布”的关联摆放,而选择“聚类”关联摆放了。

    路人是个未婚青年,对这一问题不能从自身角度进行验证,而身边也多是未婚青年,也无法从身边得到验证。恕路人懒惰,不能进行实际的调查分析。本着大胆假设、小心论证的态度,路人在此提出对楼主观点的异议,诚心与楼主讨论。

    如有错误或粗放之处,敬请楼主指教。

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *