1、大数据 挖掘 关联 分析沃尔玛, 请把蛋挞与飓风用品摆在 一起 通过对 历史交易记录这个庞大数据库进行观察,沃尔玛注意到,每当季节性飓风来临之前,不仅手电筒销量增加,而且美式早餐含糖零食蛋挞销量也增加 了。 因此每当季节性飓风来临时 ,沃尔玛就会把蛋挞与飓风用品摆放在一起,从而增加销量。2案例回顾尿不湿和啤酒 超级商业零售连锁巨无霸沃尔玛公司 (Wal Mart)拥有世上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。 跟尿不湿一起购买最多的商品竟是啤酒 ” !这是数据挖掘技术对历史数据进行
2、分析的结果,反映的是数据的内在规律。 那么这个结果符合现实情况吗 ?是否是一个有用的知识?是否有利用价值?3尿不湿和啤酒 经过大量实际调查和分析,他们揭示了一个隐藏在 “ 尿不湿与啤酒” 背后的美国消费者的一种行为模式: 在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作,而他们中有 30% 40%的人同时也会为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃尔玛就在他们所有的门店里
3、将尿不湿与啤酒并排摆放在一起,结果是得到了尿不湿与啤酒的销售量双双增长。 按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一有价值的规律的。4 美国一名男子闯入他家附近的一家美国零售连锁超市 Target店铺 (美国第三大零售商塔吉特 )进行抗议: “ 你们竟然给我 17岁的女儿发婴儿尿片和童车的优惠券。 ” 店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图所示。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。5美国
4、折扣零售商塔吉特与怀孕预测美国折扣零售商塔吉特与怀孕预测 塔吉特公司 能 在 不被清楚告知的情况下预测出一个女性的怀孕 情况 该公司找出了大概 20多种与怀孕的关联 物,给顾客进行“ 怀孕趋势 ” 评分 这些 数据甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券 Target能够通过分析女性客户购买记录, “ 猜出 ” 哪些是孕妇。他们从 Target的数据仓库中挖掘出 25项与怀孕高度相关的商品,制作 “ 怀孕预测 ” 指数。比如他们发现女性会在怀孕四个月左右,大量购买无香味乳液。以此为依据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸
5、引客户购买。6大数据分析核心手段、技术 数据处理 数据挖掘 模型预测概念数据挖掘 (Data Mining) 是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示 3个步骤。数据挖掘的任务 有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。关联分析 是指如果两个或多个事物之间存在一定的关联 ,那么其中一个事物就能通过其他事物进行预测 .它的目的是为了挖掘隐藏在数据间的相互关系 。 典型的关 联规则发现问题 是 对 超市中的货篮 数据( Market Basket) 进 行分析。通过发现顾 客放入 货篮 中的不同商品之 间 的关系来分析 顾 客的 购买习惯 。数据关联经典案例: 沃尔玛的啤酒和尿布的故事关联规则