1、数据挖掘系列讲座九电子商务与数据挖掘基于 WEB日志的用户访问模式挖掘电子商务与数据挖掘 完美结合n 在电子商务中进行成功的数据挖掘得益于:q 电子商务提供海量的数据n 如果一个电子商务网站平均每个小时卖出五件物品,那么它一个月的平均点击量是 160万次。q 丰富的记录信息n 良好的 WEB站点设计将有助于获得丰富的信息q 干净的数据n 从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合q 研究成果容易转化n 在电子商务中,很多知识发现都可以进行直接应用q 投资收益容易衡量电子商务为数据挖掘提供海量数据n “点击流 ”( Clickstreams)将会产生电子商务挖掘的大量
2、数据q Yahoo!在 2000年每天被访问的页面数是 10亿,如此大的访问量将会产生巨大的 Web日志(记载页面访问的情况),每个小时产生的 Web日志量就达到 10GB!n 即便是一个小的电子商务站点,也会在断时间内产生进行数据挖掘所需的大量数据q 计算一下,如果你的站点一个小时卖出 5件物品,一个月会有多少页面访问:q 5件 24小时 30天 / 2(转化率,表示访问的人中买东西的人的比率) 9页面(平均买一件物品要访问 9个页面)1,600,000页面丰富的记录信息n 如果你的电子商务站点设计的好,你将可以获得各种商务的或者是用户访问的信息:q 商品和商品的属性q 商品的归类信息(当同
3、时展示多种商品是,归类信息是非常有用的)q 促销信息q 关于访问的信息(比如:访问计数)q 关于客户额信息 (可以通过登陆 /注册来获得)“干净的数据 ”n 信息直接从网站上提取q 无需从历史系统中集成,避免很多错误n 可以通过良好的站点设计,直接获得跟数据挖掘有关的数据q 而不是再来分析、计算、预处理要用的数据n 直接收集的电子数据 可靠q 无需人工数据输入,避免了很多错误n 可以通过良好的站点设计,良好的控制数据采样的颗粒度q 颗粒度控制在客户级别或者是 session级别,而不是页面级别有趣的 “生日现象 ”n 一个银行通过对客户数据统计发现,它的 5的客户都是在同一天出生的(同年同月同
4、日)!为什么?如何解释?研究成果容易转化n 历史上的数据挖掘研究有过许多的知识发现,但是这些知识发现却很少在实际的商业应用中产生什么效果q 要应用这些发现的知识可能意味着要进行复杂的系统更改、流程更改或是改变人们的办事习惯,这在现实中是非常困难的。n 在电子商务中,很多知识发现都可以进行直接应用q 改变站点的设计(改变布局,进行个性化设计等)q 开始有目标的促销q 根据对广告效果的统计数据改变广告策略q 可以很容易的提供捆绑销售投资收益容易衡量n 使用数据挖掘成果的革新带来的收益如何衡量?q 在传统的商业中衡量投资收益需要长期的测量和观察, Paco Underhill在 购物的科学 一书中提及,一个超市为了衡量他们的促销策略带来的投资收益,每年要花 14,000个小时查看录像带。n 在电子商务中,衡量革新的投资收益是非常容易的q 销售变化的报表可以自动产生q 客户对电子邮件和电子调查的反馈都可以在几天内得到,而不必等个几个月q 电子商务乃至整个互联网都是传统商业的理想试验室。对电子商务网站的 Web数据挖掘n 通常在一个电子商务网站上应用的数据挖掘技术是 Web数据挖掘。n 我们可以在一个电子商务网站挖掘些什么东西?q 内容挖掘 (Web Content Mining)q 结构挖掘 (Web Structure Mining)q 使用挖掘 (Web Usage Mining)