1、本科毕业设计(论文)基于关联规划挖掘的零售商场购物篮分析与应用学 院 管理学院 专 业 信息管理与信息系统 年级班别 学 号 学生姓名 指导教师 摘 要随着经济的快速发展,零售业为了提高营业额,已经开始从简单的增加规模转换到提高资源利用率、优化资源配置来提高销售额了。在转型中,有一种方法就是利用数据挖掘技术中的关联规则算法来找出商品之间在顾客的交易记录中隐含的某种关联关系,通过找出这种关联关系,可以针对这种关联关系制定特定的商品布局来提高超市的资源配置,提高销售效率,提高销售额。这种方法在国外已经应用得相当成熟,但是在国内还是处在发展阶段,还没发展到成熟阶段,而且在利用数据挖掘技术与超市商品布
2、局设计的结合方面研究不多。本文通过收集某超市的交易数据,主要利用数据挖掘关联规则中的Apriori 算法对该超市的数据进行关联规则挖掘,这里涉及到算法中的支持度和置信度的设置,支持度和置信度关系到关联的强度,也关系到计算量的大小。通过 Apriori 的算法,在收集到的数据中通过数据挖掘相关算法得到某几种商品之间的强关联关系,得出强关联规则之后用兴趣度来分析结果的利用价值,最终根据有意义的、有价值的强关联关系来对该超市的商品布局进行优化,不仅要分析该超市现有的布局模式,还要依据通过收集到的数据分析出来的结果对该模式进行适当的优化。关键字:零售业,数据挖掘,关联规则,Apriori 算法,兴趣度
3、,商品布局AbstractWith the rapid economic development, in order to improve the retail turnover there has started to improve resource utilization, optimize the allocation of resources to increase sales from simply increase the size of the space of retail turnover. In the transition, there is a way is to u
4、se data mining technology association rules algorithm to find merchandise transactions between the customers implied some kind of relationship, by identifying this association, for this association can trade relations to develop specific layout to improve resource allocation supermarket, improve sal
5、es efficiency,increasesales.This approach has been applied abroad quite mature, but in the country still in the development stage, has not developed to a mature stage. By collecting a supermarket transactions, mainly using data mining association rules in the supermarket data Apriori algorithm minin
6、g association rules, here it comes to settings, support for and confidence in the relationship algorithm support and confidence to the strength of association, but also to the calculation of the size. By Apriori algorithm to obtain the data collected in the strong relationship between certain types
7、of goods, with the degree of interest to analyze the use value of the results, the final based on meaningful, valuable and strong relationship to the supermarket Goods layout put forward their own proposals.Keywords:Retail, Data mining, Association rules, Apriori algorithm, Interest degree,Distribut
8、ionofgoods目 录摘 要Abstract1 绪论 .11.1 研究背景及意义 .11.3 国内外研究现状及分析 .21.4 研究目标 .41.5 主要研究内容 .42 基本理论与基本概念 .62.1 数据挖掘 .62.1.1 数据挖掘的基本概念 .62.1.2 数据挖掘的过程 .72.1.3 数据挖掘的分类、技术和方法 .82.1.4 数据挖掘的任务 .92.2 关联规则 .102.2.1 关联规则的定义 .102.2.2 关联规则的分类 .112.2.3 关联规则的挖掘 .122.3 关联规则的 Apriori 算法 .132.3.1 Apriori 算法概念 .132.3.2 Ap
9、riori 算法的两个步骤 .142.4 兴趣度 .172.5 购物篮 .183 利用数据挖掘关联规则技术对某超市的销售数据进行购物篮分析 .193.1 问题的提出与解决方法 .193.2 问题解决过程 .193.3 数据收集 .203.4 数据预处理 .203.5 使用 Apriori 算法对商品进行关联规则挖掘分析 .233.6 强关联规则的兴趣度分析 .323.7 结果解释 .334 根据强规则结果为商场的商品布局的改进 .344.1 超市商品布局一般原则与类型 .344.1.1 商品布局一般原则 .344.1.2 商品陈列类型 .354.2 某超市商品布局现状及问题 .364.2 某超
10、市的商品布局优化 .374.2.1 磁石点理论 .374.2.2 利用磁石点理论对商品区域与区域之间布局进行优化 .384.2.3 商品类型与类型之间的布局优化 .40结 论 .41参考文献 .42致谢 .4311 绪论1.1 研究背景及意义经济全球化和知识经济的迅猛发展,使得各类产业的利润空间越来越小,产品的生命周期大大缩短。面对经济、科技加速发展的态势,企业只有运用创新技术提升企业的核心能力,加快知识创新步伐,才能够保持当前的利润水平或者获得较高的收益回报。可见,在市场发育健全、市场竞争机制能够正常发挥作用的经济环境下,知识创新是企业追求利益最大化的内在要求。现在是一个以技术知识科技驱动的
11、经济社会,逃离了知识技术科技,只能够被淘汰,对于零售业也一洋,现在零售业在数量上已经接近饱满,如果还想简单地通过增加商店数量来增加盈利,无异于自寻死路,所以在现在这个经济环境下,必须通过改善销售质量,提高销售效率,才能够保持稳定的盈利。如今,计算机技术已经相当成熟,并且已经能够将计算机技术运用到许多方面去,例如自动化、个性化服务等等。在上世纪90年代,数据挖掘技术开始兴起,并通过逐年的发展,许多数据挖掘算法被发现,这里说被发现是因为很多算法在被发现之前是已经存在于数据里面了。许多数据挖掘算法被发现,例如经典的分类算法ID3算法,聚类K-means 算法,关联规则的Apriori算法,神经网络,
12、遗传算法等,而且这些都已。经被高效得运用到社会实践中。这本文主要考虑到了现在零售业的销售效率问题,因为在之前的零售业销售模式中仅仅是通过简单的通过自己的经验来对商品的摆放布局,要提高销售质量销售效率,必须通过科学研究,科学布置商品的布局,提高销售效率,在这里就是利用数据挖掘的关联规则算法来进行对购物篮的分析,通过发现隐含的购买模式,改变优化商品布局,提高销售效率,提高销售额。比如通过得到的真实购物数据之后,经过筛选,利用关联规则算法得到两类商品之间存在强关联关系,那么我们就可以认为顾客在买了第一件商品之后又很大的可能性会去购买第二类商品,这样如果将这两种商品的布局摆放得近一点,或者直接相邻摆放
13、,或者通过结合顾客购物心理利用高支持度和强关联规则等来促进其他商品的销2售,或者利用有强关联规则的商品之间的联系间接提高其他商品的销售量等等,这样就会提醒更多人同时购买这两类商品或者其他商品,提高购买效率。目前,关联规则挖掘与购物篮分析在超市的应用是被普遍关注的一个问题,在相关领域已经有了一定的应用和发展。国内外研究者在销售什么样的商品?采用什么样的促销策略?商品在货架上如何摆放?了解顾客的购买习惯和偏爱等方面作了相当的理论探讨和模型计算。从零售业强关联规则,利润最大化的商品销售、商品推荐都作出较好的理论分析和实现。也在零售业商品的销售预测和商品之间关联方面作了一定探讨。在我国,零售业在经济发
14、展中占据着举足轻重的地位,根据零售业发展水平方面,1993 年至 2012 年这 20 年间,批发和零售业的增加值逐年递增,批零产值占流通产业的比重一直在 50%左右,占第三产业的比重平均维持在 20%左右,对 GDP 的贡献是稳中有升,接近 10%,在保障和改善民生方面做出了重要贡献。但是 2012 年之后,由于零售业在数量上在很多地区已经接近饱和状态,零售业的增长速率有所下降,进入低速增长期,根据在组织机构代码中的分析中,超级市场零售业在 2012 年 1 月到 11月的增量是 67 间,而在 2013 年 1 月到 11 月的增量是 46 间,数量的增量在逐年减少,甚至出现了利润下降,其
15、中主要原因应该归于电子商务的快速发展,由于如今电子商务的疯狂扩张,对传统的零售业造成了巨大的威胁,根据新华社的报道,根据华润发布的 2014 年盈利公告,公告显示,以华润万家为代表的华创零售业务预期净利润将有约 20 亿港元的跌幅。过去通过开店扩张来进行增加利润,但是现在的零售业必须通过转变发展方式,在过去重视店面的量的方面转变到提高每间零售店的销售量来进行提高营业额,对于电子商务中个性化商品推荐企业的市场定位以及相应的进销存策略有非常重要的指导意义。例如在如今的电子商务如此的火热中,竞争必然激烈,所以要满足这么一个火热的行业的需求,必须要应用某种模式来提高自己的营业质量,例如通过网络零售业上
16、的对关联规则的应用研究。在这里应用关联规则的挖掘技术,就是为了满足零售业的需求,因为提高销售效率是根本,技术效率、技术进步将助推零售业又好又快发展。31.3 国内外研究现状及分析在国外,目前世界上知名大学的研究机构和各大公司的研究部门都投入了大量精力对关联规则挖掘进行研究,并取得了诸多研究成果。美国斯坦福大学智能数据库系统实验室开发出了大量的商用数据挖掘系统,如DBMiner挖掘系统,它包含了许多先进的挖掘算法,用户无需具有高级的统计知识和培训即可利用它挖掘出包括关联规则、序列模式、分类等在内的多种类型的知识;该系统可以在多种平台上运行,并与许多主流的数据库管理系统(如SQL-Sever,Or
17、acle 等)结合紧密;同时还引入了在线分析挖掘技术,使得系统更能充分发挥数据仓库的分析优势。1993年AGRAWAL 等人提出关联规则的数学模式,从而为关联规则提出了理论基础。1994年AGRAWAL , SRIKANT提出Apriori 关联规则挖掘算法,该算法是一个具有里程碑性质的算法,也是布尔型规则挖掘最经典的算法。虽然数据挖掘技术发展到如今已经相当成熟,在这个利用数据挖掘关联规则技术研究购物篮模式的领域中,国外已是热门的研究方向,并已经达到一定的水平并投入应用领域,其中传统零售业运用最为广泛,营销挖掘和购物篮分析是零售业挖掘的主要内容,但是,国内对数据挖掘的研究稍晚,在国内这个领域的
18、研究尚处于开始阶段,没有形成整体力量,直到 1993 年国家自然科学基金才首次支持该领域的研究项目,并且目前进行的大多数研究项目是由政府资助进行的,如863(高技术研究发展计划)等,从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。在国内,当然也有很多零售商对商品的关联规则非常重视,并且将它放在重要的战略地位,比如阿里巴巴集团旗下的淘宝网,京东商城,当当网等等网络零售商或者零售平台。比如,当我们每次将自己有意愿购买的商品放入购物篮之后,网站就会在一个区域显示给我们的推荐商品,提出一些搭配供我们选择,这就是通过以前顾客的购买记录来进行关联规则分析获得你所购买的商品的有强关联规则的商品,进
19、而让你考虑是否该多买一些东西来搭配你想购买的东西,这就提高了销售效率和销售质量。不仅如此,不仅仅在应用上,在国内也有许多人会对关联规则的算法进行改进,比如重庆大学学报出版的由王德兴、胡学钢等人的“改进购物篮分析的关联规则挖掘算法”一文;还有由杨丰梅等人提出的带有记忆性的零售商品关联度分析;还有基于量化概念格的关联规则挖掘模型的研究等等。如今对关联规则的算法还提出了一个改4进的方案,在这里引出了兴趣度这个阀值,这个阀值在关联规则挖掘中主要是对强规则的有一次筛选,摒弃那些看似是强联系规则,其实不是强联系规则的方法。在这些研究者对购物篮的算法进行研究之后,也提出了许多针对商品布局的决策,比如捆绑销售
20、、相邻销售、打折销售等等策略,现如今,国内外都有对购物篮进行数据挖掘的关联规则分析,也产生了许多对算法的改进。然而,虽然研究很多,但是很多研究却没有跟购物篮中的顾客购物现实情况结合起来进行对商品的布局进行设计,很多的研究仅仅是局限在得出商品的关联规则之后简单地关联商品进行布局,比如简单地将得到的有强关联的商品捆绑销售、将有强关联规则的商品简单地陈列在一起,但是这些决策并没有通过结合顾客的购物习惯、购物心理、充分利用关联规则发现的商品规律来促进销售额的增长。对购物篮的分析,最主要的、最终的目标就是提高销售额,如果仅仅是简单的发现规律,这并没有完成最终目标,因为研究的目的是提高销售额,并不仅仅是研
21、究出它们的关联性即可。在发现规则的过程中花费了很大的力气,但是最后却简单了事,并没有实际上地实现提高销售额,增加销售量,最终导致前功尽弃。因此还需要根据各种商品布局优化、整体提高销售额的手段来改进优化商品布局。1.4 研究目标本文主要通过对某零售超市的商品关联规则进行探讨,包括收集该零售超市的顾客的购买数据,经过筛选无效数据得到有效数据,利用数据挖掘中的关联规则的Apriori 算法进行对得到的有效数据进行挖掘分析,得到隐藏在某零售超市顾客购买商品中的模式,得到高购买率商品之间的关联规则,将关联规则发现的商品管理与顾客的购买心理以及顾客的购买行为习惯相结合、充分利用高支持度的商品来提高其他商品
22、的销售量等调整商品架上的商品摆放布局,极大的促进多种商品的被购买量,最终促进销售效率,提高营业额。1.5 主要研究内容此文的主要研究内容就是在购物篮中运用数据挖掘的关联规则相关方法来对其进行分析,得出所收集到的顾客购买商品的模式或者规律,然后通过研究这种规律或者模5式来改变商品的布局,进而提高销售额。主要内容包括:(1)收集数据并进行整理,初始数据就是顾客购买商品的目录。(2)利用关联规则的 Apriori 算法对收集到的而且已经整理过的数据进行关联规则分析。将得到的强关联规则中进行筛选,在这里利用兴趣度来进一步筛选。(3)对应所得到的强关联规则,结合顾客心理、顾客购物行为习惯、充分利用某种商
23、品的高支持度等等因素提出商品的摆设布局的建议和决策。下图是本文的一个大概结构:图 1-6-162 基本理论与基本概念2.1 数据挖掘2.1.1 数据挖掘的基本概念 1989 年 8 月,在第 11 届国际人工智能联合会议的专题研讨会上,首次提出了基于数据库的知识发现技术(Knowledge Discovery in Database,KDD)。KDD 的研究问题有:(1)定性知识和定量知识的发现;(2)知识发现方法;(3)知识发现的应用等。1995 年在加拿大召开了第一届知识发现和数据挖掘(Data Mining,DM)国际学术会议。由于数据库中的数据被形象地比喻为“矿床”,因此数据挖掘一词很
24、快流传开来。在 1995 年的美国计算机年会(ACM)上,正式提出了数据挖掘的概念。数据挖掘是知识发现中的核心工作,主要研究发现知识的各种方法和技术。机器学习的很多方法都已转变为数据挖掘的方法。 简单地说,数据挖掘是提取或“挖掘”知识。目前,数据挖掘可以从统计学、数据库和机器学习等三个角度进行定义。“挖掘”一词最早出现于统计学中。从统计学的角度看,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。从数据库的观点看,数据挖掘是指从存储在数据库、数据仓库或其它信息仓库中的大量数据中发现有趣的知识的过程。从机器学习的角度看,数据挖掘定义为从
25、数据中抽取隐含的、明显未知的和潜在有用的信息。 数据挖掘的定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。这个定义包含几层含义,数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海而皆准的知识,仅需支持特定的发现问题。 从广义上理解,数据、信息也是知识的表现形式,但是人们更愿意把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形式知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,