1、厦门大学软件学院毕业论文 1 本科毕业论文 (科研训练、毕业设计 ) 题 目: 基于数据挖掘的烟草决策支持系统 聚类分析在烟草产品分析中的应用 姓 名: 学 院:软件学院 系: 专 业:软件工程 年 级: 学 号: 指导教师(校内): 职称: 年 月 厦门大学软件学院毕业论文 2 摘要 作为解决目前企业信息系统中普遍面临的数据爆炸而导致信息缺乏状况的最有效的手段之一,数据挖掘受到了学术界和企业界的极大关注。 产品分析是企业供应链管理的关键环节,通过产品分析,企业可以制定科学合理的原材料采购计划、生产计划、人员配备计划、库存计划以及营销计划。因此,产品分析对于企业的经营决策具有重要的研究意义。要
2、提高产品分析的准确性,就要对大量的数据进行分析并得出有用的信息和知识,而数据挖掘技术恰能很好的做到这一点。本文在波士顿矩阵的基础上用聚类分析的方法对产品进行分析。 本文首先对产品分析这个问题进行了深入分析,阐明了其在支持决策系统中的重要性。接下来以波士顿矩阵为基础,具体研究聚类分析的结构设计原理和实现机制。最后本文以福建省某地区的烟草销售数据作为案例分析,来实现系统的效果。 关键词 产品 分析 聚类分析 波士顿矩阵 厦门大学软件学院毕业论文 3 Abstract At a most valid means of solving the status of data explosion but
3、information lack that current enterprise information systems are faced with, data mining is paying maximum attention to the academic and enterprise. Product analysis is the pivotal segment in supply chain management of enterprises, according to the result of product analysis, enterprises can just ma
4、ke rational materials procurement plan, production schedule, staffing plan, stock plan and marketing plan. So product analysis used for supporting sale decision and other decision which are important for the development of enterprises. In order to improve the accuracy of product analysis, database-s
5、upported knowledge acquisition and data mining technologies are usually used to capture objective information and knowledge from mass information. In this dissertation, one advanced theories of data mining clustering is applied to confirm utilization ratio of product analysis. Firstly, scrap ratio o
6、f product analysis is analyzed deeply and its importance to DSS is described. The theory of BCG Matrix is explained, and then the application of the theory is developed. Finally, the information system is developed as practical research. The results show that the application research has important p
7、ractical value to the enterprises. Key words product analysis clustering BCG Matrix 厦门大学软件学院毕业论文 4 目 录 第一章 引 言 . 6 第二章 理论和开发技术基础 . 7 2.1 决策支持系统 . 7 2.2 数据挖掘 . 7 2.3 波士顿矩阵 . 10 2.4 烟草销售 . 13 2.5 开发工具简介 . 14 2.5.1 Borland C+builder6.0. 14 2.5.2 Oracle10g. 15 第三章 系统总体设计 . 17 3.1 系统整体架构 . 17 3.2 系统功能模块设
8、计 . 17 3.3 系统设计流程 . 18 第四章 系统详细设计 . 20 4.1 数据采集与预处理 . 20 4.1.1 数据来源 . 20 4.1.2 数据准备 . 21 4.2 波士顿矩阵 . 23 4.3 聚类分析 . 27 4.4 产品策略 . 29 第五章 结束语 . 30 致 谢 . 31 参考文献 . 32 附录 . 33 厦门大学软件学院毕业论文 5 Contents Chapter 1 Introduction .5 Chapter 2 Theory and technology basics .6 2.1 DSS.6 2.2 Data Mining.6 2.3 BCG
9、Matrix .9 2.4 Tobacco distribution.错误 !未定义书签。 2.5 Development environment introduction.错误 !未定义书签。 2.5.1 Borland C+builder6.0.错误 !未定义书签。 2.5.2 Oracle10g .错误 !未定义书签。 Chapter 3 System collectivity design .错误 !未定义书签。 3.1 System truss .错误 !未定义书签。 3.2 Module design . 16 3.3 Process of system design .错误 !未
10、定义书签。 Chapter 4 System particular design . 19 4.1 Data collection and pretreatment . 19 4.1.1 Data source . 19 4.1.2 Data preparation . 20 4.2 BCG Matrix .错误 !未定义书签。 4.3 Clustering .错误 !未定义书签。 4.4 Data analysis .错误 !未定义书签。 Chapter 5 Summary . 29 Acknowledgement .错误 !未定义书签。 References .错误 !未定义书签。 Sup
11、plement .错误 !未定义书签。 厦门大学软件学院毕业论文 6 第一章 引 言 产品分析是企业供应链的关键环节,根据分析的结果,企业才可以制定合理的原材料采购计划、生产计划、人员配备计划、库存计划以及营销计划。但是,在相当长的时间里,我国许多的企业,产品分析主要是靠个人经验来进行的,或者根本没有进行销售预测研究,生产完全脱离市场,造成产品大量积压,资源严重浪费。 随着信息时代的到来,国际以及国内的信息科学取得了不断的发展,产生出了诸多新的成果和理论,这些成果和理论具有广泛的指导意义和价值。如何将这些理论有机地与实践相结合,也成为一项十分有 意义的研究课题。目前国内大多数商业企业的信息系统
12、一直停留在基本数据的收集层面,但决策支持系统还比较落后,甚至有些企业还没有意识到它的重要性。有了信息不会分析,它就只是一种简单的原始数据,不能成为可供企业分析、支持决策的信息。而且随着数据库、数据仓库、数据挖掘等技术的发展和完善以及在决策支持系统中的应用,基于数据挖掘的分析方法也应该服务于销售预测。因此 1将数据挖掘技术、数据仓库技术、决策支持系统的研究成果与产品分析相结合是可实现的,应用数据挖掘方法对产品数据库进行分析,提高产品分析的准确率无疑是十分有意义 的。 本文的主要思路是,在对产品分析、决策支持系统、数据挖掘和波士顿矩阵进行全面、深入研究的基础上,根据需求分析和系统功能设定,对数据挖
13、掘系统进行总体结构设计和功能模块的设计,然后在此系统基础上根据产品分析的相关主题进行了数据挖掘模型的设计。主要是在波士顿矩阵的基础上运用聚类分析的方法对产品进行分析。 厦门大学软件学院毕业论文 7 第二章 理论和开发技术基础 2.1 决策支持系统 决策支持系统 (DSS) 中“决策”就是决策者根据所掌握的信息为决策对象选择行为的思维过程。为决策者提供支持的信息成为决策支持信息,相应的信息系统称为决策支持系统。我们将决策支持领域分成 OLTP、 MIS、 LDSS 及 HDSS 四个层次 2: OLTP(联机事物处理 ) 最基本的数据库应用系统,是更高级的 MIS 系统和 DSS 系统的基础。
14、OLTP系统一般具有底层信息采集 (数据录入功能 )、一定的信息查询以及信息库更新维护功能。 基于 OLTP 的 MIS 系统 这是较高一级的数据库应用系统,这类系统在 OLTP 的基础上进一步扩展,包括提高信息访问功能,报表生成能力等。 LDSS(低级决策支持系统 ) LDSS 处于比 MIS 更高一层的位置,直接为决策者提供决策支持服务。 HDSS(高级决策支持系统 ) HDSS 是决策支持系统的最高形式。能够真正使用户利用 DSS 工具直接从企业信息池中随机地提取、分析数据,有效地服务于企业的全方位决策。它由三个主要部件构成:数据仓库技术 (Data Warehousing)、联机分析处
15、理技术 : OLAP(On -line Analytical Processing)和数据挖掘技术 (Data Mining)。 虽然数据仓库、数据挖掘和 OLAP 技术最初是作为三种独立的信息处理技术出现的,但是,由于它们之间内在的联系和互补性,使得这三种技术在高级决 策支持系统中已经成为一个密不可分的核心。 2.2 数据挖掘 数据挖掘( Data Mining,简称 DM),简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的定厦门大学软件学院毕业论文 8 义描述 3: 数据挖掘,又称为数据库中知识发现( Knowledge Discover
16、y from Database,简称 KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。 数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息或知识的过程。目的是帮助分析人员寻找数 据间潜在的关联,发现忽略的要素,而这些信息对预测趋势和决策行为是十分有用的,所以数据挖掘属于决策支持系统的范畴。数据挖掘的一般过程可用图 2-1表示 3: 图 2-1 数据挖掘的一般过程 预处理数据 通过消除噪声、推倒计算缺失值、消除重复记录、完成数据类型转换等来收集和净化来自数据源的信息,并加以存储 (一般存储在数据仓库中 )。 模型搜索 利用数据挖掘工具在数据中查找模型
17、,这个搜索过程可以由系统自动执行,自底向上搜索原始事实以发现它们之间的某种联系,也可以加入用户交互过程,厦门大学软件学院毕业论文 9 由分析人员主动发问,从上倒下地 寻找以验证假定的正确性。 评价输出结果 数据挖掘阶段发现出来的模式,经过用户或机器的评估,可能存在冗余、价值不大的或无关的模式,这是需要将其剔除,把重要的模型形成知识存储到知识库中。 生产最后的报告结果 数据挖掘由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转化为用户易懂的另一种表示。 解释结果报告 对结果进行解释,依据此结果采取相应的商业措施,这是一个人工过程。 数据挖掘的两个基本目标是预测和描述。预测是
18、指用一些变量或数据库中的若干已知字段预测其它感兴趣的变量或字段的未知或未来的值 ;描述是指找到描述数据的可理解模式。根据发现知识的不同,数据挖掘的基本任务包括相关分析、聚类、分类 (概念描述 )、偏差检测、预测。 数据挖掘 (DM)是人工只能和数据库相结合的产物,它的许多方法来源于机器学习。对于不同应用系统的数据挖掘技术采用不同的技术和手段, DM 的方法通常可以分为两大类:一类是统计型,常用的技术有概率分析、相关性、聚类分析和判别分析等;另一类是人工只能中的机器学习型,通过训练和学习大量的样品集得出需要的模式或参数。由于各种方法都有自身的功能特点以及应用领域,数据挖掘技术的选择将影响最后的结
19、果 和质量和结果,通常是将多种技术结合使用,形成优势互补。 传统的 DSS系统通常是 4在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳整理,从中发现潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整市场策略,并找出正确的决策。例如在销售业数据库中,数据挖掘工具回答“哪些客户最可能对促销 做 出反应,问什么他会这样 ?” 、“哪些商品之间具有潜在的联系 ?” 、“在下一个月,在天津的销售部门的情况将会如何 ?为什么 ?” 等。而 DSS 系统回答“今年销售总量比去年多多 少 ?从而预测明年销售总量” 、“三月份中 ,在天津的销售部门的情
20、况如何 ?从而推测在北京的销售部门情况” 。所以,数据挖掘的出厦门大学软件学院毕业论文 10 现使决策支持工具跨入了一个新的阶段。 数据挖掘技术能够帮助用户从历史性数据中挖掘知识,进而支持决策,极大地吸引用户,而用户造就的巨大的市场又极大地吸引了数据库厂商。各大公司纷纷开始了自己的数据挖掘工具产品的研制工作。 2.3 波士顿矩阵 波士顿矩阵是由美国大型商业咨询公司 波士顿咨询集团( Boston Consulting Group)首创的一种规划企业产品组合的方法。问题的关键在于要解决如何使企业的产品品种及其结构适合市场需求的变化,只有这样企业的生产才有意义。同时,如何将企业有限的资源有效地分配
21、到合理的产品结构中去,以保证企业收益,是企业在激烈竞争中能否取胜的关键。 波士顿矩阵认为一般决定产品结构的基本因素有二个 5:即市场引力与企业实力。市场引力包括企业销售量(额)增长率、目标市场容量、竞争对手强弱及利润高低等。其中最主要的是反映市场引力的综合指标 销售增长率,这是决定企业产品结构是否合理的外在因素。企业实力包括市场占有率,技术、设备、资金利用能力等,其中市场占有率是决定企业产品 结构的内在要素,它直接显示出企业竞争实力。销售增长率与市场占有率既相互影响,又互为条件:市场引力大,销售增长率高,可以显示产品发展的良好前景,企业也具备相应的适应能力,实力较强;如果仅有市场引力大,而没有
22、相应的高销售增长率,则说明企业尚无足够实力,则该种产品也无法顺利发展。相反,企业实力强,而市场引力小的产品也预示了该产品的市场前景不佳。 通过以上两个因素相互作用,会出现四种不同性质的产品类型,形成不同的产品发展前景:销售增长率和市场占有率“双高”的产品群(明星类产品);销售增长率和市场占有率“双低”的产品 群(瘦狗类产品);销售增长率高、市场占有率低的产品群(问号类产品);销售增长率低、市场占有率高的产品群(现金牛类产品)。 如图 2-2 所示,纵坐标市场成长率表示该业务的销售量或销售额的年增长率,用数字 0-20%表示,并认为市场成长率超过 10%就是高速增长。横坐标相对市场份额表示该业务相对于最大竞争对手的市场份额,用于衡量企业在相关市场