1、数据挖掘在企业历史数据中的应用摘 要 企业应用系统在长时间使用后,都会出现数据量增大和应用系统性能下降的现象。本文针对这一状况,提出在清除历史数据前或对历史数据进行归档前,对其进行转移和复制并在可能的情况下构建数据仓库,对企业历史数据进行挖掘的方法。详细介绍了数据挖掘技术的概念、数据挖掘流程和常用的模型,以及数据挖掘在企业历史数据中的主要应用。 关键词 数据挖掘; 模型; 算法 引言 随着企业信息化应用的不断深入,各种大型应用系统纷纷上线,如( ,企业资源计划) ,( ,客户关系管理) ,( C M,供应链管理)等,一些小型应用软件及企业内部开发人员开发的应用软件的相继使用,也成为企业信息化的
2、必要补充。这些应用系统规模大小不一,系统架构各异,所使用的数据库也不尽相同,可以是, erver,等主流数据库,甚至也包含,xcel 等数据源。另外,各种应用的功能模块也不相同,有的多而全,有的小而单一,但主要包含财务管理、客户管理、供应商管理、进销存管理等模块。随着时间的推移,业务记录越来越多,数据库中的数据量也越来越大。对于小型的应用软件,由于系统逻辑相对简单,可以对数据库中的历史数据按照规定进行清除,然后将其快速部署在新的硬件环境上。但是大型应用软件因为系统复杂,尤其是多组织的跨集团公司的应用系统,加上数据的多年积累,应用系统性能每况愈下,此时如果进行数据迁移和应用移植,一般由专业公司来
3、做,而且费力费时,需要长时间的测试然后进行切换。通常的做法是,对历史数据进行定期清除,然后通过添加新的存储设备来改善系统性能。传统应用系统的使用都局限在业务记录层面,首先业务用户录入业务操作记录,然后通过查询或者调用报表来查看业务过程和结果。更深层的应用,是建立在分析的基础上,则可以就某个独立应用的数据库进行数据挖掘,也可以通过数据仓库将企业不同应用系统下异构数据库中的历史数据进行整合,然后进行数据挖掘,让历史数据进一步发挥“余热” ,从而为企业生产经营提供决策支持。数据仓库虽然能整合异构数据源,并对数据进行预先清理,但由于其成本大,实施周期长,故较少采用。一般较经济的做法是,把应用数据库中的
4、数据导入只读的数据库中,以此作为数据集市( ) ,进行数据挖掘。另一方面,随着数据挖掘专用软件技术的日臻成熟及计算机硬件性价比的大幅提高,使得数据挖掘的实施成为可能职称论文。 数据挖掘技术 数据挖掘(D M)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。是以先进的工具软件基于人工智能()和数学统计分析技术对海量数据根据某种算法进行计算机辅助分析,提取隐含的定性关系的过程,是知识发现( )的关键步骤。 数据挖掘的流程包括:()定义问题,明确数据挖掘的目的。()数据准备,包括选择数据在大型数据库和数据仓库目标中提取数据挖掘
5、的目标数据集;数据预处理进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 ()数据挖掘,在净化和转换的数据集上根据选择的算法进行数据挖掘。 ()结果分析,解释和评价数据挖掘结果,并转换为终端用户能够理解的知识。其常用算法包括:神经网络方法、遗传算法、决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析方法和模糊集方法。数据挖掘模型按照功能分为预测模型和描述模型,描述性挖掘任务刻画的数据一般特性;预测性数据挖掘任务在当前数据上进行判断,以便预测。 数据挖掘用来构建 6 种模型:分类模型( ) 、衰退模型( ) 、时间序列模型( ) 、聚类模型( ) 、联
6、合分析模型( )和顺序发现模型( ) 。前两者被用来作预测,而联合分析模型和顺序发现模型被用来描述行为,聚类模型则被用来描述或预测。分类模型用于提取能代表群体的特征属性,一般用规则或决策树模式表示。聚类模型则将一个群体分成多个类,使同类个体尽可能相似,而不同个体差异尽可能大,聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。联合分析模型用于发现事物间的关联规则和相关程度,关联分为简单关联、时序关联和因果关联,关联分析的目的是找出数据库中隐藏的关联网,一般用支持度和可信度两个阈值来度量关联规则的相关性,其挖掘算法主要有:,等。衰退模型用属性的历史数据预测未来趋势。
7、时间序列模型是指通过时间序列搜索出的重复发生概率较高的模式,是用已知的数据来预测未来,其方法主要有加权移动平均法和最小二乘法。顺序发现模型与联合分析模型相似,不同的是顺序发现的对象是在时域分布的,发现的规则与先后顺序有关。 数据挖掘在企业历史数据中的应用 数据挖掘在财务分析中的应用 财务分析通过评价企业过去和现在的经营成果和财务状况及其变动情况,来了解过去,评价现在,预测未来。财务分析中常用的方法有比较分析、结构分析、因素分析、比率分析等。 成本分析 企业管理者坚信对成本的精确计算和对资源的充分利用可以有效地改善企业的运营状况,但其复杂的操作使得很多人望而却步。利用数据挖掘中的回归分析、分类分
8、析等方法能确定成本动因,更加准确计算成本。同时,也可以通过分析成本与价值之间的关系,确定采用其最佳策略的成本,持续改进和优化企业的价值链。 市场分析 选择适当的产品系列和组合以实现最大利益是企业追求的目标,这些利益可以是短期利润,也可以是长期市场占有率,还可以是构建长期客户群及其综合体。为了达到这些目标,不仅仅需要价格和成本数据,有时还需要知道替代品的情况,以及在某一市场段位上它们与原产品竞争的状况。另外,企业也需要了解某一个产品是如何刺激另外一些产品的销量的,等等。例如,非盈利性产品本身是没有利润可言的,但如果它带来了可观的客户流量,并刺激了高利润产品的销售,那么这种产品就非常有利可图,就应
9、该包括在产品清单中。这些信息可通过关联分析等技术来得到。投资决策分析 投资决策分析本身就是一个非常复杂的过程,往往要借助一些工具和模型。数据挖掘技术提供了有效的工具,从公司的财务报告、宏观经济环境以及行业基本状况等大量的数据资料中挖掘出与决策相关的实质性的信息,保证投资决策的正确性和有效性。 风险分析 利用数据挖掘工具来评价企业的财务风险,建立企业财务危机预警模型,进行破产预测。破产预测或称财务危机预警模型能够帮助企业管理者及时了解企业的财务风险,提前采取风险防范措施,避免破产。另外,破产预测模型也能帮助分析破产的原因。 数据挖掘在客户关系管理中的应用 新客户的挖掘 通过历史数据,用数据挖掘技
10、术建立“客户行为反应”预测模型,对客户的未来行为进行预测。客户的反应分为 3 种:负反应、无反应、正反应。负反应表明客户不感兴趣;无反应说明需求可有可无;而正反应意味需要对此客户进行挖掘并推销产品。 老客户的保持 持续稳定的客户群是企业发展的保障。通过数据挖掘能及时了解客户对产品和服务的满意程度及客户波动原因,快速改进不足之处,牢牢抓住现有客户并吸引潜在的客户,为企业带来更大收益。 客户盈利能力分析 通过客户利润回报预测模型,可以将客户分为高价值客户、低价值客户、无价值客户。高价值客户是能带来最多利润的客户,需要采取措施保持并提高客户的忠诚度;低价值客户和无价值客户,可以通过适度关注及优惠政策
11、,尽可能将其提升为高价值客户或低价值客户。通过预测模型还可以发现客户回报大小的变化趋势,根据趋势方向可以及时采取措施进行干预。 客户细分 客户细分常用的模型有决策树模型和聚类模型。按照不同的标准,比如客户消费心理、购买习惯、对产品的特殊需求等来划分不同的客户群,开发个性化产品并提供针对性服务,提高用户满意度,最大程度挖掘客户潜在的购买力。 数据挖掘在供应商管理中的应用 供应商动态分类 以供应商行为属性的数据分析为基础,提出基于变量加权的均值子空间聚类算法()建立供应商动态分类模型。该模型在保留均值算法处理大规模供应商行为数据能力的同时,克服了子空间聚类算法普遍存在的稀疏矩阵处理的缺陷。对比传统
12、的静态分类,新方法通过对决策结果的对比和调整,能够得到动态且合理的供应商分类结果。 供应商绩效评价 能够适应电子供应链环境,采用平衡记分卡思想建立评价体系结构,以关键绩效指标确定评价标准。同时根据粗糙集无需任何先验知识,依据知识的粒度性处理不完备信息,能够在保留关键信息的前提下得到知识的最小表达等优点,提出基于粗糙集的综合评价方法,解决了评价体系中客观约简决策属性并设置权重等关键问题。与传统的运筹学方法相比,新评价体系的层次清晰,易于理解和操作,能够对供应商绩效进行系统、有效的评价。 供应商选择模型 该模型综合了数据包络分析()以相对效率的量化衡量为基础,避免确定各指标在优先意义下的权数,对输
13、入输出指标有较大的包容性等特点,以及遗传算法所具有的学习性、进化性和多向性,全局搜索的特征,高效且客观地解决多属性输入输出,多目标规划的供应商选择问题。与传统的多目标规划方法相比,新模型提高了决策的可扩展性、适应性和效率。 数据挖掘在库存管理中的应用 根据库存信息及销售和生产计划,利用神经网络、回归分析和决策树等数据挖掘方法预测未来库存,通过分析历史销售和生产数据,帮助库房管理人员进行库存的控制,从而为企业资源优化配置提供决策依据,例如降低库存、提高库存周转率、提高库存资金使用率等。 总结 数据挖掘作为一种先进的数据分析手段,在越来越多的企业得到应用,并在各行各业中得到深入发展。挖掘工具的功能愈加强大,汇合的算法也越来越多,新的算法不断出现,并将实现算法的自动选择和参数自动调优。加上计算机硬件技术和数据库技术的快速发展,数据挖掘技术必将在企业中得到广泛和深入的应用,为企业发展提供有力帮助。 主要参考文献 谭建豪 数据挖掘技术 北京:中国水利水电出版社, 朱明数据挖掘 北京:中国科学技术大学出版社, 纪希禹 数据挖掘技术应用实例 北京:机械工业出版社,