1、1论数据挖掘及应用研究摘 要:随着社会信息化不断进步发展,大量的信息充斥在我们的社会中,这就要求我们能从中及时发现有用的知识,做出正确的分析,从而提高决策的正确性。就是在这样的背景下深入地分析数据挖掘的基本概念、挖掘流程及挖掘技术,讨论数据挖掘的一些具体应用。 关键词:数据挖掘;应用;研究 一 、数据挖掘 随着数据库技术的广泛使用,以及计算技术和计算机性能与网络的迅速发展,人们面临着一个困难的问题,即如何从海量的数据中提取出有价值的信息。查询功能远不能满足人们的需要,数据挖掘应运而生。有人将数据挖掘定义为一个从数据及数据库中抽取隐含的,先前未知的并有潜在价值的信息的过程。但有人认为数据挖掘,即
2、数据库中的知识发现,是从大数据集中快速高效地发现令人感兴趣的规则,数据挖掘是数据库研究的新领域,所挖掘的知识能够用于信息、管理、查询处理、决策支持和过程控制等等。 数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要研究的重要 课题。 数据挖掘涉及多个学科方向,主要包括:数据库、统计学和人工智2能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几方面进行分类。按数据库类型分类:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库
3、的数据挖掘类型。按数据挖掘对象分类:文本数据挖掘、多媒体数据挖掘、Web 数据挖掘。按数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差检测、预测等。按数据挖掘方法和技术分类:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。 二、数据挖掘的主要任务 (一)数据总结 数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。 (二)分类 分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器) ,该模型能够根据数据的属性将数据分派到不同的
4、组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。 (三)关联分析 数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目3的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数, ,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。 (四)聚类 当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。
5、聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。 统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。 三、数据挖据的应用 数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比
6、较活跃的应用方向: (一)在金融数据分析中的应用 多数银行和金融机构都提供了丰富多样的储蓄,信用,投资,保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析4这些数据的一般特性,观察金融市场的变化趋势;通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析;利用分类和聚集的方法对用户群体进行识别和目标市场分析;使用数据可视化、链接分析、分类、聚类分析、孤立点分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。 (二)在电力业的应用 在电力行业中,数据挖掘技术主要用于指导设备更新、业绩评估、指导电力
7、企业的建设规划、指导电力的生产和购买、指导电力的调度等。数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、安全管理、资源管理、投资组合管理、活动分析、销售预测、收入预测、需求预测、理赔分析等。 (三)在零售业中的应用 零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费与服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式询问技术、分类技术和预测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾
8、客忠诚度和满意程度;提高货品的销量比率,设计更好的货品运输与分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。 (四)在医学上的应用 5近年来,生物医学研究有了迅猛地发展,从新药的开发到癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研究。在人类基因研究领域具有挑战性的问题是从中找出导致各种疾病的特定基因序列模式。由于数据挖掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为 DNA 分析中的强有力工具。基因序列的相关分析,遗传研究中的路径分析等。近期 DNA 分析的研究成果已经促成了对许多疾病和残疾基因成因的发现,以及对疾病诊断、预防和治疗的新药物、新方法的发现。 (五)在高校和科研单位以及其他领域的应用 主要是用于海量信息数据的抽取,提供给教研和科研人员有价值的数据。比如在数字图书馆方面可以引入数据挖掘技术。同时还可以应用的电子商务等等众多领域。 参考文献 1邹先霞、王淑礼、魏长华.数据仓库与数据挖掘技术浅谈J.高等函授学报(自然科学版) ,2000, (03). 2樊志平.基于数据挖掘技术的企业信息化建设J.商场现代化,2008, (06). 3孟小峰.数据挖掘:概念与技术M.北京:机械工业出版社,2001.