基于matlab的数据挖掘技术研究【文献综述】.doc

上传人:文初 文档编号:4805 上传时间:2018-03-30 格式:DOC 页数:3 大小:19KB
下载 相关 举报
基于matlab的数据挖掘技术研究【文献综述】.doc_第1页
第1页 / 共3页
基于matlab的数据挖掘技术研究【文献综述】.doc_第2页
第2页 / 共3页
基于matlab的数据挖掘技术研究【文献综述】.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、毕业论文文献综述信息与计算科学基于MATLAB的数据挖掘技术研究数据挖掘是用于大规模数据处理的一种新的思维方式和技术手段,他是在现实生活中各种数据量呈指数级不断增长,以及以数据库DATABASE技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能ARTIFICIALINTELLIGENCE、统计(STATISTICS)、机器学习(NACHINELEARNING)、模式识别(PATTERNRECOGNITION)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得了非常广泛的应

2、用。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活质量改善过程中。数据挖掘有很多种技术和计算方法,包括决策树方法(DECISIONTREE)、人工神经网络方法(ARTIFICIALNEURALMETWORK,ANN)、聚类分析、模糊集合方法、遗传算法(GENETICALGORITHM)、模拟退火算法SIMULATEDANNEALING,SA、进化式程序设计EVOLUTIONARYPROGRAMMING等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。聚类分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。

3、聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(CLUSTERING)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种目标,但都涉及把一个样本集合分组或分割为子集或簇(CLUSTER)。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点1处理不同字段类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解

4、释性和实用性;9增加限制条件后的聚类分析能力。基因算法起源于对生物系统进行的计算机模拟研究,是一种受生物进化启发,使用计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最大优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法从工程学角度看,它是一种自适应的迭代寻优过程。基因算法需要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码操作;在算法完成之后,需要进行从基因型到表现型的转换,是

5、前者的反方向操作,作为译码操作,即将遗传空间中的染色体或个体转换成解空间中的最优解。基因算法有如下特点1在生物系统中,进化被认为是一种成功的自适应方法,且具有很好的健壮性。2基因算法搜索的假设空间中,假设的各个部分相互作用,每一部分对总的假设适应度的影响难以建模。3基因算法易于并进化,且可降低由使用超强计算机硬件所带来的昂贵费用。4基因算法采用一种随机化的搜索老寻找最大适应度得假设。神经网络起源生物学和神经生物学中有关神经细胞计算本质的研究工作。所谓神经网络就是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。在网络学习阶段,网络通过调整权重来实现输入样本与其相应(正确)类别的

6、对应。由于网络学习主要是针对其中的连接权重进行的,因此神经网络的学习有时也称为连接学习。鉴于神经网络学习时间较长,因此它仅适用于时间容许觉得应用场合。此外它们还需要一些关键参数,如网络结构等。这些参数通常需要经验才能有效确定。由于神经网络的输出结果较难理解,因而受到人们的冷落,也使得神经网络较难成为理想的数据挖掘方法。神经网络的优点是对噪声数据有较好适应能力,并且对未知数据也有较好的预测分类能力。目前人们也提出了一些从神经网络中抽取出(知识)规则的算法。这些因素又将有助于数据挖掘中的神经网络应用。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看

7、似广泛,实际应用还远没有普及。而据GARTNER的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。具体发展趋势和应用方向主要有对知识发现方法的研究进一步发展,如对BAYES和BOOSTING方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统,例如WEKA等软件。数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就国内情况而言,还有至少20年的发展空间。参考文献1黄子诚,基于决策树的数据挖掘技术J,电脑知识与技术VOL6,NO8,2010(3)P194919502袁溪,数据挖掘技术及其应用J科技资讯NO102010P22

8、,P243赵芳,马玉磊,浅析数据挖掘技术的发展及应用J,科技信息P644王平,王升花,邬连学,基于遗传算法的变压器故障诊断方法的研究J,技术应用20112P695卢华,刘福胜,王少杰,张鹏,基于遗传算法的平原水库坝高优化J,人民黄河VOL33,NO1,2011(1)P1251286刘兴波,凝聚型层次聚类算法的研究J,科技信息NO11,2008P2027吴燕,科技文档的层次聚类分析J,商业文化社会经纬,2008(1)P3533548孟姗姗,全国地区小康和现代化指数的层次聚类分析J9张利华,彭海燕,余淑媛,量子克隆遗传算法的多用户检测技术研究J,大众科技,NO1,2011P283110张德丰,MATLAB概述J,MATLAB数值分析与应用P1911牛晓东,刑棉,孟明,基于基于联合数据挖掘技术的神经网络负荷预测模型研究J,电工科技学报,VOL19,NO9,2004(4)P6268

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 文献综述

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。