1、本科毕业设计论文届论文题目连续数据的离散化研究所在学院专业班级信息管理与信息系统学生姓名学号指导教师职称完成日期年月日诚信声明我申明,所呈交的论文设计是本人在老师指导下进行的研究工作及取得的研究成果。据我查证,除了文中特别加以标注和致谢的地方外,论文设计中不包含其他人已经发表或撰写过的研究成果,也不包含为获得或其他教育机构的学位或证书而使用过的材料。我承诺,论文设计中的所有内容均真实、可信。论文设计作者签名签名日期年月日授权声明学校有权保留送交论文(设计)的原件,允许论文(设计)被查阅和借阅,学校可以公布论文(设计)的全部或部分内容,可以影印、缩印或其他复制手段保存论文(设计),学校必须严格按
2、照授权对论文设计进行处理,不得超越授权对论文(设计)进行任意处置。论文设计作者签名签名日期年月日连续数据的离散化研究中文摘要数据资源是21世纪的新兴战略资源,因此对数据资源进行数据挖掘是非常重要的一项工作,而对连续数据进行离散化处理是数据挖掘过程中必不可少的一项工作。连续数据的离散化研究作为一种相对比较新兴的领域,其现有的算法还远没有达到令人满意的程度。因此,本人认为对连续数据的离散化研究是当今国内的一个重要的课题。本文阐述连续数据的离散化的研究现状、研究方法、决策树、几种离散化方法。主要通过使用C45算法,在VISUALSTUDIONET编写代码来实现连续数据的离散化。关键词决策树;C45;
3、离散化方法THERESEARCHOFDISCRETIZATIONOFCONTINUOUSDATAABSTRACTDATARESOURCEISTHE21STCENTURYSEMERGINGSTRATEGYRESOURCES,SODATAMININGISAVERYIMPORTANTWORK,ANDTHEDISCRETIZATIONOFCONTINUOUSDATAISANECESSARYJOBINDATAMININGPROCESSASARELATIVELYNEWFIELD,THEEXISTINGALGORITHMOFDISCRETIZATIONOFCONTINUOUSDATAISFARFROMREA
4、CHINGSATISFACTORYDEGREETHEREFORE,ITHINKTHEDISCRETIZATIONOFCONTINUOUSDATARESEARCHAVERYIMPORTANTISSUEINTHEDOMESTICTHISPAPEREXPOUNDSTHEPRESENTSITUATIONOFRESEARCHOFDISCRETIZATIONOFCONTINUOUSDATA,THERESEARCHMETHODS,DECISIONTREES,SEVERALDISCRETIZATIONMETHODMAINLYTHROUGHUSINGC45ALGORITHMANDWRITINGCODETOACH
5、IEVEDISCRETIZATIONOFCONTINUOUSDATAINVISUALSTUDIONETKEYWORDSTHEDECISIONTREEC45DISCRETIZATIONMETHOD目录第1章绪论111选题背景及意义112研究的基本内容113研究的基本方法2131文献分析法2132面向对象程序设计3第2章决策树421决策树422创建决策树的步骤5第3章数据离散化的几类算法831离散化的基本算法和标准8311离散化的基本算法8312离散化算法的标准832离散化算法的分类和比较833BMIC离散化算法934基于云模式连续型属性离散化的算法1035人工鱼群算法11第4章BMIC离散化实现
6、1241开发工具12411整体功能12412组件构成12413版本1342BMIC设计13421运行界面13422运行结果14423类15第5章总结与展望24致谢25参考文献25本科毕业论文11绪论11选题背景及意义如今,随着计算机的普及,网络以及通讯等信息技术的高速发展,当今社会已经进入了网络信息时代。随着计算机技术的高速发展,包括存储技术、数据技术和网络技术等信息处理方式,已经人们对计算机的认识和管理水平的提高,对信息的处理在整个社会生产中实现规模产业化,在技术上表现为对大规模数据操作的产业化已经得到实现。而且随着存储设备的单位价格不断下跌而容量却急剧地扩大,关系数据库、对象数据库、多媒体
7、数据库、地理信息数据库和空间数据库的不断成熟并得到广泛的应用,数据库管理系统的日益普及,这使得人们所积累的数据越来越多,并且数据与信息系统中的不确定性更加显著。作为二十一世纪的重要资源,信息资源的价值已经越来越得到人们重视,并且很多国家把信息资源挖掘作为国家发展的一项重要指标。海量的数据背后隐藏着许多重要的信息,但是目前的数据库系统仅仅只能高效地实现数据的录入、查询、统计等功能,却无法挖掘数据中存在的关系和规则,无法根据现在的数据预测未来的发展趋势,即缺乏挖掘数据背后隐藏关系的手段。因此,如何从大量的、杂乱无章的、有强干扰的数据中挖掘出数据背后又利用价值的信息,由此产生了人工智能研究的一个崭新
8、领域数据挖掘(DATAMINING,简称DM)1。在传统的机器语言学习中,连续数据离散化技术被当作边缘性课题,因而没有受到足够的重视,但近年来随着数据挖掘的不断发展,数据离散化技术渐渐在数据挖掘技术中显现出其不可替代的重要性,在规则提取、特征分类等这些算法中,特别是在应用粗集理论进行数据挖掘的研究中,连续属性数据必须要进行离散化处理,因此国内的专家和学者开始越来越关注连续数据的离散化2。对连续数据的离散化虽不是什么研究的热点,然而它是对数据信息进行预处理的一个重要部分。实际数据库中存在较多的连续型属性,而现有的很多数据挖掘方法只能处理离散型的属性,因而需要对连续属性进行离散化。因此,连续数据离
9、散化方法成为数据挖掘领域的重要性工作,直接影响数据挖掘的质量。但作为一种相对比较新兴的领域,其现有的算法还远没达到令人满意的程度。因此,对连续数据的离散化研究是当今国内的一个重要的课题。12研究的基本内容(1)本文主要对连续数据的离散化进行研究,主要包括决策树及决策树的建立、离散化的几种算法。(2)学习几种离散化的方法,采用BMIC的方法在VISUALSTUDIONET的编程环境下编写代码,并实现对连续数据的离散化。本科毕业论文213研究的基本方法本文采用的研究方法有文献分析法、面向对象程序设计两种。131文献分析法文献分析法主要指搜集、鉴别、整理文献,并通过对文献的研究等途径,形成对事实科学
10、认识的方法。由于文献分析法和内容分析法有共同的对象,都不与文献中记载的人与事直接接触,因此,都称为非接触性研究方法。现代对文献的定义指的是“已经发表过的、或者虽未发表但已被整理、报导过的那些保存有知识等的一切载体”。“一切载体”,包括期刊、图书、科学报告、档案、学位论文等常见的纸面印刷品,也包括有实物形态在内的各种材料。从整理情况分类,文献可以分为4类(1)零次文献(零次文献指曾经历过特别事件或行为的人以撰写的目的描述或使用其他方式的实况纪录,是有意识处理的和未经发表的最原始的资料,即PRIMARYDOCUMENTS);(2)一次文献(直接记录事件经过、调查报告、新知识、研究成果、论文、新技术
11、的专著等文献);(3)二次文献(对一次文献进行检索性的文献);(4)三次文献(通过在利用二次文献检索的基础上,系统地对一次文献整理并概括论述等几方面操作的文献)3。文献分析法的方法有许多种,而常用到的方法是内容分析法,内容分析法的过程有建立研究目标、确定研究总体和选择分析单位、抽样和量化分析材料、设计分析维度体系、进行评判记录和分析推论等几部分的步骤。具体内容如下(1)研究目标在现在教育科学研究中,内容分析法运用于多种研究目标的研究工作。常用到的类型有现状分析、趋势分析、意向分析、比较分析。(2)设计分析维度及体系设计分析维度、类别有两类基本方法,一是根据研究的目标,研究者自行设计,二是采用现
12、成的分析维度系统。分析维度(分析类目)是根据现有的研究需要而设计的将资料内容进行分类的项目和标准。(3)抽取分析材料(抽样)抽样工作包括两个方面的内容一是对总体进行界定,二是从总体中抽取一些具有代表性的样本。内容分析法常用的三种抽样方式是分析单位取样、日期抽样、来源取样。(4)量化处理量化处理就是把样本从形式上转化为数据化形式的过程,包括作评判记录、进行信度分析等两本科毕业论文3部分内容。根据已确定的分析维度(类目)和分析单位,对样本中的信息来进行分类记录,并且登记下每一个分析单位中分析维度(类目)的出现的频率和判断是否存在,这就是评判记录4。132面向对象程序设计面向对象编程(OBJECTO
13、RIENTEDPROGRAMMING,OOP,面向对象程序设计)是一种计算机编程架构。面向对象程序设计中主要包括的概念对象、数据抽象、类、继承、多态性、数据封装、动态绑定、消息传递。面向对象的思想通过这些概念得到了具体的体现5。对象对象是具有数据、标识和行为的编程结构,对象是运行期的基本实体,它是一个数据封装和这些数据的代码操作的逻辑实体,对象数据包括在对象的字段、属性和事件中。类类是对相同类型的对象的抽象。类像结构一样,类也定义了数据类型的数据和行为,然后程序员可以创建作为此类的实例的对象。一个对象所包含的所有数据和代码可以通过类来构造。封装将数据和代码捆绑到起来,以避免了外界的干扰和不确定
14、性等因素,这就是封装。同时对象的某些代码和数据是私有的,且不能被外界访问,通过封装操作来实现数据和代码不同级别设置的访问权限。继承通过某个类型的对象来获得其他类型的对象的特征的过程就是对象的继承。通过对象的继承可以实现重用代码,即从已存在的类中派生出的一个新类,并且继承原来那个类的特性,同时,它还可以创建自己的新特性。多态多态是指不同事物具有不同表现形式的能力。一个类可以用作多种类型,可以用作它自己的类型、任何基类型或者在实现接口时用作任何接口类型,这也称作为多态性。具有不同内部结构的对象通过多态机制可以共享相同的外部接口,从而能够减少代码的复杂度。方法方法是包括一系列语句的代码块,是定义一个
15、类可以做的,但不一定会去做的事。动态绑定调用一个过程并与相应代码链接起来的过程就是绑定。动态绑定则是指,只有在运行期,调用给定的过程中相关联的代码才可知的一种绑定,这是多态实现的具体形式。消息传递消息传递指的是对象之间沟通的途径就是对象之间进行收发信息的过程。消息内容包括需要调用的函数的标识,接收消息的对象的标识,以及其他必要的信息。消息传递的概念让面向对象程序设计对现实世界的描述变得更加简捷5。本科毕业论文42决策树决策树是一种能够直观、清晰地表达加工的逻辑要求,用二叉树形图来表示处理逻辑的工具,尤其适合应用于逻辑组合关系不复杂、判断因素比较少的情况。许多机器学习法采用的基本知识表达形式是决
16、策树,也就是很多数据挖掘的输出采用的形式。21决策树以下我们先引用一个决策树的例子隐形眼镜表21视力检查表年龄视力诊断散光泪流量推荐镜片YOUNGMYOPENOREDUCEDNONEYOUNGMYOPENONORMALSOFTYOUNGMYOPEYESREDUCEDNONEYOUNGMYOPEYESNORMALHARDYOUNGHYPERMETROPEYESNORMALHARDYOUNGHYPERMETROPEYESREDUCEDNONEYOUNGHYPERMETROPENOREDUCEDNONEYOUNGHYPERMETROPENONORMALSOFT泪流量散光NONESOFT视力诊断HAR
17、DNONENORMALREDUCENOYESMYOPEHYPERMETROPE本科毕业论文5图21关于视力诊断的决策树以上是一个简单化的模型隐形眼镜数据,是通过给出的一些有关病人的信息,来告诉患者被推荐的隐形眼镜类型。表21的第一列给出了患者的年龄,第二列给出了眼睛的诊断MYOPE是近视,HYPERMETROPE是远视;第三列显示患者是否散光;第四列是有关眼泪的产生率,这是一个重要因素,因为隐形眼镜需要泪水润滑,最后一列显示所推荐的隐形眼镜的种类HARD、SOFT或者NONE。这个表呈现了所有的属性的组合。图21以一个决策树的形式展示了关于隐形眼镜数据的结构的表述,在多种用途上是一个更简练、明
18、确了的规则表示法,并且有更加便于观察的优势。树首先对属性泪流量进行测试,产生的两个分支与两个可能的输出结果相对应。如果泪流量是REDUCED(左支),输出是NONE;如果是NORMAL(右支),第二个测试是散光属性。最后,无论测试是什么结果,所达到的树的叶子指出了向病人推荐的隐形眼镜的类型。以上就是一个决策树的例子。一个决策树上的节点包含了对某个特定属性的测试。通常来说,在一个节点上的测试是比较一个属性值与一个常量。然而,有一些树节点上的测试其实就是在两个属性值与一个常量之间进行比较。叶节点对所有到达叶实例给出一组分类,或者一个分类,或是包括了所有可能分类的一个概率分布。在对一个未知实例进行分
19、类时,在各个连续节点上对未知实例的属性值进行测试,然后根据测试的结果,从树的自上而下地寻找出一条路径,当实例到达目标叶子时,叶子所标注的类就是该实例的分类6。在一个节点上测试,如果测试的属性是名词性属性,那么在这个节点之下产生这个名词性属性所有可能属性值数量的分支。在这种情形下,因为任何一个可能的名词性属性值都对应一个分支,所以在以后的建树过程中,相同的名词性属性将不会再次被测试。而有些时候,名词性属性值被分成两个子集,那么就产生两个分支,属性值所在的子集决定了实例的分配。在这种情况下,也许会在一条路径上一个名词性属性将会被不止一次地测试。在一个节点上测试,如果测试的属性是数值属性,那么事先定
20、义好一个常量,在一个节点上的测试中一般是判断这个数值是否大于或者小于这个常量,并导出一个二叉分裂。或者也可能使用三叉分裂,甚至将会出现多个不同的可能性。若把残缺值也作为一个独立的属性值看待的话,那么将产生出第三个分支。对于为实数值属的数值属性来说,等于的操作是一个没有实际意义的操作,所以在实数上的测试应该是用一个区间而不是一个常量,同样也可以运用于落在区间以下、区间内和区间以上的判断来实行三叉分裂6。22创建决策树的步骤根据数据创建决策树的方法有许多种,以下从C45方法的角度创建一个决策树。C45算法其实是ID3算法的改进,比较ID3算法它增加了对连续型属性、属性值空缺情况等本科毕业论文6情况
21、的操作。算法的主体由剪枝算法C45PRUNING、决策树生成C45TREE、规则生成算法C45RULES等3部分组成。C45算法是根据信息熵的研究理论,通过选择把当前样本集中具有最大信息增益率的属性作为测试属性,并且不断地对样本集进行划分,构造出最终的一棵完全决策树。对于连续型的属性,通常先对连续属性进行离散化处理,即把连续型属性的值划分成不同的区间,从而便于处理后面的步骤。C45RULES则是把完全决策树转化成一组IFTHEN规则集且进行化简。经剪枝或规则生成过程中得到的简化决策树和规则集都可用于分类。而C45PRUNING是基于错误的剪枝方法,采用剪枝方法对完全决策树进行修剪,得到简化决策
22、树7。ID3算法在实际应用中存在一些问题,QUILAN提出了C45算法,严格上讲C45只能是ID3的一个改进的算法。C45算法继承了ID3算法的优点,并且在以下几个方面对ID3算法进行改进(1)通过信息增益率来选择属性,解决了用信息增益选择属性时偏向选择取值多的属性的不足的问题;(2)剪枝操作在树构造的过程中一起进行;(3)相对ID3算法,C45算法能够对连续属性进行离散化处理操作;(4)对不完整数据也能进行处理处理操作,即属性空缺的情况。C45算法的优点相对ID3算法,易于理解C45算法产生的分类规则,准确率较高。但是其缺点是在构造树的过程中,对数据集需要进行多次的顺序扫描和排序,因而可能导
23、致算法的低效。同时,C45算法适合于能够驻留于内存的数据集,当训练集大到无法在内存中保存时程序就无法运行。C45算法的步骤如下(1)求训练集合的信息熵INFOD|21LOG|SSINJISS(2)对于每一属性AI,按照属性AI的取值对训练集进行划分后的信息熵。INFOD,AJLOG|211IJSSINJIJVIISISSS(3)求信息增益GAIN(D,AI)INFODINFOD,AI(4)求属性A的信息熵INFOAI|21LOG|SSINIISS(5)求属性的信息增益比率GAINRATIO(D,AJ),JJAINFOADGAIN本科毕业论文7采用C45离散化的方法建立决策树,图示如22图22C
24、45决策树建立流程图START是否最后1条记录条件2条件3条件1分类1分类2分类3分类4ENDTFTTFFFT本科毕业论文83数据离散化的几类算法31离散化的基本算法和标准311离散化的基本算法数据离散化本质上通过断点集合将连续的属性空间划分为若干区,并使同一区域的实例都取相同的属性值矢量。连续值属性离散化方法的基本思想,设一个具有连续值属性的决策信息系统SU,ATD,这里的U是有限非空的样本集合,称为对象空间或论域,AT为样本空间的非空属性集合,D是决策属性集合,对于每个连续值属性A,AAT,其值域就是样本空间U在属性A上的取值范围,由实数域上的一段左闭右开的区间VA,WA来表示。在每个连续
25、值属性A的值域V中应找到一个恰当的划分,在划分P下的系统与初始系统的过程中应具有相同的决策能力,划分属性值域为几个互不相交的子区间,同时对每个子区间赋值以符号的形式,就得到了一组屹上的离散化取值,这个过程其实就是在样本空间U的连续值属性离散化的结果。由于任何划分只是通过一组值域屹内的分割点序列VYI,说明同伴中心地带有很多的食物而且中心地带不太拥挤,则朝伙伴的中心移动,反之执行觅食行为。该算法的步骤如下步骤L设定鱼群算法中的各个参数值,设置人工鱼的初始状态,在属性最小值和最大值的区间内浮动,从而得到初始的分割区间;步骤2在人工鱼群系统中输人第II1,2,N个条件属性CI与决策属性D,对人工鱼当
26、前的状态进行区间离散化操作,再用粗集理论计算当前条件属性CI和对决策属性D的支持度RCI,重复多次迭代找到RCI的最大稳定值;步骤3若I/DISCRETE的摘要说明。本科毕业论文17/PUBLICCLASSDISCRETEPRIVATEARRAYCUTSARRAYCUTSNEWARRAYCUTSPRIVATEDOUBLEDISCRETEPRIVATESTRINGTARGETPUBLICDATATABLETABLEPUBLICDISCRETEATTRIBUTEATTRIBUTE,ATTRIBUTETATTRIBUTE,DATATABLETABLEMESSAGEBOXSHOW“ANOTHERATT
27、RIBUTE“TABLETABLEFORINTK0KDISCRETEJTEMPDDISCRETEIDISCRETEIDISCRETEJDISCRETEJTEMPDTEMPTTARGETITARGETITARGETJTARGETJTEMPT/查看排序结果是否正确FILESTREAMFS1NEWFILESTREAM“CSORTATXT“,FILEMODECREATE,FILEACCESSWRITESTREAMWRITERM_STREAMWRITERNEWSTREAMWRITERFS1FORINTI0IARRAYCUTSCUTPOINTSARRAYCUTSCOUNT1CUTVALUEROWATTRI
28、BUTEATTRIBUTENAME“BIGGEST“RETURNTABLEPRIVATEARRAYCUTSMINIMIZECUTSARRAYCUTSARRAYCUTS/切点合并ARRAYCUTSTEMPCUTSNEWARRAYCUTSCUTTEMPCUT/SYSTEMCONSOLEWRITELINEARRAYCUTSCOUNTTOSTRINGFORINTI1I1ARRAYCUTSADDCUTTHECUT/SYSTEMCONSOLEWRITELINE“THECUTBEFOREINTERVALCUT“DISCRETEI2TOSTRING“TOTAL“TOTALTOSTRINGINTITOTAL1/
29、ITOTAL存此属性相同样本数FORINTK0KMAXVMAXVDOUBLECNUMK/DOUBLEITOTALMAXINDEXK/SYSTEMCONSOLEWRITELINE/SYSTEMCONSOLEWRITELINEMAXVTOSTRINGIFMAXV05CUTCUTINTERVALNEWCUTDISCRETEI1,ITOTAL,TATTRIBUTEVALUESMAXINDEXARRAYCUTSADDCUTCUTINTERVAL/SYSTEMCONSOLEWRITELINE“INTERVALCUT“DISCRETEI1TOSTRING“COUNT“ITOTALTOSTRINGTOTAL0
30、FORINTK0KTATTRIBUTEVALUESLENGTHKCNUMK0ELSETOTALITOTALFORINTK0KTATTRIBUTEVALUESLENGTHKCNUMK0ELSEIFIDISCRETELENGTHIFTARGETI1TARGETITOTAL本科毕业论文22ELSECUTTHECUTNEWCUTDISCRETEI1,TOTAL,TARGETI1ARRAYCUTSADDCUTTHECUT/SYSTEMCONSOLEWRITELINE“CUT“DISCRETEITOSTRING“COUNT“TOTALTOSTRINGTOTAL0由于代码占用的论文篇幅比较大,其他类的代码就
31、不如DISCRETE类所示。类名ARRAYCUTS属性MCOUNT,CUTPOINTS方法名参数列表方法说明ADDCUTCUT增加切点REMOVECUTTHEINDEX移动切点ARRARYCUTS类名ENTROPY属性STATNUM,MTARGETATTRIBUTE,SAMPLES方法名参数列表方法说明CALCENTROPY计算熵COUNTATTRIBUTENUMATTRIBUTE计算ATTRIBUTE属性的数量VALUECOUNTTOTALNUM统计各个类所包含的样例数ENTROPYAA熵ASAMPLESGAINATTRIBUTEGAINRATIOATTRIBUTE信息增益率GETDISTI
32、NCTVALUESTARGETATTRIBUTE获得TARGETATTRIBUTE属性下的所有属性值本科毕业论文23SPLITINFOATTRIBUTE计算分裂信息类名CSVREADER属性HEAD,ATTRIBUTES,ATTRIBUTETYPE,C,TABLE方法名参数列表方法说明ADDROWSTODATATABLEDATALINE为DATATABLE填充数据CSVREADERFIKENAMEDATATABLESTRUCTDATALINE创建表头(字段名及类型)DATATABLEVALUES处理属性及不同值GETDISTINCTVALUESA计算属性的不同值类名ATTRIBUTE属性MNA
33、ME,MVALUES方法名参数列表方法说明ATTRIBUTENAME导入属性VALUES类名CUT方法名参数列表方法说明CUTCUTNUMBERCVALUE本科毕业论文245总结与展望经过一段时间的查阅文献、学习以及编程,我终于完成了我的毕业设计连续数据的离散化研究。作为21世纪的战略资源,信息资源的价值日益提升。而数据挖掘是从大量数据中发现新的、存在潜在价值的知识的过程,连续数据的离散化作为数据挖掘过程中数据预处理的重要步骤之一,能够为其在减少后继算法的时空复杂度,提高系统的鲁棒性上起到重要的作用。本文分别描述了对连续数据离散化的研究方法、决策树、如何建立决策树、连续数据离散化的几类算法以及
34、BMIC算法的实现。本文的工作归纳为以下几个方面(1)通过对研究目标的确定,采用文献分析法和面向对象程序设计来对连续数据离散化进行研究;(2)介绍决策树的有关概念和通过一种算法来建立一个决策树;(3)阐述了几种离散化方法的内容和通过编程,采用其中一种算法在MICROSOFTVISUALSTUDIO2008环境下实现连续数据的离散化。综上所述,本文对连续数据的离散化及相关问题进行了研究,并得到了一定的成果。但是即使再好的算法也是有一定的局限性,所以在使用挖掘算法的时候应该多种算法综合考虑,选出一种更加适合所要挖掘的领域的算法。在今后的工作与学习中,应进一步完善算法,使其时间复杂度和空间复杂度降低
35、,同时,能够在对连续数据的离散化的过程中,能够减少误差。本科毕业论文25致谢参考文献1仇丽青粗糙集在数据挖掘中的应用研究D山东师范大学,20052岳海亮,闫德勤一种基于信息论的决策表连续属性离散化算法J计算机科学,2010,42312373石磊重庆市新农村建设中产业结构协调发展机制研究D重庆大学,20074文献分析法DB/OLHTTP/WIKIEBUSINESSREVIEWCN/CEC4CFD7B7D6CEF6B7A8201103055王维江面向对象方法的程序设计简述J航空计算技术,2004,34248516IANHWITTENEIBEFRANKDATAMININGPRACTICALMACHINELEARNINGTOOLSANDTECHNIQUES,SECONDEDITIONMELSEVIERINC,20057乔增伟,孙卫祥C45算法的两点改进J江苏工业学院学报,2008,2020456598岳晓东基于粗糙集理论的连续值属性离散化方法研究D山西大学,20069赵静娴,倪春鹏,詹原瑞,杜子平一种高效的连续属性离散化算法J系统工程与电子技术,2009,31156599819810皋军,王建东一种基于云模式连续型属性离散化的算法J计算机应用,2004,24213613711曾建武,张建明,王树青基于人工鱼群算法的离散化方法J模式识别与人工智能,2006,195612613