模糊数学在数据挖掘中应用研究.doc

上传人:h**** 文档编号:101066 上传时间:2018-07-06 格式:DOC 页数:8 大小:610KB
下载 相关 举报
模糊数学在数据挖掘中应用研究.doc_第1页
第1页 / 共8页
模糊数学在数据挖掘中应用研究.doc_第2页
第2页 / 共8页
模糊数学在数据挖掘中应用研究.doc_第3页
第3页 / 共8页
模糊数学在数据挖掘中应用研究.doc_第4页
第4页 / 共8页
模糊数学在数据挖掘中应用研究.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、模糊 数学 在数据挖掘中的应用 研究 作者: JSJ ( 浙江工业大学之江学院 信息与计算科学 1202) 摘要 : 二十世纪六十年代,产生了模糊数学这门新兴学科。模糊数学作为一个新兴的数学分支,使过去那些与数学毫不相关或关系不大的学科(如生物学、心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从而显示了强大的生命力和渗透力,使数学的应用范围大大扩展。模糊数学自身的理论研究进展迅速;模糊数学目前在自动控制技术领域仍然得到最广泛的应用,并在计算机仿真技术、多媒体辨识等领域的应用取得突破性进展;模糊聚类分析 理论和模糊综合评判原理等更多地被应用于经济管理、环境科学以及医药、生物

2、、农业、文体等领域,并取得很好效果。 关键词 : 模糊 聚类分析 模糊数学 应用 1.引言: 模糊数学是运用数学方法研究和处理模糊性现象的一门数学新分支。它以“模糊集合”论为基础。它提供了一种处理不肯定性和不精确性问题的新方法,是描述人脑思维处理模糊信息的有力工具。 模糊数学由美国控制论专家 L.A.扎德( L.A.Zadeh,1921-)教授所创立。他于 1965年发表了题为模糊集合论( FuzzySets)的论文,从而宣告模糊数 学的诞生。L.A.扎德教授提出了“模糊集合论”。在此基础上,现在已形成一个模糊数学体系。 模糊数学产生的直接动力,与系统科学的发展有着密切的关系。在多变量、非线性

3、、时变的大系统中,复杂性与精确性形成了尖锐的矛盾,它给描述模糊系统提供了有力的工具。 L.A.扎德教授于 1975 年所发表的长篇连载论著语言变量的概念及其在近似推理中的应用,提出了语言变量的概念并探索了它的含义。模糊语言的概念是模糊集合理论中最重要的发展之一,语言变量的概念是模糊语言理论的重要方面。语言概率及其计算、模糊逻辑及近似推理则可以当作语言 变量的应用来处理。人类语言表达主客观模糊性的能力特别引人注目,或许从研究模糊语言入手就能把握住主客观的模糊性、找出处理这些模糊性的方法。有人预言,这一理论和方法将对控制理论、人工智能等作出重要贡献。 模糊数学诞生至今仅有 22 年历史,然而它发展

4、迅速、应用广泛。它涉及纯粹数学、应用数学、自然科学、人文科学和管理科学等方面。在图象识别、人工智能、自动控制、信息处理、经济学、心理学、社会学、生态学、语言学、管理科学、医疗诊断、哲学研究等领域中,都得到广泛应用。把模糊数学理论应用于决策研究,形成了模糊决策技术。只要经 过仔细深入研究就会发现,在多数情况下,决策目标与约束条件均带有一定的模糊性,对复杂大系统的决策过程尤其是如此。在这种情况下,运用模糊决策技术,会显得更加自然,也将会获得更加良好的效果。 2.理论基础: 一、模糊数学基本概念 : 1. 模糊集( Fuzzy set) 定义 1 ( 1) 设 X 是论域,称映射 A: X 0,1为

5、 X 上的模糊集合( Fuzzy set)简称 F集,记为 A。称 A(x)为元素 x 相对于 F 集的隶属度。称 A( )为 F 集 A 的隶属函数。 ( 2)模糊集合的运算: )u(A), .,u(A),u(AA n21 , )u(B), .,u(B),u(BB n21 , 并集: )u(B)u(A), . . . . . ,u(B)u(A),u(B)u(ABA nn2211 , 交集: )u(B)u(A), . . . . . ,u(B)u(A),u(B)u(ABA nn2211 , 补集: )u(A1), . . . . . ,u(A1),u(A1A n21c , 2. 幂集 定义 2

6、 称论域 X 上的 F 集的全体集合 1,0X:A|AF (X ) 为 X上的 F-幂集。 3. 模糊集的 -截集 定义 3 已知 U 上模糊子集 )Uu)(u(Au,1,0U:A 对 1,0 ,则称)u(A,UuuA 为模糊集 A 的 -截集;称 )u(A,UuuA 为模糊集A 的 -强截集; 称为 A 、A的置信水平或阈值。 4. 三角范数、反三角范数 定义 4 称二元函数 T: 0,1*0,10,1为三角模或三角范数,简称 T-范数,满足以下条件:若 a, b, c, d 0,1,有: 交换律: T(a, b)=T(b, a) 结合律: T(T(a, b), c)=T(a, T(b, c

7、) 单调性: a c, b d 时, T(a, b) T(c, d) 边界条件: T(a, 1)=a, T(0, a)=0 二、模糊数学的基本定理 : 1. 模糊截积 定义 5 已知 U 上模糊子集 )Uu)(u(Au,1,0U:A ,对 1,0 , A 也是U 上模糊集,其隶属函数为: )Uu(),u(A)u)(A( ;称为 A 为 与 A 的模糊截积。 2. 分解定理 1 已知模糊子集 )U(FA ,则 AA 1,0。 推论 1:对 ,Uu Au,1,0)u(A 。 3. 分解定理 2 已知模糊子集 )U(FA ,则 AA 1,0。 推论 2:对 ,Uu Au,1,0)u(A。 三、模糊关

8、系 : 1. 模糊关系与模糊关系的合成 ( 1)模糊关系 定义 6 从 U 到 V 上的一个模糊关系: 1,0VU:R , )v,u(R ji 表示 ji vu与 具有的关系程度, Vv,Uu ji 。 nmijaA )( ( ija 满足 0 ija 1)称为 U 到 V 上的一个模糊关系的模糊矩阵。 模糊关系性质: x U,有 R(x, x) = 0,则 R 满足反自反性; x,y U, x y,有 R(x, y)= R(y, x),则 R 具有对称性; x,y U,有 R(x, y)= R(y, x) = 0, 则 R 具有反对称性; (x,y),(x,z),(y,z) U V,有 R(

9、x, z) ( R(x,y) R(y, z),则 R 满足传递性。 1) F 相似关系: 设 R 是论域 U V 上的模糊关系,若 R 满足自反性和对称性,称 R 为模糊相似关系。 2) F 等价关系: 若 R 满足自反性、对称性和传递性,称 R 为模糊等价关系。 ( 2 ) F 集的内积与外积 定义 7 设论域为 X, A,BF(X),称 )x(B)x(A(BAXx o为 F 集 A 与 B 的内积;称 )x(B)x(A(BAXx o为 F 集 A 与 B 的外积。 ( 3 )格贴近度 定义 8 设论域为 X, A,BF(X),称 (A B) ( BAo ) ( BAo)为格贴近度。 2.

10、模糊等价矩阵及其 矩阵 定义 9 设方阵 A 为以模糊矩阵,若 A 满足 AAo =A 则称 A 为模糊等价矩阵。 模糊等价矩阵可以反映模糊分类关系的传递性,即描述诸如“甲像乙,乙像丙,则甲像丙”这样的关系。 设 A nnij)a( 为一个模糊等价阵, 0 1 为一 个给定的数,令 ijij)(ij a,0 a,1a 若若 ,n,.,2,1j,i 则称矩阵 nn)(ij )a(A 为 A 的 截阵。 例如, A 14.06.04.014.06.04.01 为一个模糊等价阵,取 0.46.0 ,则 A =101010101 ;若取 4.00 ,则 A =111111111 。 3.模糊聚类分析的

11、在数据挖掘的应用实例 : 一 .问题的提出: 设某地区设置有 11 个雨量站,其分布图见图 5-1, 10 年来各雨量站所测得的年降雨量列入表 5-1 中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息? 2x7x1x 4x5x10x6x 8x11x3x9x7x1x 4x5x10x6x 8x11x3x9x图 5-1 表 5-1 年降雨量列入 年序 号 1x 2x 3x 4x 5x 6x 7x 8x 9x 10x 11x 1 276 324 159 413 292 258 311 303 175 243 320 2 251 287 349 344 310 454 2

12、85 451 402 307 470 3 192 433 290 563 479 502 221 220 320 411 232 4 246 232 243 281 267 310 273 315 285 327 352 5 291 311 502 388 330 410 352 267 603 290 292 6 466 158 224 178 164 203 502 320 240 278 350 7 258 327 432 401 361 381 301 413 402 199 421 8 453 365 357 452 384 420 482 228 360 316 252 9 158

13、 271 410 308 283 410 201 179 430 342 185 10 324 406 235 520 442 520 358 343 251 282 371 应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就 10 年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。 二 .问题求解 : 假设为使问题简化,特作如下假设 ( 1) 每个观测站具有同等规模及仪器设备; ( 2) 每个观测站的经费开支均等; 具有相同的被裁可能性。 分析

14、:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。 三 .求解步骤 : 1. 利用相关系数法,构造模糊相似关系矩阵 1111)r( ,其中 ijr 21n1kn1k2jjk2iikn1kjjkiik)xx()xx(|)xx(|)xx(| 其中 ix 101k ikx101 , i 1, 2, ,11, jx n1k jkxn1 , j 1, 2, ,11。 用 C#语言编程计算出模糊相似关系矩阵 1111)r( ,得到模糊相似矩阵 R 。 R=1 . 0 0 0 0 . 6 8 8 0 . 4 8 5 0 . 9 9 4 0 . 7 1 9 0 . 5 1 1 0

15、 . 5 8 4 0 . 6 0 7 0 . 5 6 8 0 . 5 7 2 0 . 7 1 2 0 . 6 8 8 1 . 0 0 0 0 . 4 8 7 0 . 6 7 8 0 . 5 8 7 0 . 5 9 6 0 . 6 8 6 0 . 6 3 9 0 . 6 4 2 0 . 6 1 7 0 . 5 7 3 0 . 4 8 5 0 . 4 8 7 1 . 0 0 0 0 . 4 6 7 0 . 4 8 9 0 . 6 6 7 0 . 5 1 2 0 . 4 9 9 0 . 9 6 2 0 . 4 7 5 0 . 4 3 1 0 . 9 9 4 0 . 6 7 8 0 . 4 6 7 1

16、 . 0 0 0 0 . 6 7 6 0 . 4 5 5 0 . 5 2 6 0 . 5 4 2 0 . 5 5 1 0 . 5 1 0 0 . 6 7 1 0 . 7 1 9 0 . 5 8 7 0 . 4 8 9 0 . 6 7 6 1 . 0 0 0 0 . 7 2 6 0 . 8 4 3 0 . 8 6 1 0 . 5 7 1 0 . 8 5 5 0 . 9 9 5 0 . 5 1 1 0 . 5 9 6 0 . 6 6 7 0 . 4 5 5 0 . 7 2 6 1 . 0 0 0 0 . 9 2 2 0 . 9 0 8 0 . 6 9 7 0 . 8 9 9 0 . 7 0 2 0

17、 . 5 8 4 0 . 6 8 6 0 . 5 1 2 0 . 5 2 6 0 . 8 4 3 0 . 9 2 2 1 . 0 0 0 0 . 9 9 2 0 . 5 8 5 0 . 9 8 9 0 . 8 2 8 0 . 6 0 7 0 . 6 3 9 0 . 4 9 9 0 . 5 4 2 0 . 8 6 1 0 . 9 0 8 0 . 9 9 2 1 . 0 0 0 0 . 5 6 2 0 . 9 9 6 0 . 8 4 4 0 . 5 6 8 0 . 6 4 2 0 . 9 6 2 0 . 5 5 1 0 . 5 7 1 0 . 6 9 7 0 . 5 8 5 0 . 5 6 2 1

18、 . 0 0 0 0 . 5 4 2 0 . 5 2 8 0 . 5 7 2 0 . 6 1 7 0 . 4 7 5 0 . 5 1 0 0 . 8 5 5 0 . 8 9 9 0 . 9 8 9 0 . 9 9 6 0 . 5 4 2 1 . 0 0 0 0 . 8 3 9 0 . 7 1 2 0 . 5 7 3 0 . 4 3 1 0 . 6 7 1 0 . 9 9 5 0 . 7 0 2 0 . 8 2 8 0 . 8 4 4 0 . 5 2 8 0 . 8 3 9 1 . 0 0 0对这个模糊相似矩阵用平方法作传递闭包运算,求 442 R:RR 即 t( R ) 4R = *R 。注:

19、 R 是 对称矩阵,故只写出它的下三角矩阵。 1688.0697.0688.0719.0719.0719.0719.0697.0719.0719.01697.0688.0688.0688.0688.0688.0688.0688.0688.01676.0697.0697.0697.0697.0962.0697.0697.01719.0719.0719.0719.0697.0719.0719.01861.0861.0861.0697.0861.0994.01922.0922.0697.0995.0861.01992.0697.0996.0861.01697.0996.0861.01697.0697

20、.01861.0000.1R*取 0.996 ,则 996.0R =1000000000001000000000001000000000001000000000001000000000001000000000001001000000001010000000001000000001101000000000001故第二行(列),第四行(列)完全一致,故 42x,x 同属一类,所以此时可以将观测站分为 9 类 42x,x , 5x , 1x , 3x , 6x , 7x , 8x , 9x , 10x , 11x 这表明,若只裁减一个观测站,可以裁 42x,x 中的一个。若要裁掉更多的观测站,则要降

21、低置信水平 ,对不同的 作同样分析,得到 0.995 时,可分为 8 类,即 42x,x , 5x , 6x , 1x , 3x , 7x , 8x , 9x , 10x , 11x ; =0.994 时,可分为 7 类 42x,x , 5x , 6x , 1x , 7x , 3x , 8x , 9x , 10x , 11x ; =0.962 时,可分为 6 类 42x,x , 5x , 6x , 1x , 7x , 3x , 9x , 8x , 10x , 11x ; 0.719 时,可分为 5 类 42x,x , 5x , 6x , 1x , 7x , 3x , 9x , 8x , 11x

22、 , 10x ; 1 01 189371654299 6.0 995.0994.0962.0719.0图 5-2 聚类谱系图 再具体分析图 5-1,我们可以看到 6x 虽然和 42x,x , 5x 分为一类,但 6x 和 42x,x , 5x观测点相距较远,撤去 6x 是不太合适的,保留 6x 而撤去 42x,x , 5x 就更不合适了。因此还是将其分为 6 类,即 42x,x , 5x , 6x , 1x , 7x , 3x , 9x , 8x , 11x , 10x ,依据每类最少保留一个站的原则,最多可撤去 5 个站。实际应该撤去哪几个站就应该依据其他条件来确定了。 由本例可以看出,当需

23、要比较聚类的数据较多时,一般采用模糊聚类法进行分析,在分析过程中,复杂的数据运算都可以在计算机上实现,从而减少繁琐的手工操作 。 4.模糊聚类分析的优缺点: 优点:聚类分析模型的优点就是直观,结论形式简明。 缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中 发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。 5.总 结: 本文主要介绍了模糊数学的基本概念和模糊聚类的一些基础知识方法,并给

24、出了实例分析,体现了模糊数学思想在数据挖掘领域的重要角色。 通过学习模糊数学这门课程,掌握了模糊数学的基本知识和思想,获益匪浅。模糊数学的思想和自己所修方向( 信计与计算科学 )的结合,不失为一 种解决该领域的难题的 行之有效的方法。 如果我在研究的领域遇见相关的问题 ,我们 便可以结合模糊的思想,借助于模糊集、粗糙集 等理论知识来深化研究。同时彰显模糊数学的魅力,以及交叉学科相互渗透解决难题能力。 参考文献: 1.宋晓秋 .模糊数学原理与方法(第二版) .中国矿业大学出版社 ,2004 3.谢季坚 . 模糊数学方法及其应用 (第三版 ).华中科技大学出版社 ,2006 4.杨纶 . 模糊数学原理及应用 .华南理工大学出版社 ,2006 3张铃 ,张钹 . 模糊商空间理论 . 软件学报 , 2003,14(4) 4叶飞跃 . 数据挖掘过程中的模糊聚类方法 . 计算机与现代化 , 2003, 9(6) 5蒋泽军 . 模糊数学教程 . 国防工业出版社 , 2004 班级:信计 1202 姓名: JSJ 学号: 09 学科前沿讲座论文

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。