1、 本科毕业论文 ( 20 届) 决策粗糙集均值模型 所在学院 专业班级 数学与应用数学 学生姓名 学号 指导教师 职称 完成日期 年 月 I 摘要 网络信息时代知识急剧增加,面对大量的、杂乱无章的数据,人们希望能从中挖掘出潜在的、有用的信息。粗糙集理论与方法对于处理复杂的系统,无需 提供已知集合之外的任何先验信息,不失为一种有效的处理方法。但 Pawlak 粗糙集模型是基于完全确定的等价关系的,它忽视了不确定知识的可利用信息。这类模型在对随机产生的知识库的数据分析方面往往不能完全反映问题的实质。因此,许多学者为研究不确定性系统提出了新的粗糙集模型 概率粗糙集模型。本文在对经典粗糙集、概率粗糙集
2、进行分析的基础上,针对当多用户参与决策时,在每个用户做出判断的前提下,为了综合每个用户的意见, 提出基于均值的决策模型 ,给出最可行决策方案,并举出实例体现其在生活中的实用性。 关键词 :粗糙集;决策粗 糙集;多用户决策;均值决策 II A Mean Value Decision-theoretic Rough Set Model Abstract As knowledge increased dramatically in the network information age, facing to massive, chaotic data, people want to dig out
3、the potential and useful information. For dealing with complex systems, rough set theory and methods are not necessary to be provided with any prior information other than the collection of the required processing, which is an effective approach. But the Pawlak rough set model is based on the equiva
4、lence relation, which ignores the available information of uncertain .For the data analysis of the randomly generated knowledge data, these models often does not fully reflect the essence of the problem. Therefore, in order to study the uncertain system, many scholars proposed a new rough set probab
5、ilistic rough set model. Based on the analysis of the classical rough sets and the probabilistic rough sets, the multiple agents participate in decision-making. In this model, each user makes judgments. In order to synthesize the views of agents, the decision-theoretic model based on mean value is p
6、roposed in this thesis and the best decision to the application is given which is demonstrated to be its usefulness in life. Keywords: Rough set; Decision-theoretic rough set; Multi-agents decision-making; Mean value III 目 录 摘要 . I Abstract . II 1 前言 . 1 2 Pawlak 代数粗糙集模型 . 2 3 概率粗糙集模型 . 3 4决策粗糙集模型 .
7、 4 4.1 单用户决策 . 4 4.2 多用户决策 . 6 5.多用户决策粗糙集模型实例 . 8 结论 . 11 参考文献 . 12 致谢 . 15 1 1 前言 社会进入了网络信息时代,信息量迅速增长(信息爆炸),由于人类的参与,数据和信息系统中的不确定性更加显著(复杂系统)。面对大量的、杂乱无章的数据,人们希望能从中挖掘出潜在的、有用的信息。粗糙集理论与方法对于处理复杂的系统,不必提供所需处理的集合之外的任 何先验信息,是一种有效的数据处理方法。 波兰数学家 Pawlak6于 1982 年提出了一种能够定量分析处理不精确、不一致、不完整信息与知识的理论 粗糙集理论。 1991 年, Pa
8、wlak7发表了专著粗糙集 关于数据推理的理论( Rough Sets Theoretical Aspects of Reasoning about Data),这表明人们对粗糙集理论的研究进入了一个活跃期。 粗糙集理论这一数学工具,已在模式识别、机器学习以及数据挖掘等领域得到了广泛的应用。Pawlak 粗糙集模型忽视了一部分 不确定的可利用信息,这促使了很多学者探讨该理论的概率推广 概率粗糙集模型。在对概率粗糙集模型的研究中,比较有代表性的成果有: Yao 等人 14-17提出了在 Bayes 分析基础上的决策粗糙集模型( decision-theoretic rough sets); Po
9、lkowski9和Skowron11对概率近似分类与模糊集两者作了比较研究; Pawlak, Wong 和 Ziarko 等人 5提出了 0.5-概率粗糙集模型; Ziarko20提出了可变精度粗糙集模型; Pawlak 和 Skowron 等人 8引入了 粗糙隶属度和粗糙隶属函数的概念; Skowron 和 Stepaniuk 提出了参数化粗糙集模型; Greco 等人 4研究了 Bayes 粗糙集模型。在决策粗糙集理论的研究中, Yao 等人 14进一步分析了决策粗糙集同模糊集同经典粗糙集的关系,并指出经典 Pawlak 粗糙集、模糊集意义下的 截集、各种概率型粗糙集模型均可在决策粗糙集模
10、型中找到相对应的解释,它们均可视为决策粗糙集的特例。自决策粗糙集诞生以来,尤其是近几年,决策粗糙集理论的应用价值受到越来越多的关注。 例如, Qiusheng等人 10分析了粗糙关系下的数据关系; Yao J.T.等人 13研究了 DTRS 在属性选择问题中的应用,给出了 DTRS 在网络支持系统中的应用方法; Zhao 等人 2研究了决策粗糙集理论在信息过滤中的应用; Zhou 和 Li19研究了基于 DTRS 的多层次决策规则提取方法; Ayad R.等人 3研究了 Bayes 决策粗糙集在 E-learning 系统中的应用。 当多用户参与决策时,每个用户可根据决策偏好等具体情况选定阈值
11、 , 的大小,进行优选。为了综合每个用户的意 见,保证决策算法的完备性、广泛性,本文在对经典粗糙集、概率粗糙集进行分析的基础上, 提出基于均值的决策模型 ,同时给出应用实例,给出最优决策方案,并举出实例体现其在生活中的实用性。 2 2 Pawlak 代数粗糙集模型 粗糙集理论的核心基础是一对近似算子 上、下近似。在定义了上、下近似集的基础上,进一步定义了正域、负域和边界域 6,7,利用数学推理方法来获得问题近似解决的方法。下面对粗糙集基本概念作一介绍。 设论域 U 是一非空有限集合,一个等价关系 R 可将整个论域划分成非空、互不相交的子集族,也就是形成了论域 U 上的一个划分,记为 RU/ 。
12、若论域中的某些元素处于同一个等价类中,则这些元素 因其不可区分性、相似性而被看作一致 18。 在一个信息系统 ),( AUS 中, U 为论域,A 为属性集。设 X 为 论域 U 的一个子集, R 为一个等价关系,则 X 的下近似集 )(Xapr 和上近似集 )(Xapr 分别定义为: XxUxXa p r R |)( , XxUxXa p r R|)( . 根据 X 的上、下近似的定义,可将整个论域 U 划分为互不相交的三部分:正域 )(XPOS 、边界域 )(XBND 以及负域 )(XNEG ,它们定义如下:)()( XaprXPO S , )(XNEG )(XaprU , )(XBND
13、)(Xapr )(Xapr . 正域是由那些根据 知识 R 判断必定属于概念 X 的 U 中的元素组成的集合;而边界域是由那些根据知识 R 既不能肯定属于概念 X 又不能肯定属于 X 的 U 中的元素组成的集合;负域是由那些根据知识 R 判断 必 定 不 属 于 概 念 X 的 U 中 的 元 素 组 成 的 集 合 。 显 然 可 见 ,)(Xapr )(XPOS )(XBND ,即上近似集中包含了确定属于 X 和可能属于 X 的 U 中的元素。当 )(Xapr )(Xapr 时, X 为 R 可定义集。否则, X 为 R 粗糙集。实际上, )(Xapr 为 X中的最大可定义集, )(Xap
14、r 为含有 X 的最小可定义集。 边界域的存在导 致了集合的不精确性,我们用精度 1来表达这一点。由等价关系 R 定义的近似精度为|)(| |)(|)( Xapr XaprX ,其中 |)(| Xapr 表示集合 )(Xapr 的基数, |)(| Xapr 表示集合)(Xapr 的基数。 3 3 概率粗糙集模型 Pawlak 代数粗糙集模型是基于完全确定的知识库的,它忽视了不确定的可利用信息,这类模型在对随机 产生的知识库的数据分析方面往往不能完全反映问题的实质。因此,许多学者为研究不确定性系统提出了新的粗糙集模型 概率粗糙集模型。 设 U 为有 限对象 构成 的论域 , R 是 U 上的等
15、价关 系,由 此构 成的划 分为:,.,/ 21 nXXXRU 。记 P 为定义在 U 上的子集类构成的 代数上的概率测度,三元组),( PRUAp 则称为概率近似空间。 U 中的每一个子集都称为概念,代表一个随机事件。设10 ,对于任意的 UX ,可定义 X 关于概率近似空间 pA 依参数 , 的概率下近似 )(XP 和上近似 )(XP 为: )|(|)( xXPUxXP , )|(|)( xXPUxXP . X 关于概率近似空间 pA 依参数 , 的正域、边界域和负域分别为: ),( XPOS )|(|)( xXPUxXP , ),( XBND )|(| xXPUx , ),( XNEG
16、)|(|)( xXPUxXPU . 由于概率粗糙集允许将边界域中条件概率大于或等于 的一部分等价类也归到正域中,同时将边界域中条件概率小于或等于 的一部分等价类归到负域中,因此概率粗糙集中的边界域一般要比 Pawlak 代数粗糙集中的边界域小,而正域和负域则分别要比 Pawlak 代数粗糙集中的正域和负域大。 4 4决策粗糙集模型 4.1 单用户决策 如上所述,在 Pawlak 代数粗糙集中,只有那些能够完全包含于概念 X 的等价类才能被判别属于决策概念,即正域,而对于部分包含于概念 X 的等价类则被归为边界域。然而在实际问题中,由于各种因素的影响,条件等价类一般只是部分包含于决策概念,而完全
17、包含于决策概念的等价类比较少。学者们因此提出了一系列的概率 粗糙集模型。 Yao 等人 16分析了决策粗糙集同模糊集以及同经典粗糙集的关系,指出经典 Pawlak 粗糙集、模糊集意义下的 截集、各种概率型粗糙集模型均可在决策粗糙集模型中找到相对应的解释,它们均可视为决策粗糙集的特例。 可以提出两种类型的规则:对于正域和负域用确定性规则;对于边界域用非确定性规则 12。 设 ,., 21 s 表示具有 s 个特征状态的集合,每个 i 是 U 的子集, ,., 21 mrrrA 是表示具有 m 个可能决策行为构成的集合。 )|( xP j 表示在描述 x 下,对象 x 具有状态 j 的概率,一般假
18、定 )|( xP j 已知。令 )|( jir 表示在状态为 j 时,采取决策行为 ir 的风险损失。因此,由全概率公式,可得到对象 x 在给定描述 x 下,采取决策行为 ir 的期望风险(常称条件风险): )|( xrR i )|()|(1 xPr jsj ji . 一般地,对于给定的描述 x ,决策规则 )(x 可看做是描述空间到 A 的一个函数,即 Ax)( 。由于 )|)( xxR 表示对象 x 在描述 x 下采取决策 )(x 的条件风险,因此,总体风险为:)()|)( xPxxRR x 。为了问题叙述得直观和便于理解 ,考虑只具有两种特征状态的集合, 。这样论域被分成了三个部分: )
19、(POS 、 )(NEG 和 )(BND 。对于论域中的每一个元素,在描述 x 下都可能面对三种可能的决策: 决策 Pr : )(POSx ,即 Pr : )( POSx , 决策 Nr : )(NEGx ,即 Nr : )( NEGx , 决策 Br : )(BNDx ,即 Br : )( BNDx . 5 这时, , BNP rrrA 。设 111 , BNP 分别表示对象实际属于 采取决策 Pr , Nr , Br 的风险;222 , BNP 分别表示对象实际不属于 采取决策 Pr , Nr , Br 的风险。 )|( xP 表示对象在描述 x 下属于 的概率, )|( xP 表示对象在
20、描述 x 下属于 的概率。那么可计算出这 3种决策的期望风险为: )|( xrR P 1P )|( xP 2P )|( xP , )|( xrR N 1N )|( xP 2N )|( xP , )|( xrR B 1B )|( xP 2B )|( xP . 根据 Bayes 粗糙集模型的原则(利用事件发生的先验概率,获得使总体风险最小的决策),可得到决策规则: Pr : )( POSx ,若 )|( xrR P )|( xrR N 且 )|( xrR P )|( xrR B , Nr : )( NEGx ,若 )|( xrR N )|( xrR P 且 )|( xrR N )|( xrR B
21、, Br : )( BNDx ,若 )|( xrR B )|( xrR P 且 )|( xrR B )|( xrR N . 在实际情况中,显然有 1P 1B 1N ,且 2P 2B 2N 。 另外, )|( xP 1)|( xP ,可将最小风险决策规则重新表达为: Pr : )( POSx ,若 )|( xP , )|( xP ; Nr : )( NEGx ,若 )|( xP ,且 )|( xP ; Br : )( BNDx ,若 )|( xP , 其中 )()( 2211 22 BPPB BP , )()( 2211 22 NPPN NP , )()( 2211 22 NBBN NB . 当
22、 )( 22 BP )( 11 BN )( 11 PB )( 22 NB 成立时,可得到 。 6 还可以得到: )()( 2211 22 BPPB BP )()()()( 11222211 2222 BNNBBPPB NBBP )()( 2211 22 NPPN NP )()( 2211 22 NBBN NB ,即有 。这时最小风险决策规则变为: Pr : )( POSx ,若 )|( xP ; Nr : )( NEGx ,若 )|( xP ; Br : )( BNDx ,若 )|( xP 若当 )|( xP 时,采用决策 )(POS ,当 )|( xP 时,采用决策 )(NEG ,则最小风险
23、决策规则变为: Pr : )( POSx ,若 )|( xP ; Nr : )( NEGx ,若 )|( xP ; Br : )( BNDx ,若 )|( xP . 这就是上面提到的概率粗糙集模型。实际上,各种概率型粗糙集模型均可在决策粗糙集模型中找到相对应的解释,它们均可视为决策粗糙集的特例。和其他的概率粗糙集模型不同的是,决策粗糙集模型中划分正域、边界域、负域的阈值是通过计算各决策的最小风险得到的确定值。 4.2 多用户决策 假 设有 n 个决策者通过计算最小风险来决定一个对象应该属于哪些区域,类似于 DTRS 中的单用户决策,对于决策者 j ),.,3,2,1( nj , j 、 j 表示相应选定的阈值的大小。 设 jP1 , jP2 , jP3 分别表 示对象实际属于 采取决策 jPr , jNr , jBr 的风险; jP2 , jN2 , jB2 分别表示对象实际不属于 采取决策 jPr , jNr , jBr 的风险。 )|( xP 表示对象在描述 x 下属于 的概率, )|( xP 表示对象在描述 x 下属于 的概率。那么可计算出决策者 j 的这 3 种决策的期望风险为: