1、 第六章 灰色系统理论 客观世界的很多实际问题,其内部的结构、参数以及特征并未全部被人们了解,人们不可能象研究白箱问题那样将其内部机理研究清楚,只能依据某种思维逻辑与推断来构造模型。对这类部分信息已知而部分信息未知的系统,我们称之为灰色系统。本章介绍的方法是从灰色系统的本征灰色出发,研究在信息大量缺乏或紊乱的情况下,如何对实际问题进行分析和解决。 1 灰色系统概论 客观世界在不断发展变化的同时 , 往往通过事物之间及因素之间相互制约、相互联系而构成一个整体 , 我们称之为系统。按事物内涵的不同 , 人们已建立了工程技 术、社会系统、经济系统等。人们试图对各种系统所外露出的一些特征进行分析 ,
2、从而弄清 楚系统内部的运行机理。从信息的完备性与模型的构建上看 ,工程技术等系统具有较充足的信息量 , 其发展变化规律明显 、 定量描述较方便 、结构与参数较具体 、 人们称之为白色系统 ; 对另一类系统诸如社会系统、农业系统、生态系统等 , 人们无法建立客观的物理原型 , 其作用原理亦不明确 , 内部因素难以辨识或之间关系隐蔽 , 人们很难准确了解这类系统的行为特征 , 因此对其定量描述难度较大 , 带来建立模型的困难。这类系统内部特性部分已知的系统称之为灰色系统。一个系统的内 部特性全部未知 ,则称之为黑色系统。 区别白色系统与灰色系统的重要标志是系统内各因素之间是否具有确定的关系。 运动
3、学中物体运动的速度、加速度与其所受到的外力有关,其关系可用牛顿定律以明确 的定量来阐明,因此,物体的运动便是一个白色系统。 作为实际问题,灰色系统在大千世界中是大量存在的,绝对的白色或黑色系统是很少的 社会、经济、农业以及生态系统一般都会有不可忽略的“噪声”(即随机 干扰)。现有的研究经常被“噪声”污染。受随机干扰侵蚀的系统理论主要立足于概率统计。通过统计规律、概率分布对事物的发展进行预测,对事物的处置进行决策。现有的系统分 析的量化方法,大都是数理统计法如回归分析、方差分析、主成分分析等,回归分析是应用最广泛的一种办法。但回归分析要求大样本,只有通过大量的数据才能得到量化的规律,这对很多无法
4、得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求样本有较好的分布规律,而很多实际情形并非如此。例如,我国建国以来经济方面有几次大起大落,难以满足样本有较规律的分布要求。因此,有了大量的数据也不一定能得到统计规律,甚至即使得到了统计规律,也并非任何情况都可以分析。另外,回归分析不能分析因素间动态的关联程度,即 使是静态,其精度也不高,且常常出现反常现象。 灰色系统理论提出了一种新的分析方法 关联度分析方法,即根据因素之间发展态势的相似或相异程度来衡量因素间关联的程度,它揭示了事物动态关联的特征与程度。由于以发展态势为立足点,因此对样本量的多少没有过分的要求,也不需要典型的分布规律,计算
5、量少到甚至可用手算,且不致出现关联度的量化结果与定性分析不一致的情况。这种方法已应用到农业经济、水利、宏观经济等各方面,都取得了较好的效果。 灰色系统理论建模的主要任务是根据具体灰色系统的行为特征数据,充分开发并利用不多的数据中的显 信息和隐信息,寻找因素间或因素本身的数学关系。通常的办法是采用离散模型,建立一个按时间作逐段分析的模型。但是,离散模型只能对客观系统的发展做短期分析,适应不了从现在起做较长远的分析、规划、决策的要求。尽管连续系统的离散近似模型对许多工程应用来讲是有用的,但在某些研究领域中,人们却常常希望使用微分方程模型。事实上,微分方程的系统描述了我们所希望辨识的系统内部的物理或
6、化学过程的本质。 灰色系统理论首先基于对客观系统的新的认识。尽管某些系统的信息不够充分,但作为系统必然是有特定功能和有序的,只是其内在规律并未充分 外露。有些随机量、无规则的干扰成分以及杂乱无章的数据列,从灰色系统的观点看,并不认为是不可捉摸的。相反地,灰色系统理论将随机量看作是在一定范围内变化的灰色量,按适当的办法将原始数据进行处理,将灰色数变换为生成数,从生成数进而得到规律性较强的生成函数。 2 关联分析 大千世界里的客观事物往往现象复杂,因素繁多。我们往往需要对系统进行因素分析,这些因素中哪些对系统来讲是主要的,哪些是次要的,哪些需要发展,哪些需要抑制,哪些是潜在的,哪些是明显的。一般来
7、讲,这些都是我们极为关心的问题。事实上,因素间关联性如何、 关联程度如何量化等问题是系统分析的关键和起点。 因素分析的基本方法过去主要采取回归分析等办法。正如前一节指出的,回归分析的办法有很多欠缺,如要求大量数据、计算量大及可能出现反常情况等。为克服以上弊病,本节采用关联度分析的办法来做系统分析。 作为一个发展变化的系统,关联分析实际上是动态过程发展态势的量化比较分析。所谓发展态势比较,也就是系统各时期有关统计数据的几何关系的比较。 例 1 某地区 1977 1983 年总收入与养猪、养兔收入资料见表 1。 表 1 例 1的数据 1977 1978 1979 1980 1981 1982 19
8、83 养猪 10 15 16 24 38 40 50 养兔 3 2 12 10 22 18 20 总收入 18 20 22 40 44 48 60 根据表 1我们可以得到更为形象的图,如图 1所示。 1977 1978 1979 1980 1981 1982 19830102030405060年 份收入养猪养兔总收入图 1 例 1变化趋势 由上图易看出,养猪曲线与总收入曲线发展趋势比较接近,而与养兔曲线 相差较大,因此可以判断,该地区对总收入影响较直接的是养猪业,而不是养兔业。很显然,几何形状越接近,关联程度也就越大。当然,直观分析对于稍微复杂些的问题则显得难于进行。因此,需要给出一种计 算方
9、法来衡量因素间关联程度的大小。 2.1 数据变换技术 为保证建模的质量与系统分析的正确结果,对收集来的原始数据必须进行数据变换和处理,使其消除量纲和具有可比性。 定义 1 设有序列 (1), ( 2 ), , ( )x x x x n 则称映射(函数) :f x y ( ( ) ) ( ) , 1 , 2 , ,f x k y k k n 为序列 x 到序列 y 的数据变换。常见的数 据变换有如下几种。 1) 初值化变换,映射 f 为 ()( ( ) ) ( ) , (1 ) 0(1)xkf x k y k xx (1) 2) 均值化变换,映射 f 为 1( ) 1( ( ) ) ( ) ,
10、( )nkxkf x k y k x x kxn (2) 3) 百分比变换,映射 f 为 ()( ( ) ) ( )m a x ( )kxkf x k y kxk (3) 4) 倍数变换,映射 f 为 ()( ( ) ) ( ) m in ( ) 0m in ( )kkxkf x k y k x kxk , (4) 5) 归一化变换,映射 f 为 00()( ( ) ) ( ) , 0xkf x k y k xx (5) 6) 极差最大值化变换,映射 f 为 ( ) m in ( )( ( ) ) ( )m a x ( )kkx k x kf x k y kxk (6) 7) 区间值化变换,映
11、射 f 为 ( ) m i n ( )( ( ) ) ( )m a x ( ) m i n ( )k kkx k x kf x k y kx k x k(7) 2.2 关联分析 定义 2 选取参考数列 0 0 0 0 0 ( ) | 1 , 2 , ( 1 ) , ( 2 ) , , ( ) x x k k n x x x n (8) 其中 k 表示时刻。假设有 m 个比较数列 ( ) | 1 , 2 , ( ( 1 ) , ( 2 ) , , ( ) ) , 1 , 2 , ,i i i ix x k k n x x x n i mi (9) 则称 0000m in m in ( ) ( )
12、 m a x m a x ( ) ( )() ( ) ( ) m a x m a x ( ) ( )ssi st stisstx t x t x t x tk x k x k x t x t (10) 为比较数列 xi 对参考数列0x在 k 时刻的关联系数,其中 0,1 为分辨系数。在式( 10)中,称 0m in m in ( ) ( )sst x t x t(11)为两极 最小差,称 0m a x m a x ( ) ( )sst x t x t(12)为两极 最大差。 一般来讲,分辨系数 越大,分辨率越大; 越小,分辨率越小。( 10)式定义的关联系数是描述比较数列与参考数列在某时刻关联
13、程度的一种指标,由于各个时刻都有一个关联数,因此信息显得过于分散,不便于比较,为此我们给出关联度。 定义 3 称 11 ()niikrkn (13) 为数列 xi 对参考数列0x的关联度。 由( 6)易看出,关联度是把各个时刻的关联系数集中为一个平均 值,亦即把过于分散的信息集中处理。下面我们来仔细研究一下关联度这个概念,并看一下它的应用。 例 2 给出下述数列 0 (20, 22, 40)x , 1 (30, 35, 55)x , 2 (40, 45, 43)x ,试求两极最小差与两级最大差。 解:先求两极最小差。对于 1i , 10|3020|)1()1(,1 10 xxk 13|3522
14、|)2()2(,2 10 xxk 15|5540|)3()3(,3 10 xxk 所以 10)15,13,10(m in k对于 2i , 20|4020|)1()1(,1 20 xxk 23|4522|)2()2(,2 20 xxk 3|4340|)3()3(,3 20 xxk 所以 3)3,23,20(min k由于 10)()(m in 10 kxkxk , 3)()(m in 20 kxkxk , 所以, 0m i n ( m i n ( ) ( ) ) m i n (1 0 , 3 ) 3iik x k x k 。 再求 两极 最大差: 15)15,13,10m a x ()()(m
15、 a x,1 10 kxkxi k 23)3,23,20m a x ()()(m a x,2 20 kxkxi k 所以 23)23,15m a x ()()( m a xm a x 0 kxkx iki 。 例 2 求关联系数和关联度 求关联系数的步骤。 Step1. 先将数列作初值化处理。即用每一个数列的第一个数 )1(ix 除本身及其他数 )(kxi ,这样即可使数列无量纲。设已经给出已初值化的序列,如表 2 所示。 Step 2求差序列。各时刻 )(kxi 与 )(0kx 的绝对差,如表 3 所示。 表 . 2 数列作初值化处理 1 2 3 4 5 6 0x 1 1.1 2 2.25
16、3 4 1x 1 1.166 1.834 2 2.34 3 2x 1 1.125 1.075 1.375 1.625 1.75 3x 1 1 0.7 0.8 0.9 1.2 表 . 3 差序列 1 2 3 4 5 6 |)()(| 101 kxkx 0 0.066 0.166 0.25 0 66 1 |)()(| 202 kxkx 0 0.025 0.925 0.875 1.375 2.25 |)(3)(| 03 kxkx 0 0.1 1.3 1.45 2.1 2.8 Step 3求两极最小差与最大差。 求两极最小差 0|)()(|m i n10 kxkxk, 0|)()(|m in20 kx
17、kxk, 0|)()(|m in30 kxkxk所以 0)0,0,0(min i 再求两极最大差 1|)()(|m a x10 kxkxk, 25.2|)()(|m a x20 kxkxk, 8.2|)()(|m a x30 kxkxk所以 8.2)8.2,25.2,1(m a x),(m a x 321 ii Step 4计算关联系数。根据已求出的 0)()(m i n(m i n0 kxkx iki, 8.2)()(m a x(m a x0 kxkx iki代入关联系数 计算公式( 10): 4.1)(4.18.25.0)(8.25.00|)()(|m a xm a x5.0|)()(|)
18、()(|m a xm a x5.0|)()(|m i nm i n)(0000kkkxkxkxkxkxkxkxkxkiiikiiikiikii将表 3 的数据依次代入上式得: 14.10 4.1)1(1 , 9 5 5.04.10 6 6.0 4.1)2(1 , 8 9 4.04.11 6 6.0 4.1)3(1 , 848.04.125.0 4.1)4(1 , 6 7 9 6.04.166.0 4.1)5(1 , 1 1 .4(6 ) 0 .5 8 31 1 .4 所以 )583.0,6 7 9 6.0,848.0,894.0,955.0,1(1 同理,可求出 )(2k 与 )(3k 分别为
19、 )383.0,5 0 4 5.0,615.0,602.0,982.0,1(2 )34.0,4.0,49.0,52.0,9 3 3.0,1(3 通过上述计算,我们得到的是一个关联系数矩阵 E , 1 0 . 9 5 5 0 . 8 9 4 0 . 8 4 8 0 . 6 7 9 6 0 . 5 8 31 0 . 9 8 2 0 . 6 0 2 0 . 6 1 5 0 . 5 0 4 5 0 . 3 8 31 0 . 9 3 3 0 . 5 2 0 . 4 9 0 . 4 0 . 3 4E)( ikE 的信息过于分散,不便于比较,为此有必要将各时刻关联系数集中为一个值,求平均值。 求关联度 所谓
20、关联度是指参考数列对被比较数列关联系数的均值,记为 ir 。 nk ii knr 1 )(1 ir 是曲线 ix 对参考曲线 0x 的关联度。求得上述三条曲线的关联度为 8 2 6 7.0)583.06 7 9 6.0848.0894.0955.01(611 r , 6 8 1 3.0)3 8 3.05 0 4 5.06 1 5.06 0 2.09 8 2.01(612 r 613.0)34.04.049.052.0933.01(613 r 由此可知, 1x 与 0x 关 联度最大,即 1x 是与 0x 发展趋势最接近的因素; 3r 最小, 3x 对 0x 影响最小。 例 3 通过对某健将级女
21、子铅球运动员的跟踪调查,获得其 1982 年至 1986 年每年最好成绩及 16 项专项素质和身体素质的时间序列资料,见表 4,试对此铅球运动员的专项成绩进行因素分析。 表 . 4 该运动员的各项数据 1982 1983 1984 1985 1986 铅球专项成绩 0x 13.6 14.01 14.54 15.64 15.69 4kg 前抛 1x 11.50 13.00 15.15 15.30 15.02 4kg 后抛 2x 13.76 16.36 16.90 16.56 17.30 4kg 原地 3x 12.41 12.70 13.96 14.04 13.46 立定跳远 4x 2.48 2.
22、49 2.56 2.64 2.59 高 翻 5x 85 85 90 100 105 抓 举 6x 55 65 75 80 80 卧 推 7x 65 70 75 85 90 3kg 前抛 8x 12.80 15.30 16.24 16.40 17.05 3kg 后抛 9x 15.30 18.40 18.75 17.95 19.30 3kg 原地 10x 12.71 14.50 14.66 15.88 15.70 3kg 滑步 11x 14.78 15.54 16.03 16.87 17.82 立定三级跳远 12x 7.64 7.56 7.76 7.54 7.70 全 蹲 13x 120 125
23、130 140 140 挺 举 14x 80 85 90 90 95 30 米起跑 15x 42 425 41 406 399 100 米 16x 131 1342 1285 1272 1256 在利用( 10)式及( 13)式计算关联度之前,我们需对表 4 的各个数列做初始化处理。一般来讲,实际问题中的不同数列往往具有不同的量纲,而我们在计算关联系数时,要求量纲要相同。因此,需首先对各种数据进行无量纲化。另外,为了易于比较,要求所有数列有公共的交点。为了解决上述两个问题,我们对给定数列进行变换。 定义 4 在给定数列 (1), ( 2 ), , ( )x x x x n ,称 ( 2 ) (
24、 3 ) ( )1 , , , , (1 ) (1 ) (1 )x x x nx x x x(14) 为原始数据 x 的初始化数列 这样,我们可对表 4 中的 17个数列进行初始化处理。注意,对于前 14个数列,随着时间的增加,数值的增加意味着运动水平的进步,而对后 2个数列来讲,随着时间的增加,数值(秒数)的减少却意味着运动水平的进步。因此,在对数列 15x 及 16x 进行初始化处理时 ,采取以下公式 (1 ) (1 ) (1 ) 1 , , , , , 1 5 , 1 6( 2 ) ( 3 ) ( )i x x xxix x x n (15) 依照问题的要求,我们自然选取铅球运动员专项成
25、绩作为参考数列,将表 4 中的各个数列的初始化数列代入( 10)及( 13)式,易算出各数列的关联度如下表(这里 0.5 )。 表 . 5 各项数据对原始数据 x0 的关联度 r1 r2 r3 r4 r5 r6 r7 r8 0.588 0.663 0.854 0.776 0.855 0.502 0.659 0.582 r9 r10 r11 r12 r13 r14 r15 r16 0.683 0.696 0.896 0.705 0.933 0.847 0.745 0.726 由表 5易看出,影响铅球专项成绩的前八项主要因素依次为全蹲、 3kg 滑步、高翻、 4kg原地、挺举、立定跳远、 30米起跳、 100米成绩。因此,在训练中应着重考虑安排这八项指标的练习。这样可减少训练的盲目性,提高训练效果。 3 生成数 3.1 累加生成 在研究社会系统、经济系统等抽象系统时,往往要遇到随机干扰(即所谓“噪声”)。人们对“噪声”污染系统的研究大多基于概率统计 方法。但概率统计方法有很多不足之处:要求大量数据、要求有典型的统计规律、计算工作量等。而且在某些问题中,其概率意义下的结论并不直观或信息量少。例如,预报某天下
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。