1、模糊聚类在水质综合评价中的应用摘要:针对目前水质综合评价方法中人为因素影响较大和评价模型较为复杂的问题,提出了基于聚类思想的水质综合评价方法。采用模糊聚类分析法进行水质的综合评价,通过对实例数据的计算,验证了方法的有效性。该聚类过程无人为因素干扰,且模型简单、扩展性好,适应水质评价,具有很好的应用前景。 关键词:水质;综合评价;模糊等价关系;阈值 中图分类号:S959 文献标识码:A 我国根据自身的实际情况制定了水质相关指标的国家标准1。而水质作为一个多指标的综合体,单纯地评价某项指标,并不能反映其整体水平。因此,如何对水质进行客观有效地综合评价已经成为众多学者研究的热点。 目前,水质综合评价
2、的研究主要集中于评价方法的选取。文献2-4分别采用基于模糊数学、层次分析法、物元分析法等对水质进行综合评价,但这些方法均较大程度的受到主观不确定性的影响。文献5-8分别采用神经网络、遗传算法、投影寻踪法、粒子群优化算法等人工智能算法进行指标权重的确定,以期能够尽可能避免综合评价过程中人为因素的干扰,取得了积极的效果,但这类方法数学模型复杂、计算步骤繁琐,不适宜对大量的评价对象进行统一评价,且评价模型的扩展具有一定的局限性。 针对上述方法中存在的不足,本文提出了一种基于聚类思想的水质综合评价方法。采用质的各项评价指标作为特征值,将样本数据集进行聚类分析,根据“物以类聚”的聚类思想,得到包含各个水
3、质样本的聚类结果,实现对样本数据的综合评价。鉴于模糊数学在处理水质模糊属性上的明显优势,文中选取了基于模糊等价关系的聚类分析法进行模糊聚类,通过实例计算,验证了方法的有效性。评价过程能够避免人为因素的影响,并较好地避免了评价指标权重难以确定的问题,同时评价模型简单、计算简便,指标扩展性好,适合对包含大规模水质采集点的区域进行统一评价,具有很好的应用前景。综合评价的指标体系及其分级 1 模糊聚类方法原理 对事物按一定要求进行分类的数学方法,就是聚类分析,它属于数理统计多元分析的一支。由于水质的一些指标对问题的描述具有模糊性,因此采用模糊数学语言进行处理自有其方便之处。 设被分类对象的集合为 U=
4、u1,u2,un,每一个对象 ui 由一组特征数据(ui1,ui2,uim)来表征,其中 uij 表示第 i 个对象的第 j 个特性指标,记作 (1) 称 U*为 U 的特性指标矩阵。 由于 m 个特性指标的量纲和数量级不一定相同,要对 U*进行数据规格化处理。根据实际的计算要求,用多元分析的方法来确定对象 ui 和 uj之间的模糊相似度,建立模糊相似矩阵,即: (2) 此时得到矩阵 R=(rij)nn,一般来说只具有自反性和对称性,不一定具有传递性,未必是模糊等价矩阵26。因此,还要由模糊相似矩阵R 出发,构造模糊等价矩阵,并以其为基础,进行动态聚类,得到各个阈值 下的分类,最后确定符合实际
5、要求的最佳聚类结果。 2 模糊聚类计算步骤 根据水质综合评价的特点,采用水质的各项评价指标作为特征值,得到各监测点的水质原始数据样本集,对于水质数据点集U=u1,u2,un,形成特性指标矩阵 U。 2.1 建立模糊相似关系 对特性指标矩阵 U*的第 j 列,计算 (3) 得到各项特征值的平均值和标准差,然后通过变换 (4) 得到服从标准正态分布的规格化矩阵 U0=(uij)n6。 用欧氏距离公式,计算 (5) 式中:c 为可使 0c1 的一个常数,得到相似系数 rij,其中i,j=1,2,n,进而建立模糊相似关系矩阵 R=(rij) 2.2 模糊聚类 由于式(6)得到的矩阵 R 不能直接用于动
6、态聚类,故必须对其改造,求得相应的模糊等价矩阵,再进行动态聚类。本文利用平方自合成法求出模糊相似矩阵 R 的传递闭包 t(R),即 (6) 其中 klog2n+1。t(R)即所需的模糊等价矩阵 R。 按照从 1 到 0 的顺序选取阈值 0,1,求出 t(R)的 截矩阵t(R),并对其聚类,具体原则如下: 设 t(R)=(rij)nn,t(R)=(rij()nn,则 (7) 对于 ui,ujU,若 rij()=1,则在 水平上将数据点 ui 和 uj归为一类。 3 模糊综合评价及结果分析 3.1 计算过程聚类结果 本文选取了评价区的 4 个监测断面 3 个月份进行监测,监测数据(见表 1) ,选
7、取了具有代表性的 7 项指标组成因子集,即溶解氧(DO),高锰酸盐指数(CODmn),生化需氧量(BOD5),氨氮(NH3-N),总氮(TN),总磷(TP),化学需氧量(COD)。 表 1 某评价区水质监测数据单位 mg/L 根据前文提到的方法步骤,运用模糊聚类法对评价区水质进行评价。根据式(3)至式(5) ,计算得到相似性矩阵为: 根据 计算得到模糊等价矩阵为: 选取适当的 ,对被分类对象进行动态聚类,由式(7)可得的 截矩阵分别为: 当.441 时, 分为 1 类: ; 当.441.523 时,分为类: ; 当 0.5230.524 时, 分为 类 ; 当 0.524.529 时, 分为
8、类: ; 当 0.5290.553 时, 分为 类: ; 当 0.5530.607 时,分为 6 类: ; 当 0.6070.615 时,分为 7 类: ; 当 0.6150.635 时, 分为 8 类: ; 当 0.6350.731 时,分为 9 类: ; 当 0.7310.777 时,X 分为 10 类: ; 当 0.7770.795 时,分为 11 类: 当 0.7951 时,分为 12 类: 。 用单因子评价水质评价及方法验证结果表明:=0523 时,分为两类,第一类为 为 IV 类水质;第二类为 为 V 类水质。评价结果与单因子评价比较结果与表 2 所示。 表 2 模糊聚类评价结果与
9、单因子评价结果比较 3.2 结果分析 (1)根据上述模糊聚类评价结果可以看出:水质不随着季节的变化而变化。4 个监测断面 2 月水质均为 IV 类,5 月和 8 月均为 V 类,该区水环境状况不容乐观。 (2)模糊聚类评价在 5 月和 8 月水质评价中为 V 类,而单因子评价结果为各有一个月份为 IV 类,存在分歧。这是因为在单因子指数评价中是以最差因子的评价结果作为最终的评价结果,体现了单因子否决权,没有考虑到多因子的综合结果。而模糊聚类法是依据各因子特征值建立样本之间相似等价关系进行分类,以确定水质类别,其结果更为准确、客观。 4 结论 1)本文提出了基于聚类思想的水质综合评价方法,将已知
10、水质样本数据集进行聚类分析,根据“物以类聚”的原则确定出待评价监测数据点的水质等级,为水质的综合评价提供了一种新的思路。 (2)提出了基于模糊等价关系聚类分析的水质综合评价模型,有效克服了传统评价方法中人为因素的干扰,并较好地避免了评价指标权重难以确定的问题,同时评价模型简单,能够根据需要选取任意的水质评价指标和各种精细划分的水质等级,适应性强,扩展性能好。 (3)通过两个实例证明,该方法能够对水质进行有效评价,并适合对包含大规模水质采集点的区域进行统一评价,所得结果还能作为其他分析方法的基础进行水质综合评价,具有很好的应用前景。 参考文献 1 国家环境保护局.地表水环境质量标准(GB3838
11、-2002)M.北京:中国环境科学出版社,2002. 2宋海亮,吕锡武,李先宁.太湖西段入湖河流水质模糊综合评价J.安全与环境学报,2006,6(1):87-91 3 徐兵兵,张妙仙,王肖肖.改进的模糊层次分析法在南苕溪临安段水质评价中的应用J.环境科学学报,2011,31(9):2066-2069 4 魏明华,郑志宏,黄强.基于改进 SPA 法的地下水环境模糊综合评判J.水利学报,40(10):1204-1207. 5 付永锋,张建,罗光明等.基于改进 BP 神经网络的地下水水质评价J.西北农林科技大学学报,2004,32(11):129-132 6 余健,全丽君.基于粒子群优化算法的组合算子水质评价模型J. 湖南大学学报(自然科学版),2011,38(9):7-10. 7王晓玲,李松敏,段文泉等.基于隶属度-遗传神经网络模型的水质综合评价J.天津大学学报,2006,39(10):1201-1203. 8 方崇,黄伟军.南宁市内河水质的投影寻踪回归分析J.人民长江,41(8):43-45.