1、1基于熵理论的评价指标权重应用与研究摘要:评价指标权重的确定是多目标决策的一个重要环节,它将直接影响评价结果。本文把熵与多目标评价方法 TOPSIS 结合起来,分析候选基因与乳腺癌易感性之间强弱的评价值,综合考虑定性和定量因素,同时消除了主观因素对权重确定的影响,通过最终的分析结果,为进一步发现乳腺癌候选基因提供理论依据。 关键词:熵;熵权 TOPSIS;乳腺癌 一、引言 熵是热力学中的一个名词,在信息论中又称为平均信息量,它是信息无序度的度量,信息熵越大,信息的无序度越高,其信息的效用值越小;反之,信息熵越小,信息的无序度越小,信息的效用值越大。因此,在综合评估中,通常运用信息熵评估系统信息
2、的有序程度及信息的效用值。同时最大熵技术也广泛应用于多目标决策问题各评价指标权重的确定1。基于此,本文把熵与多目标评价方法 TOPSIS 结合来分析乳腺癌候选基因与乳腺癌易感性之间强弱的评价值,进而综合考虑定性和定量因素,并最终给出了分析结果,为进一步发现乳腺癌候选基因提供了理论依据。 二、熵、熵权 TOPSIS 方法 空间统计学中,距离综合评价法是一种以空间统计学为基础的分析方法,它是通过将统计数据转化为多维坐标系中的点,在空间中确定出2参考点,即最优样本点和最劣样本点,然后计算各样本点到参考点的距离来分析评价的方法。具体计算步骤如下。 1.对数据的初步分析处理。假设用 P 个指标对 n 个
3、数据进行评价,先构造原始数据, X=(X1,X2,X3XP)=( XIJ)n*p 并对数据进行处理,进行指标同向化,将逆指标、适度指标转为正指标后得到矩阵: X=(X1,X2,X3XP)=( XIJ)n*p i=1n;j=1p。 2.无量纲化。为消除量纲,并在数量上统一,TOPSIS 法使用无量纲化公式 yij= 得到无量纲矩阵 Y=(Y1,Y2,Y3YP) 3.确定权重,构造加权数据矩阵。传统的 TOPSIS 法在确定评价指标的权重时,一般采用专家意见调查法或层次分析法等方法,这些方法存在着较大的主管因素,不同的人对各个指标的重要度有不同的评价。因此,本文采用熵的概念来确定评价指标的权重,从
4、而避免主观因素的影响。 熵值法是根据各指标的观测值所提供信息量的大小来确定权重的方法。数据分布越分散,其不准确性也越大。当系统可能处于 N 种不同状态,每种状态出现的概率为批 pi 时,该系统的熵为 e=-pilnpi 3式中 0pi1,pi=1。各个指标的决策信息可用其熵值来表示: ej=-kpijlnpij 式中 K=1/lnn。于是第 j 个指标的评价值数据的分散程度 gj 可表示为 gj=1-ej。 给定的指标 xj,xij 的差异越大,相应的 gj 值也越大,表明该指标所包含和传输的信息量越大,重要程度也越高;相反,表明该指标的重要性低;如果各方案的 xij 都相等,则在指标评价值绝
5、对集中,该指标对综合评价不起任何作用,因此,用熵测度来表示的第 j 个指标的权重为 wj= 确定出各指标的权重后,以它们为主对角线上的元素构造主对角矩阵 YW=(yij)nji=w1y11wpy1p wnyn1wnynp 式中 yij=wj*yij 4.确定参考样本:参评样本中的最大值构成最优样本,最优样本点为: Y+=(y1+,y+p) ,y+j=yij 参考样本中的最小值构成最劣样本,最劣样本点为: Y-=(y1-,y-p) ,y-j=yij 5.计算距离:为综合考虑样本点到最优样本点和最劣样本点的距离,需计算样本点在最优样本点两个参考点间连线的射影: 4d= = di 越大,样本越好。
6、三、基于熵权 TOPSIS 乳腺癌易感基因分析 随着医学分子生物学的发展,使得人类有机会从分子水平研究乳腺癌,由此对乳腺癌的研究也进入了基因时代。在这个研究过程中,用到了很多方法和实验,产生了大量的数据。尽管从中发现了一些致癌基因,但至少有 80%的乳腺癌基因不能由已知的致癌基因解释,这意味着有更多的致癌基因尚待发掘。Pujana 等人结合自定义五规则匹配和基因见的相关系数大小,找出了一个乳腺癌致癌易感基因HMMR;徐超等人运用多目标评价模型对候选易感基因进行评价并对 SMC4L1 进行了着重分析。但以上文献中,模型权重的确定客观性太强,在一定程度上对评价结果产生了影响。对此,本文引用熵权 T
7、OPSIS 方法对乳腺癌候选易感基因进行分析和评价,从而避免了主观因素对权重确定的影响。 以徐超等人整理的乳腺癌易感基因参考数据对其运用熵权 TOPSIS 方法评价,具体分析如下。 1.构造原始数据。利用 Pujana 等人提出的评价规则体系、徐超等人整理的评价数据,构建乳腺癌易感基因多目标评价模型的评价指标集及相应的评价属性集,如表 1 所示。 2.对模型数据进行无量纲化处理后,算出其属性权重如表 2 所示。 3.确定参考样本。参评样本中的最大值构成最优样本,参考样本中的最小值构成最劣样本,具体数值为: 5Y+=(0.0682699910564073,0.0002237 9047193958
8、7) ; Y-=(0, .0000498327157898221) 。 4.计算距离并排序。通过计算每个样本和参考样本之间的距离,得出排序结果,部分数据如表 3 所示。 取其结果与文献参考评价模型结果进行比较,通过比较可以看出,其评价结果完全相同。进一步说明了此方法的可行性,同时也避免了由于主观因素对权重造成的影响。 四、总结 本文通过运用熵权 TOPSIS 方法对乳腺癌治病基因进行评价分析,消除了主观因素对权重确定的影响。根据计算结果表明,该方法能够有效地度量各致病基因的重要程度,为进一步发现乳腺癌候选基因提供了理论依据。 参考文献: 1赵静,王婷,牛东晓.用于评价的改进熵权 TOPSIS
9、法J.华北电力大学学报.2003(3). 2中华人民共和国卫生部.中国卫生统计年鉴M.中国协和医科大学出版社,2009. 3THOMPSON D, SZABO C I, MANGION J, et al. Evaluation of linkage of breast cancer to the putative BRCA3 locus on chromosome 13q21 in 128 multiple case families from the Breast Cancer Linkage ConsortiumJ. PNAS,2002, 99:827-831. 4Pujana M A,
10、Han Jing-Dong J, Starita L M, et al. 6Network modeling links breast cancer susceptibility and centrosome dysfunction.Nature Genetics,2007,39: 1338-49. 5徐超,蒋艳.基于多目标评价模型的 SMC4L1 基因的乳腺癌易感性分析J.生物医学工程杂志,2011(3). 6Xu Chao, Jiang Yan. Multi-Criteria Evaluation Model Reveals SMC4L1 Gene Maybe a Breast Cancer Susceptibility Gene. 2009 Fourth International Conference on Bio-Inspired Computing, BIC-TA2009, 2009, 10:161-163. * 本论文受上海市一流学科(系统科学)项目资助:(XTKX2012) ;受上海市教委创新项目资助(2013Z10252016) 。 (作者单位:田鑫,上海理工大学管理学院;蒋艳,上海理工大学管理学院;隋杨,中国矿业大学矿业工程学院)