基于主成分的绿色产业评价指标体系的构建.doc

上传人:文****钱 文档编号:42381 上传时间:2018-05-09 格式:DOC 页数:50 大小:1.03MB
下载 相关 举报
基于主成分的绿色产业评价指标体系的构建.doc_第1页
第1页 / 共50页
基于主成分的绿色产业评价指标体系的构建.doc_第2页
第2页 / 共50页
基于主成分的绿色产业评价指标体系的构建.doc_第3页
第3页 / 共50页
基于主成分的绿色产业评价指标体系的构建.doc_第4页
第4页 / 共50页
基于主成分的绿色产业评价指标体系的构建.doc_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、学科分类号110黑龙江科技大学本科学生毕业论文题目基于主成分的绿色产业评价指标体系的构建BASEDONTHEPRINCIPALCOMPONENTOFTHECONSTRUCTIONOFTHEEVALUATIONINDEXSYSTEMOFGREENINDUSTRY姓名学号2009026242院(系)理学院专业、年级数学与应用数学092班指导教师2013年6月10日I摘要关于绿色产业的发展是全球都研究和关注的热点话题。综合评价问题涉及到经济、政治、社会等许多领域,应用极其广泛。综合评价的基础和依据是一套科学合理的评价体系。因此,指标体系构建的合理与否直接决定了综合评价结论的科学性及合理性。本文主要采

2、用系统聚类、主成分分析等方法建立一套绿色产业评价指标体系。首先,构建绿色产业指标海选体系,收集整理20012010年大连市绿色产业相关指标及数据,采用系统聚类方法进行聚类,每个指标层内采用主成分分析,选择出对整个子类评价结果影响最大的指标。既避免了指标间的信息重复对于评价结果的影响,同时保留了每个子类内对评价结果影响最大的指标。最后,构建绿色产业评价指标体系。为实现绿色产业综合评价提供了基础和依据,对绿色产业的评价至关重要。所以建立一套绿色产业评价指标体系具有十分重要的意义。关键词指标评价体系主成分分析聚类分析负载系数IIABSTRACTCOMPREHENSIVEEVALUATIONINVOL

3、VESMANYDOMAINSSUCHASECONOMY,POLITICS,SOCIETY,ISWIDELYAPPLIEDBASEDANDCOMPREHENSIVEEVALUATIONISBASEDONASETOFSCIENTIFICANDREASONABLEEVALUATIONSYSTEM,ASARESULT,THEINDEXSYSTEMOFBUILDINGISREASONABLEORNOTDIRECTLYDETERMINESTHESCIENTIFICITYANDTHERATIONALITYOFTHECOMPREHENSIVEEVALUATIONCONCLUSION,INTHISPAPER,B

4、YADOPTINGTHEMETHODOFSYSTEMCLUSTERING,ANDPRINCIPALCOMPONENTANALYSISFIRST,BUILDAGREENINDUSTRYAUDITIONSYSTEM,COLLECTEDIN20012010DALIANCITYGREENINDUSTRYRELATEDINDICATORSANDDATA,USESTHESYSTEMCLUSTERINGMETHOD,EVERYINDEXLAYERADOPTSTHEPRINCIPALCOMPONENTANALYSISWERESELECTEDWITHTHEGREATESTIMPACTTOTHEWHOLECATE

5、GORYREFERSTOTHEEVALUATIONRESULTSAVOIDTHEREPEATEDFORINDEXOFINFORMATIONBETWEENTHEINFLUENCEOFTHEEVALUATIONRESULTS,WHILERETAININGMOSTAFFECTEDBYTHERESULTOFTHEEVALUATIONINDICATORSWITHINEACHCATEGORYTHELASTBUILDEVALUATIONINDEXSYSTEMOFGREENINDUSTRYTHISGREENINDUSTRYTOACHIEVECOMPREHENSIVEEVALUATIONTOESTABLISHA

6、SETOFSCIENTIFICANDREASONABLEEVALUATIONINDEXSYSTEMABOUTTHEDEVELOPMENTOFGREENECONOMYANDGREENINDUSTRYISAGLOBALHOTTOPICINTHERESEARCHANDATTENTIONINOURCOUNTRY,THEORETICALRESEARCHANDPRACTICEOFGREENINDUSTRYINVESTMENTGUIDE,INCLUDINGTHEORETICALRESEARCHISSTILLINTHESTUDYONLYMACROPERSPECTIVEGREENINVESTMENT,INSTE

7、ADOFSTANDINGINTHEMESOANDMICROCOMBINEDCLOSELYWITHTHEPERSPECTIVEOFGREENINDUSTRYINVESTMENTINVESTMENTINGREENINDUSTRIES,ONTHEOTHERHAND,THEPRACTICEISSTILLINTHEMASTERYOFASINGLEINDUSTRY,NOSCALEANDACHIEVETHEECONOMIESOFSCALEFORMATIONOFINDUSTRIALCLUSTERSTHEREFORE,ISESSENTIALTOTHEEVALUATIONOFGREENINDUSTRYSOTOES

8、TABLISHASETOFEVALUATIONINDEXSYSTEMOFGREENINDUSTRYISOFGREATSIGNIFICANCEKEYWORDSINDICATORSEVALUATIONSYSTEMPRINCIPALCOMPONENTANALYSISCLUSTERINGANALYSISLOADFACTORIII目录第1章绪论111绿色产业的简述1111课题背景1112研究的目的与意义112研究的历史和现状2121绿色产业国内外研究的现状和不足2122主成分评价指标体系的发展现状313论文的主要内容5第2章聚类分析821系统聚类分析8211系统聚类法的基本步骤8212系统聚类方法822

9、明氏距离法9第3章主成分分析理论1131主成分分析方法简介11311主成分分析的基本思想11312主成分分析的计算原理1132主成分分析的数学模型1433主成分分析方法的推导15331主成分分析推导过程15332主成分的主要性质1834本文的计算步骤19第4章实际问题分析2241数据来源与指标选择2242指标的标准化2443分层聚类2744利用主成分分析对指标数据进行分析31IV45对指标进行评价建立指标体系3646预期与展望41结论42致谢43参考文献44VDIRECTORYCHAPTER1INTRODUCTION111ABRIEFDESCRIPTIONOFTHEGREENINDUSTRY1

10、111BACKGROUNDTOPICS2112PURPOSEANDSIGNIFICANCEOFTHESTUDY112STUDYTHEHISTORYANDCURRENTSITUATION2121GREENINDUSTRYDOMESTICANDFOREIGNRESEARCHTHEINSUFFICIENCY2122PRINCIPALCOMPONENTEVALUATIONINDEXSYSTEMOFTHEDEVELOPMENT313THEMAINCONTENTOFTHEPAPER5CHAPTER2CLUSTERING821CLUSTERANALYSIS8211THEBASICSTEPSOFSYSTEMC

11、LUSTERINGMETHOD8212CLUSTERANALYSIS9CHAPTER3THEORYOFPRINCIPALCOMPONENTANALYSIS1131PRINCIPALCOMPONENTANALYSISMETHOD11311THEBASICIDEAOFPRINCIPALCOMPONENTANALYSIS11312PCACALCULATIONPRINCIPLES1132PRINCIPALCOMPONENTANALYSISOFTHEMATHEMATICALMODEL1433DERIVATIONOFTHEMAINCOMPONENTANALYSIS15331DERIVATIONOFPRIN

12、CIPALCOMPONENTANALYSIS15332PCACALCULATIONSTEPS1834THEMAINPROPERTIESOFTHEPRINCIPALCOMPONENT19CHAPTER4ANALYZESTHEPRACTICALPROBLEMS2241DATASOURCESANDSELECTIONOFINDICATORS2242STANDARDIZEDINDICATORS2443HIERARCHICALCLUSTERING2744PRINCIPALCOMPONENTANALYSISTOANALYZEDATAONINDICATORS3145EXPECTATIONSANDPROSPEC

13、TS36VI46EVALUATIONOFINDICATORSTOESTABLISHINDICATORS41CONCLUSIONS42ACKNOWLEDGEMENTS43REFERENCEDOCUMENTATION441第1章绪论11绿色产业的简述111课题背景从1992年联合国环境与发展大会以来,将环境问题与发展问题结合起来,将“可持续发展”作为人类生存和发展的新模式,很快取得全人类的共识,成为人类对于未来发展道路的正确选择。与此同时,一个形象的表征“绿色”,像大潮一样在全世界席卷而来。以发展“绿色产业”为主题的活动如火如荼地展开,特别是以绿色投资、绿色设计、绿色管理、绿色包装、绿色营销、绿色

14、消费等为代表的绿色产业逐渐发展起来21。在我国,绿色产业评价指标体系的理论研究和实践刚刚起步,其中理论研究成果还处于研究宏观视角的绿色投资上,没有涉及到站在中观角度且与微观主体分不开的绿色产业投资另一方面,对绿色产业投资的实践还处于对单一产业的把握,没有形成产业群规模和实现规模经济效应,这就使得绿色产业评价指标体系理论的研究有其理论和现实意义,所以本文将此问题做为选题。112研究的目的与意义绿色产业的定义目前有狭义及广义之分。狭义的绿色产业是指能够直接且主要依靠环境保护中获利的产业。如节能、环保装备等产业。广义的绿色产业是指包括狭义的绿色产业在内的,对环境友好的所有产业的统称。它是指应用绿色环

15、境处理技术,能产出绿色的产品与服务,保护及改善生态资源,能降低环境污染程度,有利于人类社会经济可持续发展的产业。包括第一产业中的农、林、牧、渔等产业,第二产业中采用低碳、节能技术达到低能源消耗、低污染的部分,整个第三产业等产业。本文初筛指标都是反映广义的绿色产业内涵2223。绿色产业是一种融合了人类的现代文明,以高新技术为支撑,使人与自然和谐相处,能够可持续发展的经济,是市场化和生态化有机结合的经济,也是一种充分体现自然资源价值和生态价值的产业。它是一种经济再生产和自然再生产有机结合2的良性发展模式,是人类社会可持续发展的必然产物。绿色是地球上生命的最终源泉,是大自然的本色,把它运用于经济领域

16、,象征着人与自然和谐统一,生态与经济协调发展。所谓产业结构的绿化,是指在社会生产与再生产过程中投入资源能量少,各种资源利用率高,产出的产品或服务多,废物最少,甚至无污染,使产业经济的发展建立在生态环境良性循环的基础上。因此,产业结构绿化是组织生态化的生产物质生产过程或服务过程,使整个社会生产技术过程和经营管理过程生态化,即社会生产、分配、流通、消费、在生产各环节生态化过程,这是21世纪产业经济发展和产业结构演变的总趋势,是历史趋势,也是现实追求目标212223。对某一地区的绿色产业评价问题是一个新兴的话题,国家工业发展状况如何及怎样发展,如何实现地区经济健康高速的发展,都离不开对当地绿色产业指

17、标的评价。在绿色产业的综合评价中,绿色产业各项指标评价是比较典型的多指标综合评价,需要建立一个科学合理的指标评价体系,为综合评价提供理论和现实基础。因此,建立科学合理的绿色产业指标评价体系对于地区经济可持续发展有很大的现实意义。12研究的历史和现状基于主成分分析的综合评价以主成分分析为理论基础,以评价体系建立为主线,着眼于作出合理的指标评价体系。以下从绿色产业和指标评价体系两个方面来讨论基于主成分分析的绿色产业评价指标体系的历史和现状21。121绿色产业国内外研究的现状和不足2005年4月,田江海在吹响绿色产业的号角一文中提出了绿色产业发展的方向和重点,指出绿色产品、绿色企业、绿色产业、绿色城

18、市、绿色技术是绿色产业的五大重点领域,并指出衡量绿色产业的尺度不仅仅是经济效益,还有衡量社会效益特别是生态效率。2005年4月,吾鸣在期待更多绿色产业一文中指出绿色产业是解决我国高消耗、高污染、高排放三高问题、缓解我国部分行业和地区盲目投资、低水平扩张而导致的环境不断恶化、滥占耕地、煤电油运供应紧张等问题的有效途径。32005年8月黄海峰、孙涛、姚望在建立绿色产业体系,推进循环经济发展一文中阐述了绿色产业在我国的发展现状及存在的问题,并指出建立绿色产业体系的几个重要方面1发展循环经济2加强绿色产业的法规条例建设3推进绿色产业市场化进度4完善企业、政府、公众的监管机制5加大环保教育培训力度。20

19、05年12月,马秀岩、孟耀在中国发展绿色产业的思路和对策一文中提出了中国发展绿色产业的方向和中国发展绿色产业的制度建设和政策。文中从节约利用资源和环境保护及污染治理两个方面阐述了绿色产业发展的方向从正式制度和非正式制度两个角度阐述了发展绿色产业必须建立完善的制度,并要对绿色产业实施财政、金融政策支持,引导绿色消费,制定并落实促进绿色产业发展的法律法规。2006年1月,赵明在国外社会责任性投资的现状分析及借鉴价值一文中,从SRI认知度、人才培养、评价标准制定、社会保险金运用方案改革四个角度,指出我国发展绿色产业的可能性。2007年5月,孟耀在基于资源环境保护的绿色投资及其发展思路一文中从环境资源

20、保护的角度提出了发展绿色产业的必要性,并指出了要发展绿色产业应采取的措施。以上理论研究虽有一定的理论价值,它为绿色产业理论的进一步完善做了有力的铺垫,但是对绿色产业而言,研究仍处于宏观概念的探讨状态,大部分研究还停留在倡导和建议的角度,没有深入到理论本身研究框架的设定,也没有提出发展绿色产业的具体实施措施,更不用说将绿色产业上升到产业化的高度进行研究,并在此基础上构建绿色产业的评价指标体系,对绿色产业进行测评,为绿色产业的发展指明方向,因而说我国对绿色产业的研究还处于起步状态2324。122主成分评价指标体系的发展现状目前已有的关于评价指标体系理论问题的研究基本上侧重在指标优化、指标权重的确立

21、等方面,归纳起来大致有以下几个方面基于系统科学应用与研究的深入,为建立评价指标体系提供基础理论。建立评价指标体系的常规方法是根据研究问题的实质,自行设计一套评价指标体系,再由专家进行综合判断。在评价指标体系建立研究的早期,研究人员往往片面地追求评价指标体系的全面性,企图使评价指标体系包含所有的因素,结果造成指标过多,指标相互间出现重叠,不但引起专家判断上的错觉和混乱,而且导致指标的权重减小,使指标结果失真。随着系统科学应用与研究的不断深入,人们逐渐把系统科学4的理论与方法引入到建立评价指标体系的过程中,通过系统分析研究问题的实质,找出了最能反映研究对象本质属性的指标,从而减少了指标的总量,分离

22、了指标的重叠源,尽量消除了指标间的相关性,为权重的真实性提供了保障图,并从系统工程角度,提出了评价指标体系构建的原则。因此,系统科学从理论上为建立评价指标体系提供了基础。基于评价指标体系量化的差异性,合理地确定、分配指标权重是指标量化的关键,也是建立评价指标体系的难点。在大部份文献中,解决这个问题都是用各种方法计算出指标的权重,这些方法多种多样,基本上可以归结为两大类主观赋权法和客观赋权法。主观赋权法有专家咨询法、专家排序法、层次分析法AHP、秩和比法RSR、相关系数法等客观赋权方法包括主成分分析、因子分析、嫡值法等。这些方法通常都是基于数理统计、模糊数学、灰色系统理论、运筹学、系统工程、经济

23、学等建立模型,均有其优缺点。因为对于多指标系统,由于决策者对不同的指标有不同的偏好,导致每个指标对于研究对象的相对重要性程度一般是不相同的,从而得到不同的研究结果,而主观赋权法和客观赋权法都不能很好地处理决策者的这种偏好。近年来,不少研究人员又提出组合权重法,即用各种方法把主、客观权重结合起来,得到指标的最终权重。总之,指标权重量化方法的研究已经趋于多元化,并逐渐向更科学、更公正、更合理的权重量化方式发展。基于指标数量的不可控性,筛选与优化研究日益明显。邱东将指标体系的选取方法分为“定量与定性两大类”,并提出了定性选取指标的五条基本原则目的性、全面性、可行性、稳定性与评价方法的协调性。对于定量

24、选取指标,在理论界也有一些研究成果,如王硕平提出用数学方法选择社会经济指标张尧庭提出用逐步判别分析、系统聚类与动态聚类、极小广义方差法、主成分分析法、极大不相关法等数理统计方法选取评价指标,并对这些方法的特点进行了分析。邱东提到了用“条件广义方差极小原则”来选择指标体系,还提出一种根据指标相关性选择“典型指标”的方法,并详细分析了用主成分分析法进行指标筛选与排序中存在的问题。何湘落提出了根据“三力”建标法和利用评价值离差最大的指标体系就是最优指标体系的思想,建立了最优指标体系及相应的最优评价模型。王庆石探讨了应用负相关系数、多元回归法、逐步回归法、主成分分析法、因子分析法实现统计指标间信息重登

25、的消减方法。王铮提出了采用综合回归法又称综合趋优法建立指标体系的方法,并详细讨论了这一方法的三个基本部分初始指标的建立、指标集的过滤、指标集的净化,这个过程虽然是针对教育评估问题给出的,但却是比较完整的定性与量相结合的指标体系构造过程。5目前人们对建立评价指标体系的认识有了一定的深度,已经形成一些较为成熟的方法和理论,并在各种领域得到了广泛应用。但是我们应该清楚的看到建立评价指标是一项复杂的系统工程,涉及学科范围广泛,因此还需要进一步深入研究和探讨的问题,例如虽然己有许多学者关于指标的筛选进行了一定的研究,但在评价指标体系的系统性、完整性、有效性、科学性方面研究不够深入,对于评价指标体系的数量

26、与结构的研究还处在初级阶段,大多数学者的思路在具体操作上还有待于进一步研究。随着数学、管理科学逐渐发展和成熟,特别是数学方法在管理科学中的广泛应用,以及二者的有效结合研究,使建立起一套更合理更科学、可靠的评价指标体系,减少建立评价指标体系的主观因素,使建立的指标更加客观化,更能反映问题的本质,己经成为我们有待进一步深入研究的问题。13论文的主要内容本文利用多元统计分析中的主成份分析法和分层聚类法,对数据进行处理。对同一子类各元素关于上一层次中某一准则的重要性进行两两比较,并进行排序。最后,得到各方案对于总目标的总排序。依照各指标对于绿色产业的影响程度建立了综合评价指标体系4。1指标的海选思路4

27、1准则层的设置通过对绿色产业的相关数据分析将绿色产业分为绿色生产,绿色消费,绿色环境三个方面。2指标的选取根据大连市年检公报上的相关数据结合其他绿色产业相关数据得出汇总数据。2基于主成分的绿色产业评价指标的可观测性原则根据可观测性原则初步筛选指标。删除海选指标中数据无法获得的评价指标,使初步筛选后的指标满足可观测性,能够实际应用。3指标客观数据的相关一主成分分析筛选思路1通过相关性分析删除同一准则层内相关系数大的指标,避免了指标的信息重复。2通过主成分分析删除了因子负载小的指标,保证了筛选出的指标对评价结果有显著影响。4指标筛选前的数据标准化1正向指标的标准化6正向指标指数值越大表明人的全面发

28、展状况越好的指标设IJX为第J个评价对象第I个指标标准化后的值IJV为第J个评价对象第I个指标的值M为被评价的对象数根据正向指标的标准化公式,IJX为111MAXMAXMINIJIJIMIJIJIJIMIMVVXVV112负向指标的标准化负向指标指数值越小表明人的全面发展状况越好的指标。根据负向指标的标准化公式,IJX为111MAXMAXMINIJIJIMIJIJIJIMIMVVXVV12式11中各个符号的含义与式12相同。5指标筛选的相关性分析1相关性分析的思路通过计算两个评价指标之间的相关系数,删除相关系数较大的评价指标,消除评价指标所反映的信息重复对评价结果的影响,简化指标体系。相关性分

29、析筛选指标的好处是剔除信息重复的指标。2相关性分析的具体步骤计算各个评价指标之间的相关系数设IJR为第I个指标和第J个指标的相关系数,KJZ为第K个评价对象第I个指标的值,IZ为第I个指标的平均值。根据相关系数计算公式,则IJR为1221NKIIKJJKIJNKIIKJJKZZZZRZZZZ137规定一个极限值M0M1,如果|IJRM,则可以删除两者中的一个指标如果|IJRM,则保留两个评价指标。通过相关性分析删除同一准则层内相关系数大的指标,保证了筛选出的指标蕴含信息不重复。6筛选指标的主成分分析,选出每个分类内对整个指标体系影响最大、最具解释性的指标。构建科学合理的绿色产业综合评价指标体系

30、。8第2章聚类分析聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。聚类分析内容非常丰富,按照分类对象的不同可分为样品分类(Q型聚类分析)和指标或变量分类(R型聚类分析);按照分类方法可分为系统聚类法和快速聚类法。本文主要用到的是系统聚类法13。21系统聚类分析系统聚类分析HIERACHICALCLUSTERANALYSIS在聚类分析中应用最为广泛。凡是具有数值特征的变量和样品都可以通过选择不同的距离和系统聚类方法而获得满意的数值分类效果。系统聚类法就是把个体逐个地合并成一些子集,直至整个总体都在一个集合之内为止14。先将N个样品各自

31、看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。系统聚类法直观易懂15。211系统聚类法的基本步骤第一,计算N个样品两两间的距离,记作D。第二,构造N个类,每个类只包含一个样品。第三,合并距离最近的两类为一新类。第四,计算新类与各当前类的距离。第五,重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。第六,画聚类谱系图。第七,确定类的个数和类15。IJDIJD9212系统聚类方法主要的系统聚类方法有最短距离法,最长距离法,中

32、间距离法,重心法,组间联结法,离差平方和法(WARD法)。上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。本文采用组间联结法。组间联结法类与类之间的平方距离为样品对之间平方距离的平均值,即当某类KG与LG合并成一个新类MG,计算MG与任一类JG的距离222LJMLKJMKMJDNNDNND21其中KN和LN分别为类KG和LG的样品个数。22明氏距离法如果把N个样品(X中的N个行)看成P维空间中N个点,则两个样品间相似程度可用P维空间中两点的距离来度量。令IJD表示样品IX与J的距离。明氏(MINKOWSKI)距离QPAQJAIAIJXXQD1122当Q1时,PAJAIAIJX

33、XD11即绝对距离当Q2时,21122PAJAIAIJXXD即欧氏距离当Q时,JAIAPAIJXXD1MAX即切比雪夫距离10当各变量的测量值相差悬殊时,要用明氏距离并不合理,常需要先对数据标准化,然后用标准化后的数据计算距离【16】。明氏距离特别是其中的欧氏距离是人们较为熟悉的也是使用最多的距离。但明氏距离存在不足之处,主要表面在两个方面第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性,欧氏距离也不例外。除此之外,从统计的角度上看,使用欧氏距离要求一个向量的N个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,这时使用欧氏距离才合适,效果也

34、较好,否则就有可能不能如实反映情况,甚至导致错误结论。因此一个合理的做法,就是对坐标加权,这就产生了“统计距离”。比如设,21PXXXP,,21PYYYQ,且Q的坐标是固定的,点P的坐标相互独立地变化。用S11,S12,SPP表示P个变量PXXX,21的N次观测的样本方差,则可以义P到Q的统计距离为PPPPSYXSYXSYXQPD22222211211,23所加的权是PPPSKSKSK1,1,1222111,即用样本方差除相应坐标。当取021PYYY时,就是点P到原点O的距离。若PPSSS2211时,就是欧氏距离【17】。11第3章主成分分析理论31主成分分析方法简介主成分分析也称主分量分析,

35、旨在利用降维的思想,把多指标转化为少数几个综合指标。主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的P个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。311主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都

36、在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题目的理想工具7。312主成分分析的计算原理通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下1计算相关系数矩阵通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第I个样品与第J个样品之间的相关系数定义为19121111221IJPAPA

37、JJAIIAPAJJAIIAIJRXXXXXXXXR31其中PAJAJPAIAIXPXXPX1111实际上,IJR就是两个向量IIXX与JJXX的夹角余弦,其中,IIIXXX,JJJXXX。若将原始数据标准化,则0JIXX,这时IJIJRCOS【10】。NNNNNNIJRRRRRRRRRRR21222211121132在公式(32)中,IJR(I,J1,2,P为原来变量IX与JX的相关系数,其计算公式为NKNKJKJIKINKJKJIKIIJXXXXXXXXR1122133因为R是实对称矩阵(即RIJRJI,所以只需计算其上三角元素或下三角元素即可。2计算特征值与特征向量13首先解特征方程IR

38、0求出特征值I(I1,2,P,并使其按大小顺序排列,即12,P0;然后分别求出对应于特征值I的特征向量EI(I1,2,P。3计算主成分贡献率及累计贡献率PKKMKKPKKIIPIRZ111,2,1/累计贡献率贡献率主成分。一般取累计贡献率达85的特征值M,21,所对应的第一,第二,第M(MP个主成分。4计算主成分载荷,2,1,PKIEXZPKIKIK34由此可以进一步计算主成分得分ZNMNNMMZZZMMMMZZZZZZ212222111211351432主成分分析的数学模型设有M个样品,观测样品的N项指标(变量)NXX,1,从而有原始数据矩阵NMNMMNNXXXXXXXXXXXXX,2121

39、222211121136其中NIXXXMIII,1X21I37由上部分的数据矩阵X的N个列向量(即N个指标向量)NXX,1构成线性的组合(即称为综合的指标的向量)为NNNNNNNNNNXAXAXAFXAXAXAFXAXAXAF2211222211221221111138简写成PIXAXAXAFNNIIII,1221139(注意IX是N维向量,所以IF也是N维向量。)上述的线性方程组的要求PIAAAANIIII,112232221310且系数IJA有下列原则决定15(1)IF与,PJIJIFJ不相关;(2)1F是PXX,1的一切线性组合(系数满足上述的线性的方程组)中方差最大的,2F是与1F不相

40、关的PXX,1一切线性组合中方差最大的1F,PF是与121,PFFF都不相关的PXX,1的一切线性组合中方差最大的8。33主成分分析方法的推导331主成分分析推导过程定理31若A是NN阶实对称阵,则一定可以找到正交阵U使100NUAU,其中P,1是A的特征根9。定理32若上述矩阵A的矩阵的特征根所对应的相应的单位特征向量为NUU,1令NNNNNNNUUUUUUUUUUUU2122221112111,311则实对称A属于不同的特征根所对应的不同的特征向量一定是正交的特征向量即IUUUUUUJI0。312设XAXAXAXAFPP221131316其中PAAAA,21,PXXXX,21,求在线性方程

41、组中的主成分向量就是找到X的线性函数XA使相对应特征根的方差尽最大可能最大即使AAAEXXEXXEAXAEXAXAEXAEXAVAR314能够达到最大值的情况,且1AA设协方差的特征根为021N,相对应的单位的特征向量NUUU,21。令NNNNNNNNNUUUUUUUUUUUU2122221112111,315由上面的线性代数的定理可得出IUUUU,且NIIIINUUUU12100316因此2111INIINIIIIIINIIUAUAUAAUUAAA317所以1111211AAAUUAUAUAUAAANII17而且当1UA时有1211111111111UUUUUUUUUUUUIINIINIII

42、I因此1UA使AAXAVAR能够是最大值,且1111UUXUVAR318同理IIXUVAR而且JIUUUUUUUUUUXUXUCOVJNIJNIJIJI,0,11319上述的证明推导过程说明NXXX,21的主成分用数值表示就是以矩阵的特征向量作为系数的相对应线性的组合,它们彼此互不相关,其方差为的相对应的特征根4。由于的特征根021N,所以有021NVARFVARFVARF。在实际问题处理时,一般不会选取N个主成分,而是根据方差累计的贡献率的大小关系选取前K个5。定义31将第一个主成分的方差贡献率为NII11/,由于11FVAR,所以NII11/NIIIFVARFVAR1。因此第一个主成分的方

43、差贡献率就是第一个主成分方差与全18部方差NII1的比例。第一个主成分的方差数值越大,表示第一个主成分综合NXX,1信息的能力越强10。最前面两个的主成分的累计的方差贡献率定义是为PII121/,前K个主成分的方差累计贡献率的定义是为NIIKII11/。若前K个的主成分的累计方差贡献率能够达到85,表明选取前K个主成分基本能够包含所有全部的需检测的所有指标所代表的信息,这种方法的处理既能够减少指标变量的数据个数又便于对实际问题的研究和分析10。332主成分的主要性质性质31F的协差阵为对角阵。证明记NNIJ,NIUU显然UUFVAR性质32NIINIIJ11证明UUTRTRNIIJ1TRUUT

44、RNII119性质33PKIUXFIIKKIIK,1,证明因为IIIKKXVARFVAR,XEXUCOVXFCOVIKIK,KIKIIKUEUEEXDUKIKKKIUUE其中0,0,1,0,0IE为单位向量第I个分量为1,其余都为0【11】。所以IIKKIIKIKIKUVARXVARFXFCOVXF,32034本文的计算步骤有M个指标,每个指标观测N个数值,将原始数据写成矩阵MNMMNNXXXXXXXXXX2122221112113211确定分析变量,收集数据。2将原始数据标准化。(1)正向指标的标准化正向指标是对绿色产业有益的指标,正向指标数据越大说明产业的可持续发展性越好。正向指标标准化公

45、式为20IJIJIJVXVVVMIMIMIIJIJMINMAXMIN111322(2)负向指标的标准化负向指标与正向指标相反,负向指标越小表明产业的可持续发展性越好。负向指标标准化公式为IJIJVIJXVVVMIMIIJMIIJMINMAXMAX111323数据标准化在EXCEL中进行,进行数据的标准化处理是为了克服各种指标之间量纲不同的影响,使计算更加准确。3对标准化后数据进行分类,采用组间联结,距离选明氏距离法。4由标准化后的数据求协方差阵,即原始数据的相关矩阵。为了书写方便,不妨设上述矩阵已标准化了。建立变量的相关系数矩阵NNIJRR324不妨设XXR5求R向量的特征根021P相应的单位

46、特征向量NNNNNNNAAAAAAAAAAAA21222122121111,3256主成分的方差贡献率与累计贡献率方差的计算121第I个主成分方差贡献率NKKI1212累计的方差的贡献率NINKKIKK,2,1117确定需要保留的主成分的个数K,一般的会选用的方法如下选取累计的方差的贡献率达到85以上的前K个主成分。8计算出第I个指标对评价结果的影响程度FIJ1,MAX|IJIJKFA326其中,J为第J个主成分的方差贡献率,IJA为第J个主成分和第I个指标的负载系数。IF表示第I个指标对评价结果的影响程度,IF数值越大表示该指标对于评价结果的影响程度越大。分别选出上文系统聚类结果中每一个分层中FI中最大的指标作为整个分层的代表,该指标对于整个分层的指标具有代表性,对整个指标层的评价结果的影响程度最大。9构建绿色产业综合评价指标体系10结论解释以及对问题的合理推断。22第4章实际问题分析41数据来源与指标选择自1992年联合国环境与发展大会以来,环境与发展问题被结合起来,可持续发展作为人类生存和发展新模式,很快取得全人类的共识,并成为人类对于未来发展道路的明确选择。与此同时,一个形象的表征“绿色”,像大潮一样在全世界席卷而来。以发展“

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。