1、 河南科技学院 2014 届 本科毕业论文 论文题目: 我国各地科技发展水平及其影响因素分析 学生姓名: 所在院系: 数 学 科 学 学 院 所学专业: 数学与应用数学(统计 方向) 导师姓名: 完成时间: 2014 年 5 月 - 1 - 我国各地科技发展水平及其影响因素分析 摘要: 在知识经济时代,科技已成为一个国家和地区综合竞争力的决定因素。为分析 2012 年我国各地区科技发展的水平, 首先,我们选取了我国 31 个省、市、自治区科技发展水平及其相关因素的 8 项指标作为自变量数据,然后运用多元统计中的因子分析和聚类分析方法,利用降维的目的,在几乎不损失原始信息的情况下将指标简化为2
2、个主因子。 然后,对因子进行了正交旋转 ,我们可以得到能较好解释各地区科技发展状况的人力科研因子和经济收入因子两个主成分,并据此对各地区进行聚类分析,将 31 个省、市、自治区分为 4 大类,根据结果,简要地分析了各地区科技发展水平的现状及其原因。最后,结合本次研究给出了一些合理化建议及对策。 关键词: 科技发展水平;因子分析;聚类 分析 - 2 - Abstract In the era of knowledge economy, science and technology has become the determinant of the competitiveness of a cou
3、ntry and region. To analyze the development level of science and technology of all regions in 2012, we have selected the development level of science and technology, from 31 provinces, municipalities and autonomous regions in our country, and its relevant factors of 8 indicators as independent varia
4、ble data, then simplified the index into two main factors under circumstances of almost no loss of the original information with the use of multivariate statistical factor analysis, cluster analysis and the purpose of dimension reduction. By the means of orthogonal rotation to factors, we can get tw
5、o principal components ,human scientific factor and economic income factor, which can better explain regional science and technology development status. And on the basis of clustering analysis, 31 provinces, municipalities and autonomous regions can be divided into 4 types. According to the results,
6、we briefly analyze the present situation of regional development level of science and technology and its reasons. Finally, some reasonable suggestions and countermeasures are given accordingly. Key words: The development level of science and technology; Factor analysis; Cluster analysis - 3 - 目录 1、
7、研究意义 及选材 4 2、 理论基 础 5 2.1 因子分析的思想及作用 5 2.2 一般 因子分析模型 5 2.3 模型中有关参数的统计意义 6 2.4 计算初始载荷矩阵 6 2.5 方差最大正交旋转矩阵 7 2.6 因子得分 7 2.7 聚类分析的离差平方和( Ward)法 8 3、模型建立与数据处理 . 8 3.1 建立数据文件 9 3.2 因子分析 9 3.3 因子得分及排名 11 3.4 因子分析结果 12 3.5 聚类分析 13 3.6 聚类分析结果 13 4、对策 与 建议 14 4.1 科技与经济协调发展战略 14 4.2 政策建议 15 参 考文献 16 附表 17 - 4
8、- 1、 研究 意义 及选材 科学技术是第一生产力 ,是推动经济增长的引擎,同时经济发展又给科技进步以强有力的支撑。 但由于传统的人力资源布局造成的科技发展起点不同,加上地域 、资源、经济和政策等条件 因素 的差异,各个地区的科技发展水平高低不平。 因此,对各地区科技发展水平进行分类、比较和研究,总结出有助于 科技发展的优势和阻碍科技发展的劣势,有针对性地制定地区科技发展战略,对促进国民经济和科技经济 的协调发展有重要意义。 影响我国各地区科技发展的因素有很多 ,而如何定量化地分析和揭示影响各地区科技发展的主要因素及潜在的综合因素,是制定切实可行的缩小差距、促进地区科技和经济协调发展的对策的重
9、要基础之一。本文从我国 31 个省市自治区 的科技经济发展视角入手, 根据中国统计年鉴 ( 2013 版) 分别 选取 了 2012 年各地区科技经济发展的部分 统计指标数据如下: X1: 普通高等学校数(所) X2: 普通高校授予学位数(人) X3: 国内专利申请受理数(项) X4: 国内专利申请授权数(项) X5: 教育经费合计(万元) X6: 公共财政预算收入 (亿元) X7: 城镇居民平均全年家庭可支配收入(元 ) X8: 人均地区生产总值(元) ( 数据 详情见附表 ) - 5 - 2、 理论 基础 2.1 因子分析的 思想 及作用 因 子分析 的基本思想是根据相关性的大小把原始变量
10、分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量可以分解为 两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。这样 ,即可用个数较少的综合指标代替原来较多的指标,实现降维的目的。在对受多个具有一定相关关系的变量影响的一类样品进行研究时,采用因子分析可收到事半功倍 效 果 。 2.2 一般 因子分析模型 因子分析的目的是 在几乎不损失任何信息的前提下, 用较少的相互独立的因子变量来代替原来变量 , 可用以
11、下数学模型表示 : 1 11 1 12 2 1 12 21 1 22 2 2 21 1 2 2mmmmp p p pm m px a F a F a Fx a F a F a Fx a F a F a F ( 1) 其中 1x 、 2x 、 3x 、 px 为 p 个均值为零、标准差为 1 的标准化变量, 1F 、2F 、 3F 、 mF 为 m 个因子变量, mp 。模型的矩阵形式为 X AF ( 2) 其中 F 为因子变量或公共因子,可将它们理解为在高维空间中互相垂直的 m个坐标轴。 A 为因子载荷矩阵, 元素 ija 为因子载荷,是第 i 个原变量在第 j个公因子上的载荷。如果把变量 i
12、x 看成是 p 维因子空间中的一个向量,则 ija为 ix 在坐标轴 jF 的投影,相当于多元回归中的标准回归系数。 为特殊因子,表示原变量不能被所列公因子所解释的部分,相当于多元回归分析中的残差。 2.3 模型中有关参数的统计意义 - 6 - 上述模型中 12, , , mF F F 为公共因子,是 相互独立 且 不可测量的理论变量。 12, , , p 为特殊因子,是向量 x 的分量 12, , , Px x x 所特有的因子,各特殊因子之间以及特殊因子与各公共因子之间都是相互独立的。模型中载荷矩阵 A 中的元素 ija 为因子载荷,也是 ix 与 jF 的协方差,表示 ix 依赖 jF
13、的程度, ija 的绝对值越大 ( 1ija) ,说明 公共因子 jF 对于 ix 的载荷量就越大,为对因子分析结果进行专业解释,需用到两个统计量,即变量的共同度和公共因 子的方差贡献率。因子载荷矩阵 A 中第 i 行元素 平方和 2ih 称为变量 ix 的共同度,2ih 越大 表示 ix 对 公共因子 的依赖程度越大 ,反映所选公共因子对变量 ix 的解释能力 越强 。因子载荷矩阵 A 的第 j 列 )( mj ,2,1 各元素的平方和 2.jg称为公共因子 jF 对 x 的方差贡献,表示第 j 个公共因子 jF 对于 x 的所有分量 ix 所提供方差的总和。 2.jg 越大,公共因子 jF
14、 对 x 的贡献就越大, jF 就越重要。 如果 将因子载荷矩阵 A 的所有 2 ( 1, 2 , , )j jmg 都计算出来,并按其大小排序,就可以依次提炼出最有影响的公共因子 。 2.4 计算初始载荷矩阵 ( 1)首先由 指标间 的相关系数矩阵 ppijrR )( 出发 ; ( 2)利用主成分分析方法确定初始载荷矩阵。设相关系数矩阵 R 的特征值为12 0p ,相 对 应的单位化正交特征向量为 12, , , PU U U 。依 11/ 8 5 %pm iiii ( m ) = 确定所提取的公因子个数 m (有的则直接选取 1i 的因子) , 令, 1 , 2 , ,i i iU i m
15、 , 则有模型( 2)的估计 - 7 - X AF (3) 其中 ija 为 ix 在 jF 上的载荷。此时,初始载荷矩阵为1 1 2 2, mmA U U U ( )。 2.5 方差最大正交旋转矩阵 为更好地看出因子载荷矩阵中的各变量的系数与公因子之间的本质关系,以使各公因子的意义更加明确,需要实现各公共因子对原变量的载荷两极分化。通常的初始因子载荷矩阵不能满足这一要求,可以利用主成分方法得到 的 初始因子载荷矩阵,再通过一系列的旋转 变换 ,得到方差最大正交旋转矩阵。进而明确公因子 jF 与 12, , , px x x 中哪些关系更 密切,便于对公因子进 行合理的解释和命名 。记最终的
16、正交 旋转变换矩阵为 T ,则旋转后的载荷矩阵为ATA * , 旋转后的因子模型为 *X AF (4) 2.6 因子得分 因子模 型 X AF 建立以后, 可将 原研究 对象的 p 个 指标12, , pxxx简化成 m 个指标 12, , , ( )m mpF F F ,即将jF表示成12, pxxx的线性组合, 0 1 1 2 2 , 1 , 2 , ,j j j j jp pjmb b x b x b xF ( 5) 由于jF及 ix 已标准化,故 00 jb ,确定系数 jib 可利用多元 回归分析 的思想 给出 ,在 最小二乘 法的 意义下,可得到 F 的 估计 值 为 12( ,
17、, , ) Tm BXF F F F (6) 11 )( XRAXARB TT (7) - 8 - 其中 , ppijrR )( 为 X 的相关阵 , X 为 X 的标准化 , ()pmA ija 为X 与 F 的相关阵,即jiij x Fa r,当各个公因子正交时, TA 为旋转后的因子载荷 A 的转置。有了 F BX 后,由原始数据经 标准化代入 可 求出每一个样品的因子得分,即把 N 个观察点 TmxxxX ),( 21 经标准化成为 TmxxxX ),( 21 , ,代入 F BX 得到公共因子的估计得分 , 从而用少数公共因子去描述原变量的数据结构, 以达到简化数据分析的目的 。 2
18、.7 聚类分析 的 离差平方和( Ward)法 思想来源于方差分析,如果类 分得正确,同类样品的离差平方和应当较小,类与类之间的离差 平方和应当较大。 设将 n 个样品分成 k 类 , KGGG ,21 用 itx (p 维向量 )表示类 tG 中的第 i 个样品, tn 表示 tG 中的样品个数, tx 是类 tG 的重心,则在 tG 中样本离差平方和为 1( ) ( )tt it t it tin x x x xL (8) 整个类内平方和为 1 1 1( ) ( )tkk tit t it tt i tnL x x x x L (9) 当 k 固定时,选择使 L 达到极小的分类。即先将 n
19、 个样品各自成一类,然后每次缩小一类,离差平方和随之变大,选择使 s 增加最小的两类合并,直到所有样品归为一类 为止 。 若将某类pG和qG合并为 rG ,则类 kG 与新类 rG 的 距离 递推公式 为: 2 2 2 2( , ) ( , ) + ( , ) ( , )p k q k kw w w wr k r k r kk r k p k q p qn n n n nD D D Dn n n n n n (10) 3、 模型 建立与数据处理 (本文中 所有 的 统计计算均采用统计软件SPSS19.0 完成) - 9 - 3.1 建立数据文件 定义变量及变量名标签,录入数据。 为消除量纲 的
20、 影响, 首先 对数据进行标准化 处理 。 3.2 因子分析 表 1: 给出了 KMO 和 Bartlett 的检验 结果,其中 KMO 值越接近 1 表示越适合做因子分析,从该表可以得到 KMO 的值为 0.723,表示比较适合做因子分析。 Bartlett 球形度检验的原假设为:“相关系数矩阵为单位矩阵”, Sig 值为0.000 小于显著水平 0.05,因此拒绝原假设表示变量之间存在相关关系,即适合做因子 分析。 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。 .723 Bartlett 的球形度 检验 近似卡方 387.376 df 2
21、8 Sig. .000 表 1 表 2: 给出了每个变量共同度的结果。该表 右侧提取列数据, 表示每个变量可以被所有因子所能解释的方差,即 变量的共同度。从该表可以看 到, 主成 份 法中的 因子分析的变量共同度都非常高, 如 X5:教育经费合计(万元) 93.3% , X6:公共财政预算收入(亿元) 94.1%,只有 X3:国内专利申请受理数(项)80.3%和 X4:国内专利申请授权数(项) 80.0%两项指标较低 , 其余的都在 85%以上, 表面变量中的大部分信息均能被因子所提取, 损失的信息较少, 即 因子分析的结果是有效的。 表 2 表 3:给出了公 共 因子数与方差贡献率的结果。本
22、例中前两个公共 因子( 采用 系统默认 标准, 提取特征根大于 1 的因子 ) 的累积贡献 率 达到 88.065%,已能较好的解释原始变量的所有信息。因此提取前 2 个 公共 因子作为主因子。 公因子方差 初始 提取 普通高等学校数(所) 1.000 .876 普通高校授予学位数(人) 1.000 .889 国内专利申请受理数(项) 1.000 .803 国内专利申请授权数(项) 1.000 .800 教育经费合计(万元) 1.000 .933 公共财政预算收入 (亿元) 1.000 .941 城镇居民平均全年家庭可支配收入(元 ) 1.000 .918 人均地区生产总值(元) 1.000 .884 提取方法:主成份分析。
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。