1、因子分析复习题1. 试述因子分析与主成分分析的联系与区别。区别主成分分析:以原变量的线性组合将原变量组合成少数几个主成分。因子分析:将原变量分解成几个公因子的线性组合,从而更好地理解原变量的内在关系。两者的分析重点不一致C=AX主成分为原始变量线性组合,重点在综合原始变量信息。X=LF+e原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变量的不可观测的潜在因素。联系主成分分析:数据降维(多项变少项)因子分析是通过主成分推导而来。两者的分析重点不一致C=AX主成分为原始变量线性组合,重点在综合原始变量信息。X=LF+e原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变量的不可
2、观测的潜在因素。2. 因子分析主要可应用于哪些方面?因子分析:将原变量分解成几个公因子的线性组合,从而更好地理解原变量的内在关系。用途:心理学、社会学和经济学。作用:分类、从显在变量里探索不可直接观察的公共因子3. 简述因子模型 中载荷矩阵 的统计意义。XLFeL4. 在进行因子分析时,为什么要进行因子旋转?正交旋转(最大方差因子旋转)的基本思路是什么?因子旋转 使得每一个变量在某一个因子上负荷尽量大而在其他因子上负荷尽量小varimax! 所有因子保持不相关互相垂直 旋转后共性方差不变5. 设某客观现象可用 X=( )来描述, 在因子分析1,2,3时,从约相关阵出发计算出特征值为 1=1.7
3、54, 2=1, 3=0.255.由于 ,所以找前两个特征值所对应的( 1+2) /(1+2+3)85%公共因子即可, 又知 对应的正则化特征向量分别为1, 2(0.707,-0.316,0.632)及(0,0.899,0.4470) ,要求:(1)计算因子载荷矩阵 A,并建立因子模型。(2)计算共同度 。2( =1, 2, 3)(3)计算第一公因子对 X 的“贡献” 。6.评价我国 35 个中心城市的综合发展水平,选取反映城市综合发展水平的 12 个指标如下:非农业人口数(万人) 、工业总产值(万元) 、货运总量(万吨) 、批发零售住宿餐饮业从业人数(万人) 、地方政府预算内收入(万元) 、
4、城乡居民年底储蓄余额(万元) 、在岗职工人数(万人) 、在岗职工工资总额(万元) 、人均居住面积(平方米) 、每万人拥有公共汽车数(辆) 、人均拥有铺装道路面积(平方米) 、人均公共绿地面积(平方米) 。下面基于相关矩阵对所得数据进行因子分析,结果如下。表 1 Descriptive StatisticsMeanStd. Deviation非农业人口数(万人) 308.3489 219.83902工业总产值(万元)16696857.142919893326.55344货运总量(万吨)14748.768012724.72601批发零售住宿餐饮业从业人数(万人)11.7157 21.31643地方
5、政府预算内收入(万元) 1217117.2 1739133.06857 001城乡居民年底储蓄余额(万元)12872780.400014217851.30101在岗职工人数(万人) 100.1537 80.80586在岗职工工资总额(万元)1872194.11432146354.32611人均居住面积(平方米) 17.0857 1.91544每万人拥有公共汽车数(辆)13.3926 18.09189人均拥有铺装道路面积(平方米)9.1134 7.20129人均公共绿地面积(平方米)37.7783 42.98659表2 KMO and Bartletts TestKaiser-Meyer-Olk
6、in Measure of Sampling Adequacy.723Bartletts Test of Approx. Chi- 678.7Square 96df 66SphericitySig. .000表 3 Rotated Component MatrixComponent1 2 3非农业人口数(万人).929-.183.039工业总产值(万元).806.309.344货运总量(万吨).870-.147.253批发零售住宿餐饮业从业人数(万人).791.091-.437地方政府预算内收入(万元) .93 .19 .154 4 5城乡居民年底储蓄余额(万元).970.174-.053在岗
7、职工人数(万人).947.030-.191在岗职工工资总额(万元).952.199-.155人均居住面积(平方米).010.205.840每万人拥有公共汽车数(辆) .034.914.175人均拥有铺装道路面积(平方米).068.921.259人均公共绿地面积(平方米) .092.809-.106求:1、 写出正交因子模型;2、根据上述运算结果,试填写下表(3 分)3、解释共同度及累积贡献率的含义,并计算前三个公因子的累积贡献率;4、请说明表 2 的作用,并对结果做出评价;5、请解释三个旋转公因子的含义。判别分析1、 试述判别分析的实质。判别分析是用于判别样品所属类型的一种统计分析方法, 是在
8、已知历史上的某些方法已把研究对象分成若干类的情况下,根据判别函数对未知所属类别的事物进行分类的一种分析方法。2、 简述贝叶斯判别法的基本思想和方法。基本思想(错分率*损失)假定:g 个总体服从多元正态分布。错分概率:j 类个体被分到 i 类记为 P(i,j),损失:错分造成的损失 C(ij)。方法:(g 个类别,p 个指标)Bayes 判别准则:平均而言,总的错分损失最小。3、 简述费希尔判别法的基本思想和方法。基本思想:(使组间方差比组内方差最大化)即重叠部分最小方法:两类组间判别:多类组间判别找一个方向(变量的线性组合) ,使得多组个体在此方向上投影之间的重叠部分尽可能少。变量数目 g 个
9、,可以有 g-1 个判别函数阈值:根据专业知识确定与两组判别相比,多组之间的判别常常效率不高。4、 试析贝叶斯判别法和费希尔判别法的异同。Fisher 判别的分数是尽可能拉开各组个体间的相对距离,贝叶斯判别是比较属于各类的概率,按照最大的概率来做判断。对于两类间判别,费雪判别和贝叶斯判别是等价的,两个贝叶斯分类函数之差与得费雪判别函数相当。5、 收集了 22 例某病患者的三个指标(X1,X2,X3)的资料列于下表,其中前期患者(A)类 12 例,晚期患者(B)类 10 例。试作判别分析。(1) 计算变量的类均数及类间均值差 Dj,计算结果列于表 2。表 2 变量的均数及类间均值差(2) 计算合并协方差矩阵:类 别 例 数 1X 2 3X A 12 3 4 1 B 10 4 5 1 类 间 均 值 差 jD 7 9 2