1、1统计分析软件应用一、判断题1.spss可以读取excle格式的数据文件和文本文件。2.当我们新建一个spss数据文件时,首先应在数据编辑器窗口中的数据视图中输入个案,然后再在变量视图中定义变量。3.Spss允许同时创建或打开多个查看器窗口。4.Spss两配对样本T检验中,两配对样本数据存放在同一个变量列上。5.如果把“年龄”变量的缺失值指定为“99”,则如果某个被调查者的年龄回答为“300”,则就用99岁来代替。6.Spss两独立样本T检验中,两个样本的样本容量是必须相同的。7.如果一次随机抽样问卷调查共收回1000份问卷,两个同学建立spss数据文件各完成了500份问卷的录入工作,为便于对
2、这次抽样调查结果进行统计分析,首先应该将两个数据文件进行横向合并。8.Spss文件的变量名的首字符可以是汉字、字母和数字。9.当变量分布不对称时,偏度值小于0为负偏,密度函数曲线有一条长尾拖在右边。10.假设某数值变量服从正态分布,将其进行标准化处理后,如果某观测值标准化值小于-3,可认为是异常值。11.对于所选答案不需要排序的多项选择题可采用多选项分类法进行分解12.对多项选择题进行频数分析的spss操作步骤是:【分析】【描述统计】【频率】13方差分析中,控制变量应为分类型变量。14.pearson简单相关系数r 的绝对值接近0时,说明两变量没有相关关系。15.在一元线性回归分析中,对回归方
3、程的F检验和对回归系数的T检验的作用是相同的。二、案例分析题1.某工厂改进了技术,调查者随机抽取了 15名工人,调查他们在工艺改进前后生产100件产品的时间,数据如下表,试在5%显著性水平下,检验零件加工时间是否显著减少?改进前 改进后70 4876 5458 6063 6463 4856 5558 5460 4565 5165 4875 5666 4856 6459 5070 5464 53以下是用spss成对样本T检验的输出结果,请填写表中的空格,并根据输出结果回答零件加工时间是否显著减少。2程對差異數95% 差異數的信賴區間平均數標準偏差標準錯誤平均值 下限 上限 Tdf 显著性(双尾)
4、對組 1 改进前 - 改进后 10.733 9.573 2.472 5.432 16.035.0012.现有甲乙丙三个工厂分别生产某种电池,现在从每个厂家生产的电池中各抽取12个检验其寿命,在5%的显著性水平下,检验三个厂家的电池寿命是否具有显著差异。以下是spss方差分析的输出结果:變異數同質性測試电池寿命 Levene 統計資料 df1 df2 顯著性.390 2 33 .680變異數分析电池 寿命 平方和 df 平均值平方 F 顯著性群組之間 1007.056 2 .000在群組內 428.583 12.987總計 1435.639 35多重比較因變數: 电池 寿命 LSD 95% 信賴
5、區間(I) 企业 (J) 企业 平均差異 (I-J) 標準錯誤 顯著性 下限 上限2 10.917* 1.471 .000 7.92 13.9113 -.583 1.471 .694 -3.58 2.411 -10.917* 1.471 .000 -13.91 -7.9223 -11.500* 1.471 .000 -14.49 -8.511 .583 1.471 .694 -2.41 3.5832 11.500* 1.471 .000 8.51 14.49*. 平均值差異在 0.05 層級顯著。要求填写表中空格,并根据以上输出结果回答:(1) 三个厂家生产的电池寿命是否满足方差齐性的假设,为
6、什么?3(2) 三个厂家生产的电池使用寿命是否存在显著差异,为什么?(3) 对多重比较的结果进行分析说明。3、为了研究某健身器材三个品牌(A 、B、C)需求,商场对消费了该健身器材的顾客进行了随机抽样调查。调查结果的频数分析结果如下:表1 统计量购买品牌有效 338N缺失 0均值 2.2811方差 0.672偏度 -0.560偏度的标准误 0.133峰度 -1.287峰度的标准误 0.26525 2.000050 3.0000百分位数75 3.0000请根据频数分析结果回答:(1)该样本有无缺失值?(2)该样本的中位数为多少?(3) 该样本的分布形态如何?(分别描述分布的对称性、陡缓程度) 。
7、4、在进行某项调查时,有一栏人口统计学信息为“学历” ,其频数分析结果如下:表2 学历频率 百分比 有效百分比 累积百分比小学或以下 20 1.8 1.8 1.8中学或中专 723 65.1 65.1 66.9大专 230 20.7 20.7 87.6本科 118 10.6 10.6 98.2硕士或以上 20 1.8 1.8 100.0有效合计 1111 100.0 100.0请根据频数分析结果,绘制频数分析的条形图。5、现对每月信用卡消费(元)做描述分析,并通过标准化过程,寻找异常值。其中 Z 月信用卡消费为标准化的数据。表 3 月信用卡消费的描述分析月信用卡消费(元) Z 月信用卡消费66
8、61.7 -0.26141416762.4 0.202097752.6 -0.211354987.2 -0.338255849.2 -0.2986911923.4 -0.0199610.2 -0.566634246.8 -0.372228544.1 -0.1750389975.8 3.561655521.8 -0.313715741.9 -0.303615698.3 -0.305626841.7 -0.253154859.2 -0.34412根据描述分析结果回答:(1)请写出数据标准化的数字定义式:Z=(2)该样本中是否有异常值?哪个是异常值,为什么?【参考答案】(1)=蟽(2)有异常值,为
9、89975.8。因为如果标准化值的绝对值大于 3,根据统计学经典 3 准则,为异常值。蟽89975.8 的标准化值为 3.56165,大于 3,因此为异常值。6、为了研究某公司内 30 个员工的月基本工资,收集了 30 个员工的月基本工资数据,并进行了单样本 T检验。表 4 为单个样本统计量,表 5 为单个样本的检验。表4 单个样本统计量N 均值 标准差 均值的标准误月基本工资 30 6029.0000 1404.55257 256.43504表5 单个样本检验检验值 = 4500 差分的 95% 置信区间t df Sig.(双侧) 均值差值 下限 上限月基本工资 5.963 29 0.000
10、 1529.00000 1004.5314 2053.4686请根据单样本T检验的相关知识回答:(1)该检验中,原假设 是什么?0(2)该检验是拒绝原假设还是不拒绝原假设?为什么?(3)该公司内员工的月基本工资在 95%的置信区间内,分布在多少范围之间?【参考答案】(1)原假设(2)根据假设检验的判定标准,若 p ,则不能拒绝原假设。该单样本 T 检伪 伪5验的 p=0.0000.05 所以不能拒绝原假设(原假设 u-u0=0 即男生和女生成绩的平均分不存在显著差异)即认为男生和女生的平均成绩不存在显著差异。912、 现对收集到的某地区若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数
11、据,利用SPSS 软件的回归分析功能分析了影响粮食总产量的主要因素,部分结果见下表。系数 a非标准化系数 标准系数模型B 标准 误差 试用版 t Sig.(常量) -25172.108 5793.953 -4.345 .000总播种面积(万公顷) 2.337 .376 .134 6.215 .000施用化肥量(kg/公顷) 132.028 11.386 .707 11.595 .000风灾面积比例(%) -230.751 44.888 -.131 -5.141 .0001农业劳动者人数(百万人) 48.358 7.719 .357 6.265 .000a. 因变量: 粮食总产量(y万吨)试写出
12、回归方程的具体形式,并对此表格所展现的结果进行进一步的分析。答:回归方程:Y=-25172.108+2.337*总播种面积+132.028*施用化肥量-230.751*风灾面积比例 +48.358*农业劳动者人数影响粮食产量的主要因素:总播种面积,施用化肥量,分在面积比例和农业劳动者人数四个因素 采用的是向后删除策略,但是最终的结果存在这四个变量可以认为这四个因素都是主要影响粮食产量的因素。三、简答题1、 在定义 spss 数据结构时,默认变量名和变量类型是什么?如果希望增强统计分析的可读性,还需要对数据结构的那些方面进行必要的说明?答:默认变量名以 var 开头 变量类型是数值型 进行说明:
13、变量名标签2、请简述交叉列联表卡方检验的步骤。答:第一步,建立原假设,列联表分析中卡方检验的原假设是:行变量与列变量独立。第二步,计算检验统计量。列联表分析中卡方检验的检验统计量是 Pearson 卡方统计量。第三步,确定显著性水平和临界值。第四步,得出结论和决策。3、请简述多选项问题分解常见的两种方法。答:多选项二分法,多选项分类法。多选项二分法是将多选项问题中的每个答案设为一个 SPSS 变量,每个变量只有 0 和 1 两个取值,分别表示选择该答案和不选择该答案。多选项分类法中,首先估计多选项问题最多可能出现的答案个数,然后,为每个答案设置一个SPSS 变量,变量取值为多选项问题中的可选答
14、案。4、请简述两独立样本 t 检验的目的及基本步骤。答:两独立样本 t 检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。基本步骤为:第一步,提出原假设;第二步,选择检验统计量;第三步,计算检验统计量的观测值和概率 P 值;第四步,给定显著性水平 ,并作出决策。5、简述事物之间的函数关系与统计关系的异同。10答:所谓函数关系指的是两事物之间的一种一一对应的关系,即当一个变量 x 取一定值时,另一变量 y 可以依确定的函数取唯一确定的值。统计关系指的是两事物之间的一种非一一对应的关系,即当一个变量 x 取一定值时,另一变量 y 无法依确定的函数取唯一确定的值。6、简述利用样本数据获得回归线的函数拟合方法。答:首先,通过散点图观察变量之间的统计关系,得到对回归线形状的直观认知,并确定一个能够反映和拟合这种认知且最简洁的数学函数,即回归模型。其次,利用样本数据在一定的统计拟合准则下,估计出回归模型中的各个参数,得到一个确定的回归方程。最后,回归方程中的参数是在样本数据的基础上得到的。由于抽样随机性的存在,估计出的回归方程未必是事物总体间数量关系的真实体现,因此需要对回归方程进行各种检验,判断该方程是否真实地反映了事物总体间的统计关系,能否用于预测,并最终得到由回归方程确定的回归近似线。