应用统计分析复习要点和答案.docx

上传人:h**** 文档编号:1373297 上传时间:2019-02-23 格式:DOCX 页数:8 大小:933.78KB
下载 相关 举报
应用统计分析复习要点和答案.docx_第1页
第1页 / 共8页
应用统计分析复习要点和答案.docx_第2页
第2页 / 共8页
应用统计分析复习要点和答案.docx_第3页
第3页 / 共8页
应用统计分析复习要点和答案.docx_第4页
第4页 / 共8页
应用统计分析复习要点和答案.docx_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、应用统计学复习要点(要求:每人携带具有开方功能的计算器)一、名词解释1.统计学 :收集、处理、分析、解释数据并从数据中得出结论的科学。2.方差分析 :是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。3.假设检验 :是事先对总体参数或分布形式做出某种假设,然后利用样本信息来判断原假设是否成立。分为参数假设检验和非参数假设检验。一般采用逻辑上的反证法,依据统计上的小概率原理。4.置信区间 :是指由样本统计量所构成的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数

2、的真实值有一定概率落在测量结果的周围的成都。5.置信水平 :是指总体参数值落在样本统计值某一区内的概率。6.抽样分布 :从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。抽样分布是统计推断的理论基础。7.方差分析 :是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。 (重复啦)8.相关分析 :是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度是研究随机变量之间的相关关系的一种统计方法。9.推断统计 :是研究如何利用样本数据来推断总体特征的统计方法。包含两

3、个内容:参数估计,即利用样本信息推断总体特征;假设检验,即利用样本信息判断对总体的假设是否成立。二、计算题1. 在某地区随机抽取 120 家企业,按照利润额进行分组后结果如下:按利润额分组(万元) 企业数(个)300 以下 19300400 30400500 42500600 18600 以上 11合计 120计算 120 家企业利润额的平均数和标准差(注:第一组和最后一组的组距按相邻组计算) 。解:2.某银行为缩短顾客到银行办理业务等待的时间,准备了两种排队方式进行试验。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取 9 名顾客,得到第一种排队方式的平均等待时间为 7.2 分

4、钟,标准差为 1.97 分钟,第二种排队方式的等待时间(单位:分钟)如下:5.5 6.6 6.76.8 7.1 7.37.4 7.8 7.8(1) 计算第二种排队时间的平均数和标准差。(2) 比较两种排队方式等待时间的离散程度。(3) 如果让你选择一种排队方式,你会选择哪一种?试说明理由。解:3. 某大学为了解学生每天上网的时间,在全校学生中随机抽取 36 人,调查他们每天上网的时间(单位:小时) ,得到的数据如下: 3.3 3.1 6.2 5.8 2.3 4.14.4 2.0 5.4 2.6 6.4 1.82.1 1.9 1.2 5.1 4.3 4.24.7 1.4 1.2 2.9 3.5

5、2.45.4 3.6 4.5 0.8 3.2 1.53.5 0.5 5.7 3.6 2.3 2.5求该校大学生平均上网时间的置信区间,置信水平分别为 90%,95%和 99%。 (注:z(0.1)、z(0.05) 和 z(0.01)统计量值分别为 1.65、1.96 和 2.58)解:4. 利用下面的信息,构建总体均值 的置信区间。(1)总体服从正态分布,且已知 =500,n=15, =8900,置信水平为 95%。 (注:z 统计量值为 1.96)(2)总体不服从正态分布,且已知 =500,n=35, =8900,置信水平为 95%。 (注:z 统计量值为 1.96)(3)总体不服从正态分布

6、, 未知, n=35, =8900,s=500,置信水平为 90%。 (注:z 统计量值为 1.65)(4)总体不服从正态分布, 未知, n=35, =8900,s=500,置信水平为 99%。 (注:z 统计量值为 2.58)解:5.对消费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。为验证这一说法,生产商随机抽取 550 人的一个随机样本,其中 115 人早餐 饮用牛奶。在 =0.05 的显著性水平下,检验该生产商的说法是否属实?(注:z 统计量值为 1.96)解:6.一项包括了 200 个家庭的调查显示,每个家庭每天看电视的平均时间

7、为 7.25 小时,标准差为 2.5 小时。据报道,10年前每天每个家庭看电视的平均时间是 6.7 小时。取显著性水平 =0.01,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?(注:z 统计量值为 1.96)解:7.下面是 7 个地区 2000 年的人均国内生产总值 GDP(Y )和人均消费水平(X )的统计数据(注:此题对应的 t 统计量值为 2.57):地区人均GDP(千元)Y人均消费水平(千元)X Y-E(Y) X-E(X)(Y-E(Y)(X-E(X) (X-E(X)2 (Y-E(Y)2北京 22.460 7.326 10.212 2.810 28.699 7.899

8、104.276 辽宁 11.226 4.490 -1.022 -0.026 0.026 0.001 1.045 上海 34.547 11.546 22.299 7.030 156.769 49.427 497.226 江西 4.851 2.396 -7.397 -2.120 15.679 4.493 54.722 河南 5.444 2.208 -6.804 -2.308 15.702 5.325 46.300 贵州 2.662 1.608 -9.586 -2.908 27.873 8.454 91.900 陕西 4.549 2.035 -7.699 -2.481 19.099 6.153 59

9、.281 合计 85.739 31.609 263.847 81.751 854.751 (1)计算相关系数,说明二者之间的关系。(2)人均 GDP 作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。(3)计算判定系数和估计标准误差,并解释其意义。(4)检验回归方程线性关系的显著性。 (=0.05)(5)如果某地区的人均 GDP 为 5 千元,预测其人均消费水平。(6)求人均 GDP 为 5 千元时,人均消费水平 95%的置信区间和预测区间。解:8.随机抽取 7 家超市,得到其广告费支出(X )和销售额(Y)数据如下:(注:此题对应的 t 统计量值为

10、2.57) 超市销售额(万元)Y广告费支出(万元)X Y-E(Y) X-E(X)(Y-E(Y)(X-E(X) (X-E(X)2 (Y-E(Y)2A 19 1 -23 -7.143 164.286 51.020 529B 32 2 -10 -6.143 61.429 37.735 100C 44 4 2 -4.143 -8.286 17.163 4D 40 6 -2 -2.143 4.286 4.592 4E 52 10 10 1.857 18.571 3.449 100F 53 14 11 5.857 64.429 34.306 121G 54 20 12 11.857 142.286 140

11、.592 144合计 294 57 447 288.857 1002(1)计算相关系数,说明二者之间的关系。(2)广告费用支出作自变量,销售额作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。(3)计算判定系数和估计标准误差,并解释其意义。(4)检验回归方程线性关系的显著性。 (=0.05)(5)如果某超市的广告费用支出为 5 万元,预测其销售额。(6)求广告费用支出为 5 万元时,超市销售额 95%的置信区间和预测区间。解: 列表分析Coefficients 标准误差 t Stat P-value Lower 95% Upper 95%下限 95% 上限 95%Inter

12、cept 29.39911 4.807253 6.115573 0.001695 17.04167 41.75655 17.04167 41.75655X Variable11.547478 0.463499 3.338688 0.020582 0.356016 2.738939 0.356016 2.738939(1)r=63.86/(6.424*11.964)=0.831显示两个变量之间高度相关,有很强的线性关系。(2) ,代表广告费用每增加 1 万元,销售额增加 1.54748 万元。(3)列表中可得:判定系数 R=0.6906,估计标准误差 4.807253(4 )根据方差分析所示,F

13、 =6.608 F=11.14684,即广告费支出与销售额之间的线性关系显著。(5)当广告支出为 5 万元时,销售额为 y=29.399+1.54748*5= 37.1364 元。(6)三、论述题1.简述样本量与置信水平、总体方差、估计误差的关系。答: (1)估计总体均值时样本量为 n,则(2)样本量 n 与置信水平 1-、总体方差 、估计误差 E 之间的关系为:与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量越大;与总体方差成正比,总比的差异越大,所要求的样本量也越大;与总体方差成正比,样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量越小。2.

14、简述评价估计量的三个标准。 (15 分)答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。无偏性:估计量抽样分布的数学期望等于被估计的总体参数;有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本量的增大时,点估计量的值越来越接近被估总体的参数。3.简要说明残差分析在回归分析中的作用。 (15 分)答:残差是因变量的观测值 y 与根据估计的回归方程求出的预测值之差,它反映了用估计的回归方程去预测 y 而引起的误差。回归模型中出现残差的前提条件是:平均值及总和是 0,标准误差符合正规分布。因此在回归分析中,可以通过残差进行线性回归适用性检验:回归模型残差的

15、正态性检验:残差的直方图和累计概率图回归模型残差的独立性检验:参数有 Dw 或 D,D 的取值范围是 0D4,其统计学意义为:D2,残差与自变量相互独立;D2,残差与自变量正相关;D2,残差与自变量负相关。残差的方差齐性检验。另外,残差还可以检验奇异点,评判预测效果等。这在回归分析中对模型的效果检验有着重要的作用。4.简要误差分解的概念和基本原理。 (15 分)答:(1)误差是测量值与真值之间的差值,误差分为系统误差和随机误差。系统误差是某一确定的因素引起的,它可以测量,有确定性,单向性,系统误差是可以消除的,在正确的操作中不应含系统误差。随时误差是不可测量的,它不能被避免,只能适当减小,就个体而言,它有不确定性,无规律可循,但在等精度条件下的多次测量,其大多数服从正态分布。还有一种是,过失误差是测量过失而产生的明显偏离真值的误差,是完全可以避免的。(2)误差分解的原理:是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 试题真题

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。