统计学30556-统计思想综述题库答案重点讲义资料.doc

上传人:坚持 文档编号:2098255 上传时间:2019-04-23 格式:DOC 页数:62 大小:1.17MB
下载 相关 举报
统计学30556-统计思想综述题库答案重点讲义资料.doc_第1页
第1页 / 共62页
统计学30556-统计思想综述题库答案重点讲义资料.doc_第2页
第2页 / 共62页
统计学30556-统计思想综述题库答案重点讲义资料.doc_第3页
第3页 / 共62页
统计学30556-统计思想综述题库答案重点讲义资料.doc_第4页
第4页 / 共62页
统计学30556-统计思想综述题库答案重点讲义资料.doc_第5页
第5页 / 共62页
点击查看更多>>
资源描述

1、1感谢在校统招的同学帮忙把绝大多数都做了,但可能还是落下了少数题目。如有高手能够补完,还请与其他同学分享。卷 1一、直方图:直观的给出原始数据(电池寿命)的分布情况箱线图:直观的识别出原始数据(电池寿命)的异常值,并展示出分布的峰度和偏态。二、(1)方差分析中有三个基本的假定。1、正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;2、方差齐性:各个总体的方差必须相同;3、独立性:每个样本数据是来自因子各水平的独立样本。 (2)在上述 3 个假定中,对独立性的要求比较严格,若该假设得不到满足时,方差分析的结果往往会受到较大影响。而对正态性和方差齐

2、性的要求相对比较宽松。三、(1)拒绝的结论是:该食品每袋的平均重量不是 100 克;不拒绝的结论是:样本提供的证据不能证明该食品每袋的平均重量不是 100 克。(2)不能。样本得出的结论只能用于拒绝原假设,而不能证明原假设为真。(3)结论:若该食品每袋的平均重量是 100 克,则得到的样本会像现在观测到的结果这样极端或者更极端的概率仅为 0.03。解释 P 值:若给定显著性水平为 0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是 100 克;但若给定显著性水平为 0.01,则不能拒绝原假设。四、(1)若将所有的自变量都引入回归模型,往往会导致所建立的模型不能进行有效的解释,也可能会导致

3、多重共线性。(2)变量筛选有向前选择、向后剔除、逐步回归等方法。特点如下。2向前选择:从没有自变量开始,不停向模型中增加自变量,直到增加不能导致 SSE 显著增加为止。向后剔除:从所有自变量开始,不停从模型中剔除自变量,直到剔除不能导致 SSE 显著减小为止。逐步回归:结合向前选择和向后剔除,从没有自变量开始,不停向模型中增加自变量,每增加一个自变量就对所有现有的自变量进行考察,若某个自变量对模型的贡献变得不显著就剔除之。如此反复,直到增加变量不能导致 SSE 显著减少为止。五、有季节性多元回归模型、时间序列分解法等方法。季节性多元回归模型引入虚拟变量来表示季节,对于以季度记录的数据,引入 3

4、 个虚拟变量 Q1、 Q2、Q3,其中 Q1=1(第 1 季度)或 0(其他季度),Q2=1(第 2 季度)或 0(其他季度),Q3=1( 第 3 季度)或 0(其他季度),则季节性多元回归模型表示为:其中 b0 是时间序列平均值,b1 是去市场分的洗漱,表示趋势给时间序列带来的影响,b2、b3、b4 表示每一季度与参照的第 4 季度的平均差值。时间序列分解法分 3 步:第一步,确定并分离季节成分。计算季节指数,确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。第二步,建立预测模型并进行预测。对消除了集结成分的时间序列建立适当

5、的预测模型,饼干局这一模型进行预测。第三步,计算出最后的预测值。用预测值乘以相应的季节之术,得到最终的预测值。3卷 2一、平均数:用于表示统计对象的一般水平,常为算术平均数。中位数:也可用于表示统计对象的一般情况,而且不受极值的影响。方差:用于描述数据的离散程度,越大说明数据的分布越分散。偏态系数:用于描述数据分布的不对称性。峰度系数:用于描述数据分布的尖峰或平峰程度。二、t 分布:描述样本均值分布,用于对两个样本均值差异进行显著性测试、估算置信区间等。F 分布:应用于方差分析、协方差分析和回归分析等,还可用于似然比检验。三、P 值是当原假设为真时,得到的样本会像现在观测到的结果这样极端或者更

6、极端的概率。若要证明原假设不正确,则由样本得到的 P 值应小于给定的显著性水平。四、(1)差异源 SS df MS F P-value组间 420 2 210 1.478 0.245946组内 3836 27 142.074 总计 4256 29 (2)从 P 值来看,组装方法与组装产品数量之间的关系强度较弱。(3)若显著性水平为 0.05,则 P0.05,因此不能拒绝原假设,即不能证明三种方法组装的产品数量之间有显著差异。五、时间序列分解法分 3 步:4第一步,确定并分离季节成分。计算季节指数,确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季

7、节指数以消除季节性。第二步,建立预测模型并进行预测。对消除了集结成分的时间序列建立适当的预测模型,饼干局这一模型进行预测。第三步,计算出最后的预测值。用预测值乘以相应的季节之术,得到最终的预测值。考题卷号:3一、 (20 分)在 2008 年 8 月 10 日举行的第 29 届北京奥运会女子 10 米气手枪决赛中,进入决赛的 8 名运动员的预赛成绩和最后 10 枪的决赛成绩如下表:要对各名运动员进行综合评价,使用的统计量有哪些?简要说明这些统计量的用途。有, 平均数、众数和中位数、方差、离散系数、偏态和峰态其中平均数、众数和中位数是评价数据的集中趋势的,可以座位数的平均水平或代表值,三者略有差

8、异。三者特点和差异如下众 数 不受极端值影响具有不惟一性数据较多时有意义,且有明显峰值时应用中位数5不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响利用了全部数据信息,数学性质优良数据对称分布或接近对称分布时应用较好当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性方差、离散系数都是可以评价数据的离散程度的。:二、 (20 分)为什么说假设检验不能证明原假设正确?1.假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设” ,

9、因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。 “不拒绝”的表述方式实际上意味着没有得出明确的结论3. 假设检验中通常是先确定显著性水平,这就等于控制了第 类错误的概率,但犯第类错误的概率却是不确定的。三、 (20 分)为估计公共汽车从起点到终点平均行驶的时间,一家公交公司随机抽取 36 班公共汽车,得到平均行驶的时间为 26 分钟,标准差为 8 分钟。(1) 说明样本均值服从什么分布?依据是什么?(2) 计算平均行驶时间 95%的置信区间。(3) 解释 95

10、%的置信水平的含义。6( , , , )645.105.z96.1025.z80.05.t 306.25.t略四、 (20 分)设单因素方差分析的数学模型为:。解释这一模型的含义,并说明对这一模ijijy型的基本假定。模型表明,因变量手自变量的变动主要来自于两方面,一个自变量,另一个是随机扰动。基本假定:随机扰动服从正态分布五、 (20 分)在多元回归中,判断共线性的统计量有哪些?简要解释这些统计量。答案见第五套题7考题卷号:4一、 (20 分)在 2008 年 8 月 10 日举行的第 29 届北京奥运会男子 10 米气手枪决赛中,最后获得金牌和银牌的两名运动员 10 枪的决赛成绩如下表所示

11、:运动员 决赛成绩庞 伟 9.3 10.3 10.5 10.3 10.4 10.3 10.7 10.4 10.7 9.3秦钟午 9.5 9.9 10.6 10.3 9.4 10.2 10.1 10.8 9.9 9.8根据上表计算的韩国运动员秦钟午的平均环数是 10.05 环,标准差是0.445 环。比较分析哪个运动员的发挥更稳定。可以算出中国选手的平均数和方差,方差小的发挥更稳定二、 (20 分)什么是统计意义上的显著性?为什么说统计上显著不一定就有现实意义?统计意义上的显著性是指规定一个最小的容错概率,如果犯错的概率小于这个容错概率则说是显著的,但在现实中各个行业各个领略同样的容错概率对应的

12、意义不同,同样的容错概率在有的行业带来的损失要远大于其他行业,所以要根据实际情况来看。具体的来说:在假设检验中,拒绝原假设称样本结果在“统计上是显著的” ;不拒绝原假设则称结果是“统计上不显著的” 。 “显著的”在这里的意义是指“非偶然的” ,它表示这样的样本结果不是偶然得到的,同样,结果是不显著的,则表明这样的样本结果很可能是偶然得到的。在进行决策时,我们只能说 P 值越小,拒绝原假设的证据就越强,检验的结果也就越显著。当 P 值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义,因为假设检验中所说的“显著”仅仅是“统计意义上的显著” 。也就是说,一个在统计上显著的结论在实际中却不见得

13、就很重要,也不以为着就有实际意义8三、 (20 分)简要说明判断一组数据是否服从正态分布的统计方法。方法有很多,即雅克贝拉检验 还有其他一些分布检验如卡方检验,K-S 检验、即雅克贝拉检验、PP 图,或 QQ 图及偏态和直方图。样量化判断数据是否服从正态分布? 数据是否服从正态分布,除了做数据分布直方图来判断,是不是还可用公式计算?量化计算方法是什么? j-b 检验,即雅克贝拉检验 还有其他一些分布检验如卡方检验,K-S 检验,都是用来检验分布的。 游程检验也可以用来检验分布。 你可以使用SPSS 的 explore,或 PP 图,或 QQ 图,具体的一般可以万采取下列几种做法 1、K-S 检

14、测,在 explore 中会有这一选项,在非参数检验中也有,它会给出一个 sig,你通过看这个数就可以判断数据是否服从正态分布 2、通过 P-P 图目测,这样做的好处在于直观 3、就是看峰度和偏度了,你要问偏度在什么范围内是服从正态分布,这个统计学上没有定论,如果偏度等于 0 就是完美的,一般接近这个值就可以了 (20 分)国家统计局目前对地区的划分中,将我国 31 个省市自治区划分为东部地区、中部地区、西部地区、东北地区。(1) 要分析四个地区的平均消费水平是否存在显著差异,所用的统计方法有哪些?这些方法的区别是什么?(2) 你会选择什么方法进行分析?你的假设是什么?(1)可以选用的方法有

15、F 检验,非参中的 ridit 方法。假定不同(2)我会选非参方法。原假设为四个地区平均消相同费水平四、 (20 分)一家房地产评估公司想对某城市的房地产销售价格 (元y/m2)与地产的评估价值 (万元) 、房产的评估价值 (万元)和1x2x使用面积 (m2)建立一个模型,以便对销售价格作出合理预测。3x9为此,收集了 20 栋住宅的房地产评估数据,由统计软件给出的部分回归结果如下(显著性水平为 95%):方差分析df SS MS F Sig.回归 3 87803505.46 29267835.15 46.70 3.879E-08残差 16 10028174.54 626760.91总计 19

16、 97831680 Coefficients 标准误差 t Stat P-valueIntercept 148.7005 574.4213 0.2589 0.799X Variable 1 0.8147 0.512 1.5913 0.1311X Variable 2 0.821 0.2112 3.8876 0.0013X Variable 3 0.135 0.0659 2.0503 0.0571对所建立的回归模型进行综合评价。从 F 检验来看,模型整体是很显著地。具体来看 X Variable 2 和 X Variable 3 显著性更强,如果将各变量的交互项考虑进来会更好。10考题卷号:5一

17、、 (20 分)为研究大学生的逃课情况。随机抽取 350 名大学生进行调查,得到的男女学生逃课情况的汇总表如下。是否逃课 男 女 合计逃过课 84 88 172未逃过课 78 100 178合计 162 188 350(1) 这里涉及的变量有哪些?这些变量属于什么类型?(2) 描述上述数据所适用的统计图形有哪些?答:(1)有分类变量和数量变量,分类变量有 是否逃课,数量变量有逃过课的人数和为逃过课的人数。(2)可以用条形图或者饼图。二、 (20 分)现从一批零件中随机抽取 16 只,测得其长度(单位:厘米)如下:15.1 14.5 14.8 14.6 15.2 14.8 14.9 14.614.8 15.1 15.3 14.7 15.0 15.2 15.1 14.7(1)如果要使用 分布构建零件平均长度的置信区间,基本的假定条t件是什么?(2)构建该批零件平均长度的 95%的置信区间。(3)能否确定该批零件的实际平均长度就在你所构建的区间内?为什么?(注: )13.2)5()1(02.2tnt略三、 (20 分)在假设检验中,当不拒绝原假设时,为什么一般不采取“接受原假设”的表示方式?因为不拒绝原假设不能证明原假设正确1.假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 试题真题

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。