1、思考与练习(第五章) BY 缪嘉伦思考题1. 解释原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则。答:原假设(null hypothesis)通常是研究者想悼念证据予以反对的假设,也称零假设,用 H0 表示。备择假设(alternative hypothesis)通常是研究者想悼念证据予以支持的假设,也称研究假设,用 Hl 或 Ha 表示。几种常见的原则:第一, 原假设和备择假设是一个完备事件组,而且相互对立。第二, 在建立原假设时,通常是先确定备择假设,然后再确定原假设。第三, 在假设检验中,等号“=”总是放在原假设上。第四, 在面对某一实际问题时,由于不同的研究者有不同
2、的研究目的,即使对同一问题也可能提出截然相反的原假设和备择假设。第五, 假设检验的目的主要是收集证据拒绝原假设。3.什么是显著性水平?它对于假设检验决策的意义是什么?与置信水平的区别?答:显著性水平(level of significance)是指当原假设实际上是正确时,检验统计量落在拒绝域的概率,记为 。它是人们事先指定的犯第 类错误概率 的最大允许值。显著性水平 越小,犯第类错误的可能性自然就越小,但犯第 类错误的可能性随之增大。 置信水平是指变量落在置信区间的可能性,记为 1- 。4.什么是 P 值? P 值检验和统计量检验有什么不同?答:P 值(P value)就是当原假设为真时所得到
3、的样本观察结果或更极端结果出现的概率。如果 P 值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P 值越小,我们拒绝原假设的理由越充分。总之,P 值越小,表明结果越显著。但是检验的结果究竟是“显著的” 、 “中度显著的”还是“高度显著的”需要我们自己根据 P 值的大小和实际问题来解决。区别:从显著性水平来比较,如果选择的 值相同,所有检验结论的可靠性都一样;通过计算 P 值,可测量出样本观测数据与原假设的值 的偏离程度。0练习题4. 解:提出假设: H0 6, H1 6已知: = 1.19, n = 100, .5(1 ) 选择检验统计量 0/xz
4、sn(2 ) 拒绝规则是:若 ,拒绝 ;否则,不拒绝Z0H0(3 ) 计算检验统计量的数值,即 06.352.941/1/xzsn即有, 0.52.941164zz因此,拒绝 ,认为改进工艺能提高纤维原的平均强度。0H5. 解: 提出假设: ,:6.71:.7其中 为如今每个家庭每天收看电视的平均时间调查的样本: 20,.5,2.nxs检验统计量: 7603.1/./zs进行 P 值检验,利用 Excel 的统计函数功能进行计算,如下图图 5.5可得 z 值 3.111 左边的面积为 0.999067725,用 1 减去该值,即为单侧检验的 P 值,即 P 值=1 - 0.999067725
5、= 0.000932275,小于给定的显著性水平 0.01,所以拒绝原假设,认为如今每个家庭收看电视的平均时间增加了。6.解:提出假设: 2220 1:0.75,:0.75TVCRTVHH已知: 3,ns检验统计量: 22 22/0.52(1)(0)13.(1)(31)42.7.75VCR n因此,拒绝 ,认为电视寿命的方差显著大于 VCR。0H10解:提出假设: 2211:,:在 Excel 中输入相关数据,如下图:图 5.10.1利用 F-检验 双样本方差分析,得下图图 5.10.2可得,检验统计量为: 210.489.25sF则有, 120.2528.49(,)(4,1).37nF因此,
6、拒绝 ,认为两种机器生产的袋茶重量的方差存在显著差异。0H思考与练习(第六章)思考题1. 什么是方差分析?它所研究的是什么?答:方差分析(analysis of variance,ANOVA)是检验多个总体均值是否相等的统计方法。本质上它研究的是分类型自变量对数值型因变量的影响。3 方差分析中有哪些基本假设?答:(1)每个总体都应服从正态分布;( 2)各个总体的方差必须相同;( 3)观测值是独立的。4. 简述方差分析的基本思想。答:试验指标的变化可以用指标值的方差反映,导致试验指标值发生变化的原因有两方面:一是可控因素,二是不可控因素或未加控制因素。方差分析就是将试验指标值的方差分解成条件变差
7、与随机误差,然后,将各因素形成的条件 变差与随机误差进行比较,评价由某种因素所引起的变异是否具有统计学意义。6. 简述方差分析的基本步骤。答:(1)提出假设;( 2)构造检验的统计量;( 3)统计决策;(4)方差分析表。7. 解释水平项平方和、误差项平方和的含义。答:水平项误差平方和简记为 SSA,它是各组平均值与总平均值的误差平方和,反映各总体的样本均值之间的差异程度,因此双称为组间平方各。误差项平方和,简记为SSE,它是每个水平或的各样本数据与其组平均值误差的平方和,反映了每个样本各观测值的离散状况,因此双称为组内平方和或残差平方和。11. 解释试验、试验设计、试验单元的含义。答:试验:收
8、集样本数据的过程。试验设计:收集样本数据的计划。试验单元:接受“处理”的对象或实体。12. 简述完全随机化设计、随机化区组设计、因子设计的含义。答:含义:完全随机化设计:将 k 种“处理”随机地指派给试验单元的设计。随机化区组设计:先按一定规则将试验单元划分为若干同质组,称为“区组” ,然后再将各种处理随机地指派给各个区组。因子设计:考虑两个因素(可推广到多个因素)的搭配试验设计。练习题1. 解:提出假设: 不完全相等0123123:,:,H式中, 为第 个样本的均值。i在 Excel 中输入相关数据,如下图:图 6.1.1利用单因素方差分析,可得图 6.1.2从分析方差表中可以看到,由于 0
9、.14.657(2,9)8.517F所以不拒绝原假设,即不能认为 3 个总体的均值之间存在显著差异。4. 解: 对两个因素分别提出如下假设:行因素(品种)为 012345:,H不 全 相 等列因素(施肥方案)为 01234:,不 全 相 等在 Excel 中输入相关数据,如下图:图 6.4.1利用无重复双因素分析,可得图 6.4.2从分析方差表中可以看到,由于, 7.239164F3.259167RF所以拒绝原假设 ,认为品种对收获量有显著影响。0H由于, 9.2046573F.49025RF所以拒绝原假设 ,认为施肥方案对收获量有显著影响。0思考与练习(第七章)思考题1. 相关分析与回归分析
10、的区别和联系是什么?答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。3什么是总体回归函数和样本回归函数?它们之间的区别是什么?答:答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数: ,或 。总体回归函数是确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估计出的因变量与自变量之间的函数关系:
11、或 。回归分析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数 , 是确定的,而样本回归函数的系数 , 是随机变量;总体回归函数中的误差项 i u 不可观察的,而样本回归函数中的残差项 i e 是可以观察的。4什么是机误差项和残差?它们之间的区别是什么?答:随机误差项表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:5为什么在
12、对参数进行最小二乘估计之前,要对模型提出一些基本的假定?答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是BLUE。11为什么用可决系数能够度量回归方程对样本数据的拟合程度?为什么对多元线性回归的多重可决系数要作修正?答:可决系数是测定变量间相关关系密切程度的统计分析指标,它也是反映自变量对因变量的联合的影响程度。可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。可决系数的取值范围在0 到 1 之间,它是一个非负统计量。随着抽样的不同而不同,
13、既是随样本而变动的统计量。在样本容量一定下,随着模型中自变量个数的增加,可决系数 R2 会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。12对回归系数显著性作 t 检验的基本思想是什么?在多元线性回归中,对参数作了 t 检验以后为什么还要作方差分析和 F 检验?答:回归系数显著性检验是检验模型中每个自变量与因变量之间的线性关系是否显著。显著性检验是通过计算各回归系数的 t 检验值进行的。回归系数的 t 检验值 的计算公式为:= (j = 1,2,k) ,式中 是回归系数 的标准差。在多元回归模型中,某
14、个变量回归系数的 t 检验没有通过,说明该变量与因变量之间不存在显著的线性相关关系,在回归分析时就可以将该变量删去,或者根据情况作适当的调整,而后用剩下的自变量再进行回归分析。t 检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和 F 检验就是对回归方程的整体统计显著性进行的检验方法。17试证明“在一元回归情形下 F=t2, F 检验与 t 检验是等价的” 。试证明在一元回归中 t 检验与 F 检验是等价的。练习题2解:在 Excel 中输入相关数据,如下图,图 7.2.1(1 ) 如图图 7.2.2(2 ) 负相关关系(3 )
15、图 7.2.3由 Excel 回归分析结果可得, 6.01783950.741yx(4 ) 估计的斜率系数为0.0704144,表示航班的正点率每提高 1,百万名乘客的投诉次数会下降:0.0704144*1=0.0704144 次。(5 ) 6.01783950.74180=.3y4. 解:要 Excel 中输入相关数据,如下图,图 7.4.1Excel 回归分析,可得图 7.4.2(1 ) 247.031.54903278yx(2)由 Excel 回归分析结果可得,标准误差:3137.800667可决系数:0.991179504(3)提出假设: *01:,:H由图 7.4.2 可得,的 t
16、统计量为 2.996756, 的 t 统计量为 55.082234。AA若取显著性水平为 5%,查 t 分布表得0.25(9).0518显然, 和 的 t 统计量都大于 ,表明应拒绝A.2()t 0H(4 ) 2074.310.5493786=132.y利用预测系数的 95%上下限计算可得到 95%预测区间9.7,2.案例分析在 Excel 中输入相关数据,如图 1,图 1讨论题(由于各小题联系比较大,于是将 1-4 小题统一回答)首先,对数据进行相关分析检验,得图 2图 2通过相关系数分析,我们可以看到,x1 对与 y 的相关性最大,达到0.992018;x2 与 y 的相关性较弱,仅为 0.77707; 其余变量皆与 y 有较大的相关性;也可看出,各变量之间也有较大的相关性,因此,我们需要考虑各单一变量对 y 的影响强度。下面我对每一个变量进行回归分析。a. 轿车生产量与私人载客汽车拥有量的关系