总体均数的估计与假设检验.PPT

上传人:国*** 文档编号:369342 上传时间:2018-09-28 格式:PPT 页数:91 大小:1.08MB
下载 相关 举报
总体均数的估计与假设检验.PPT_第1页
第1页 / 共91页
总体均数的估计与假设检验.PPT_第2页
第2页 / 共91页
总体均数的估计与假设检验.PPT_第3页
第3页 / 共91页
总体均数的估计与假设检验.PPT_第4页
第4页 / 共91页
总体均数的估计与假设检验.PPT_第5页
第5页 / 共91页
点击查看更多>>
资源描述

1、1,第三章 总体均数的估计与假设检验,第二军医大学卫生统计学教研室 张罗漫,2,均数的抽样误差与标准误 t 分布总体均数的估计 t 检验假设检验的注意事项正态性检验和两样本方差比较的F检验,讲课内容,3,第一节 均数的抽样误差与标准误,4,了解总体特征的最好方法是对总体的每一 个体进行观察、试验,但这在医学研究实 际中往往不可行。对无限总体不可能对所有个体逐一观察, 对有限总体限于人力、财力、物力、时间 或个体过多等原因,不可能也没必要对所 有个体逐一研究(如对一批罐头质量检查)。借助抽样研究。,5,欲了解某地18岁男生身高值的平均水平, 随机抽取该地10名男生身高值作为样本。由于个体变异与抽

2、样的影响,抽得的样本 均数不太可能等于总体均数,造成样本统 计量与总体参数间的差异(表现为来自同一 总体的若干样本统计量间的差异),称为抽 样误差。抽样误差是不可避免的。抽样误差是有规律的。,6,1999年某市18岁男生身高值 XiN(, 2) =167.7cm =5.3cm,7,样本均数抽样分布具有如下特点:,各样本均数未必等于总体均数各样本均数间存在差异样本均数围绕 =167.69cm呈正态分布样本均数变异度( )较原总体个 体值变异度( = 5.3cm)大大缩小,8,9,中心极限定理(central limit theorem),从均数为、标准差为的总体中独立随机抽样,当样本含量n较大时

3、, 样本均数的分布将趋于正态分布 此分布的均数为,标准差为,10,中心极限定理(central limit theorem),若 X i 服从正态分布 则 服从正态分布 若 X i 不服从正态分布 n大(n60):则 近似服从正态分布 n小(n60) 按u分布原理2. 两总体均数之差的可信区间,27,1.单一总体均数的1可信区间,双侧,(1)未知,单侧,28,故该地18岁男生身高均数的95%可信区间为(164.35, 169.55)cm。=167.7cm 双尾,例 在例3-1中抽得第15号样本的 =166.95(cm),S=3.64(cm), 求其总体均数的95%可信区间。,166.952.2

4、621.1511=164.35169.55(cm),29,1.单一总体均数的1可信区间,双侧,单侧,(2)已知或未知但n足够大:,30,例 某地抽取正常成年人200名,测得其血清胆固醇均数为3.64 mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数95%可信区间。,31,2. 两总体均数之差的1可信区间,双侧,单侧,32,三、可信区间的确切含义,从1999年某市18岁男生身高值总体N(=167.7cm, =5.3cm)中随机抽取100个样本计算了100个估计的95%CI其中有95个CI包含了 有5个不包含 =167.7cm20号 161.00165.57 31号 1

5、61.17167.3354号 168.05171.00 76号 167.71174.8482号 167.98174.27,来自N(0,1)的100个样本所计算的95%可信区间示意,34,如果能够进行重复抽样试验,平均有(1)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为(1)。,在实际工作中,只能根据一次试验结果计算一个可信区间,就认为该区间包含了相应总体参数,该结论犯错误的概率 。,可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。可信度是事前概率。,可信区间的确切含义,35,正确性:可信度1,即区间包含总体参数 的理论概率大小,愈接近1愈好。

6、精确性:区间的宽度,区间愈窄愈好。当样本含量为定值时,上述两者互相矛盾。 若只顾提高可信度,则可信区间会变宽。,评价可信区间估计的优劣:,36,四、可信区间与参考值范围的区别,可信区间用于估计总体参数,总体参数只 有一个 。参考值范围用于估计个体值的分布范围, 个体值有很多 。,95%可信区间中的95%是可信度,即所求可 信区间包含总体参数的可信程度为95%。95%参考值范围中的95%是一个比例,即 所求参考值范围包含了95%的正常人。,37,第四节 t 检验,38,例 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工

7、人的血红蛋白是否不同于正常成年男性平均值140g/L?,样本均数与总体均数间差异的原因: 1.总体均数不同? 2.总体均数相同,差异由抽样误差造成?,统计推断方法 假设检验(hypothesis test),39,1.进行检验假设 假设样本来自某一特定总体2.确定检验水准 确定最大允许误差3.选定检验方法计算检验统计量 计算样本与总体的偏离程度4.计算与统计量对应的P值5.作出结论 根据小概率反证法思想作出推断,假设检验一般步骤,40,t 检验(Students t-test) 设计 完全随机设计单样本 完全随机设计两样本 配对设计 要求 1.n较小(单组60或两组合计60) 2.样本随机地取

8、自正态总体 3.两样本均数比较时所对应两总体 方差相等(homogeneity of variance),41,例 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?,一、单样本t 检验,1.建立检验假设,确定检验水准H0: =0=140g/L 铅作业男性工人的平均血红蛋 白含量与正常成年男性的相等H1: 0 =0.05,42,2.计算检验统计量,3.确定P值,作出推断结论 |2.138| t0.05/2,35=2.030 P 2 或 1 2 单侧检验H0: 1= 2

9、 H1: 1 2 双侧检验。单双侧检验主要根据专业知识预先确定。双侧检验较保守和稳妥。检验水准:预先规定的拒绝假设H0时的最大允许误差,它确定了小概率事件标准。在实际工作中常取0.05,但并非一成不变。,68,应根据变量和资料类型、设计方案、统 计推断的目的、方法的适用条件等选择 检验统计量。所有检验统计量都是在H0成立的前提条 件下计算出来的。检验统计量大小反映样本与总体的偏离 程度(如t值反映样本均数与总体均数 的偏离程度,以标准误进行标准化),2.计算检验统计量,69,P值是决策的依据P的含义是指从H0规定的总体中随机抽样,其检验统计量等于及大于现有样本的检验统计量的概率。即从H0假设总

10、体中随机抽到差别至少等于现有样本差别的机会。根据获得的事后概率P,与事先规定的概率检验水准进行比较,看其是否为小概率事件而得出结论。,3.确定P 值,作出推断结论,70,P,按检验水准,拒绝H0,接受H1有统计学意义(统计结论)statistical significance可认为不同,高于(专业结论)P,按检验水准,不拒绝H0无统计学意义(统计结论)no statistical significance还不能认为不同(专业结论)不拒绝H0不等于接受H0,因此时证据不足,71,三、I型错误和II型错误,大,小;大,小。增加n可同时缩小,。,73,可取单尾亦可取双尾。II型错误的概率大小用表示,

11、 只取单尾,值的大小一般未知,须在知道两总体差值 (如12等)、及n 时,才能算出。1称检验效能(power of a test),过去称把握度。为当两总体确有差异,按检验水准所能发现该差异的能力。1只取单尾。拒绝H0,只可能犯I型错误,不可能犯II型错误;不拒绝H0,只可能犯II型错误,不可能犯I型错误。,74,四、假设检验应注意的问题,1.要有严密的研究设计组间应均衡,具有可比性,除对比的主要因素(如临床试验用新药和对照药)外,其它可能影响结果的因素(如年龄、性别、病程、病情轻重等)在对比组间应相同或相近。,75,配对设计计量资料:配对t检验。完全随机设计两样本计量资料:小样本(任一ni6

12、0)且方差齐: 两样本t检验 方差不齐: 近似t检验大样本(所有ni60): u检验。,2.不同资料应选用不同检验方法,76,3.正确理解“significance”一词的含义过去称差别有或无“显著性”,易造成两 样本统计量之间比较相差很大的误解。现在称差别有或无“统计学意义”, 相应推断为:可以认为或还不能认为两 个或多个总体参数有差别。,77,4.结论不能绝对化 因统计结论具有概率性质,故“肯定”、 “一定”、“必定”等词不要使用。在报告结论时,最好列出检验统计量的 值,尽量写出具体P值,而不简单写成 P0.05,以便读者与同类研究进行比 较或进行循证医学时采用Meta分析。,78,5.统

13、计“有意义”与医学“有意义” 统计“有意义”对应统计结论,医学“有意 义”对应专业结论。统计结论有意义,专业结论无意义,最终 结论没有意义,样本含量过大或设计存在 问题。统计结论无意义,专业结论有意义,检查 设计是否合理、样本含量是否足够。,79,6.可信区间与假设检验区别和联系,可信区间可回答假设检验问题 H0: =0=140g/L 铅作业男性工人的平均血红蛋 白含量与正常成年男性的相等 H1: 0 =0.05 铅作业男性工人平均血红蛋白含量总体 均数的95%CI为(122.12,139.54) g/L, 未包括0=140g/L 按=0.05水准,拒绝H0 ,接受H1。,80,可信区间说明量

14、的大小即推断总体均数 所在范围,假设检验推断质的不同即判 断两总体均数是否不等。可信区间不但能回答差别有无统计学意 义,还能提示差别有无实际专业意义。可信区间不能够完全代替假设检验。可 信区间只能在预先规定概率的前提下 进行计算,而假设检验能获得一较为确 切的P值。,81,第七节 * 正态性检验和两样本方差比较的F检验,82,两小样本t 检验前提条件:相应的两总体为正态总体两总体方差相等,即方差齐性配对t 检验前提条件:每对数据差值的总体为正态总体,83,一、正态性检验(了解),1.图示法概率图(probability-probability plot)以实际累积频率(X)对正态分布理论累积频

15、率(Y)作散点图分位数图(quantile-quantile plot)以实际分位数(X)对正态分布理论分位数 ( )作散点图如果实际值与理论值吻合,图中散点几乎都在一直线上,可认为该资料服从正态分布,84,(168-167.69)/1.69=0.18(164-167.69)/1.69=-2.18(172-167.69)/1.69=2.55,85,2.计算法偏度(skewness)指分布不对称的程度和方向,用偏度系数(总体:1 样本:g1)衡量。1=0 对称 10 正偏态 10 负偏态峰度(kurtosis)指分布与正态曲线相比的冒尖或扁平程度,用峰度系数(总体:2 样本:g2)衡量。2=0

16、正态峰 20 尖峭峰 20 平阔峰当同时满足对称和正态峰两个条件时,才能认为该资料服从正态分布。,86,对偏度和峰度各用一个指标评定,其中以矩法(method of moment)效率最高,对偏度和峰度用一个指标综合评定 H0:1=0且 2=0,总体服从正态分布 H0:10且 20,总体不服从正态分布 =0.10(减少型错误),87,二、两样本方差比较的F检验,第一个样本方差既可能大于也可能小于第二 个样本方差,是双侧检验。公式规定以较大方差作分子,F必然大于1。,附表3仅给出不对称F分布右侧界值,88,研究目的:阿卡波糖胶囊降血糖效果试验设计:同期随机对照试验受试对象:40名II型糖尿病病人试验组:阿卡波糖胶囊对照组:拜唐苹胶囊观测指标:试验8周后糖化血红蛋白下降值,89,(1)建立检验假设,确定检验水准。,(2)计算检验统计量,(3)确定P值,作出推断结论3.7752.15=F0.10(20,19) P0.10按=0.10水准,拒绝H0,接受H1,有统计学意义。可认为对照组和试验组病人试验8周后糖化血红蛋白下降值总体方差不等。,90,均数的抽样误差与标准误 t 分布总体均数的估计 t 检验假设检验的注意事项正态性检验和两样本方差比较的F检验,讲课内容,91,谢 谢 !,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。