1、计量资料的统计推断,主要内容:,标准误t 分布总体均数的估计假设检验均数的 t检验、u 检验、方差分析,几个重要概念的回顾:计量资料:总体:样本:统计量:参数:统计推断:参数估计、假设检验,第一节 均数的抽样误差与总体均数的估计,欲了解某地2000年正常成年男性血清总胆固醇的平均水平,随机抽取该地200名正常成年男性作为样本。由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。,一、均数的抽样误差与标准误,抽样误差: 由于抽样引起的样本统计量与总体参数之间的差异 X ,一、均数的抽样误差与标准误,数理统计推理和中心极限定理表明:,1、从正态总体N(,2)中,随机抽取例数为n的样本,样本均
2、数X也服从正态分布;即使从偏态总体抽样,当n足够大时X也近似正态分布。2、从均数为,标准差为的正态或偏态总体中抽取例数为n的样本,样本均数X的总体均数也为,标准差为X,7,标准误,含义 :样本均数的标准差计算:,(标准误的估计值)注意: X 、SX均为样本均数的标准误,8,标准误,意义: 反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。,9,标准误,用途:衡量抽样误差大小估计总体均数可信区间用于假设检验,二 t 分布,对正态变量样本均数X做正态变换(u变换):,X 常未知而用SX估计,则为t变换:,二、 t 分布,t值的分布即为t分布,t 分布的曲线:与有关,
3、14,t分布与标准正态分布的比较,1、二者都是单峰分布,以0为中心左右对称2、t分布的峰部较矮而尾部翘得较高说明远侧的t值个数相对较多即尾部面积(概率P值)较大。当逐渐增大时,t分布逐渐逼近标准正态分布,当时,t分布完全成为标准正态分布,t 界值表(附表9-1 )t/2,:表示自由度为,双侧概率P为时t的界值,t分布曲线下面积的规律:中间95%的t值:- t0.05/2, t0.05/2,中间99%的t值:- t0.01/2, t0.01/2,单尾概率:一侧尾部面积双尾概率:双侧尾部面积(1) 自由度()一定时,p与t成反比;(2) 概率(p)一定时,与t成反比;,三 总体均数的估计,统计推断
4、:用样本信息推论总体特征。 包括参数估计和假设检验参数估计:用样本统计量估计总体参数。 1、 点(值)估计:用样本统计量作为对总体参数的估计值,2、 区间估计:根据选定的置信度(或可信度,用概率表示)估计总体参数所在的范围置信度:估计正确的概率。1- 置信区间(confidence level, CI):,总体均数的可信区间,按一定的可信度由样本均数计算的总体均数可能所在的范围,这个范围称为总体均数的可信区间。方法:(1) u 分布法(2) t 分布法,20,总体均数的95可信区间,总体均数的95可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均
5、有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误),(1)u 分布法(均以95%CI为例),已知时95%CI:,(1)u 分布 法,未知但n足够大时总体均数95%CI:,(2)t分布 法,未知、n小时总体均数95%CI:按t分布原理,例题:P168,区间估计的准确度:说对的可能性大小, 用 (1-) 来衡量。99%的可信区间好于95%的可信区间(n, S 一定时) 。区间估计的精确度:指区间范围的宽窄,范围越宽精确度越差。99%的可信区间差于95%的可信区间(n, S 一定时) 。 准确度与精确度的关系:,25,均数的标准差和标准误的区别,26,总体均数可信区
6、间与参考值范围的区别,第二节 假设检验(hypothesis testing),例:某地抽查了26名男性管理人员的空腹血糖,均数x为4.84mmol/L,标准差S为0.85mmol/L,已知大量调查的一般健康成年男性空腹静脉血糖均数为4.70mmol/L。试问能否认为该地抽查的26名健康男性管理人员的空腹血糖均值与一般正常健康成年男性的空腹血糖均值不同?,差异来源的分析,两种可能性:(1)抽样误差造成了二者的差别: = 0 t=0.844(2)可能由于饮食习惯、生活条件等的影响,样本所代表的总体与已知总体确实不同: 0,假 设 检 验,假设检验的一般步骤,1、建立假设: 无效假设(检验假设,零
7、假设,H0 ): = 0 备择假设 (H1): 0 ( 0或 :不拒绝H0 ,还不能认为差异有统计学意义 P :拒绝H0,接受H1 ,差异有统计学意义,第三节 均数的 t 检验、u检验,t检验的应用条件: 样本例数n较小、样本来自正态或近似正态总体,两样本均数比较时还要求相应的两总体方差齐同 u检验的应用条件: 大样本资料,样本例数n较小但总体标准差已知,样本来自对称或正态总体,33,一、样本均数与总体均数比较的t检验,总体均数: 一般为理论值、标准值或经过大量观察所得的稳定值 0 比较的目的: 样本所代表的未知总体均数与已知的总体均数0是否不同。统计量t的计算公式: = n - 1,34,P
8、170例9.3:已知一般无肝肾疾患的健康人群尿素氮均值为4.882(mmol/L),16名脂肪肝患者的尿素氮(mmol/L)测定值为5.74,5.75,4.26,6.24,5.36,8.68,6.47,5.24,4.13,11.8,5.57,5.61,4.37,4.59,5.18,6.96。问脂肪肝患者尿素氮测定值的均数是否高于健康人 假设检验的步骤: x=5.997 S=1.92 n=16 t=2.32 (单侧检验)0.01p0.10,不能认为两总体均数不相等,此时若推断有错,其错误的概率为( )。A大于0.10 B,而未知C小于0.10 D1-,而未知2某地正常成年男子红细胞的普查结果,均数为480万/mm3,标准差为41.0万/mm3,后者反映( )A个体变异 B抽样误差 C总体均数不同 D均数间变异,56,3.两个样本均数比较,经t检验,差异有统计学意义,p越小,说明()A两样本均数差别越大 B两总体差别越大C越有理由认为两总体均数不同D越有理由认为两样本均数不同,57,作业:P511 第3、 4题,