第八章-海南医学院精品课程.ppt

上传人:ga****84 文档编号:447465 上传时间:2018-10-07 格式:PPT 页数:59 大小:2.70MB
下载 相关 举报
第八章-海南医学院精品课程.ppt_第1页
第1页 / 共59页
第八章-海南医学院精品课程.ppt_第2页
第2页 / 共59页
第八章-海南医学院精品课程.ppt_第3页
第3页 / 共59页
第八章-海南医学院精品课程.ppt_第4页
第4页 / 共59页
第八章-海南医学院精品课程.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、第九章数值变量资料的统计分析(2)第一节 数值型变量资料的统计描述第二节 正态分布和参考值范围的估计第三节 数值型变量资料的统计推断第四节 t检验和u检验第五节 方差分析,统计推断,随机抽样,参数?,统计量,( 、),(X、s、p),参数估计假设检验,第三节 数值型变量资料的统计推断,一、均数的抽样误差与标准误,二、分布,三、总体均数的置信区间的估计,四、假设检验的基本步骤,一、均数的抽样误差与标准误均数的抽样误差(sample error of mean): 假定要了解某地14岁健康女学生身高的总体均数,在该地随机抽取120名作为样本,测得身高的样本均数=154.82cm,,因存在变异,样本

2、均数往往总体均数。,若每次都从同一个总体中抽取120人的样本,共抽取n个样本,由于存在个体变异,得到的得各个样本均数也往往互不相等。,这种由抽样而造成的样本均数与总体均数之间的差异,或样本均数之间的差异,称为均数的抽样误差。抽样误差的分布是有规律的。,6,样本均数的抽样分布,假定某年某地所有13岁女学生身高服从 N(155.4,5.32)。在该总体中作100次随机抽样,ni = 30计算每份样本的均数:153.6, 153.1, 154.9,157.7;现将这100个样本均数看成新的随机变量编制频数分布表,100个样本平均值的频数分布图,8,从正态总体N(155.4,5.32)抽样得到的100

3、个样本均数的频数分布,100个样本平均数的频数分布图 (直方图),9,理论上可以证明:若从正态总体 中,反复多次随机抽取样本含量固定为n 的样本,那么这些样本均数 也服从正态分布,即 的总体均数仍为 ,样本均数的标准差为 。,抽样分布,抽样分布示意图,10,样本均数的抽样分布具有以下特点,各样本均数未必等于总体均数;样本均数之间存在差异;样本均数的分布很有规律,围绕着总体均数(155.4cm),中间多、两边少,左右基本对称,也服从正态分布; 样本均数的变异较原变量的变异缩小 。,11,数理统计的中心极限定理,从正态分布N(,2)中,以固定n抽取样本,样本均数的分布仍服从正态分布;即使是从偏态分

4、布总体抽样,只要n足够大(n 50),样本均数的分布也近似正态分布N(,2/n) ;样本均数的总体均数仍为,样本均数的标准差为 。,12,13,标准误 (standard error),标准误:用于表示均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。(区别于标准差)符号:计算:意义:说明均数抽样误差大小,14,标准误的用途:1、可用来衡量样本均数的可靠性。标准误小,样本均数抽样误差小,其对总体均数的代表性好。2、与样本均数结合,用于总体均数的可信区间估计;3、假设检验;,15,标准差与标准误的区别,16,第二节 t 分布,变量变换,总体,样本均数,中心极限定理,标

5、准正态分布,变量变换,未知,原因是是一个固定值,而S是随样本而变动,17,t 分布的由来,英国统计学家W.S.Gosset于1908年以“Student”笔名发表论文,证明在正态总体中抽样, 服 从自由度 = n 1的t分布,即 t 分布, = n 1 又称Student t分布(Students t-distribution)。t分布是总体均数的区间估计和假设检验的理论基础。,18,从13岁女学生身高这个正态总体中分别做样本量为n=3和n=50的随机抽样. 各抽取1000份样本,并分别得到1000个样本均数及与之对应的1000个标准误。对其分别作t变换,得到1000个t值。用t值绘制的直方图

6、。n=3的图形与n=50的图形比较有:左图的峰形高度较低,集中度较差,两边尾部延伸较散。,二、t分布的图形:,19,t 分布图形不是一条曲线,而是一簇曲线。,自由度分别为1、5、的t分布,20,t 分布图形的特征,单峰分布,以0为中心,左右对称。不同的n(或自由度=n-1)有不同的曲线。n(自由度)越小,t 值越分散,曲线越扁平,两侧越分散; 随着自由度 逐渐增大,t 分布逐渐逼近标准正态分布;当 趋于 时,t 分布就完全成为标准正态分布。,21,t,尾侧概率P=0.05,尾侧概率P=0.05,一般而言,t 分布的中央部分的面积小于标准正态分布的中央部分的面积。 t 分布的尾侧部分的面积大于标

7、准正态分布的尾侧部分的面积。,0,-t,+t,22,可见,t分布曲线下面积95%的界值不是一个常量,随自由度大小不同而变化,为应用方便,可查表得到相应的t界值。,23,分布的应用:应用于小样本情况下的统计学推论: 总体均数的可信区间估计; 两个平均值比较的假设检验。,三、总体平均值的可信区间估计总体平均值可信区间(confidence interval,CI)样本平均值 为统计量,总体平均值为参数;参数估计用样本统计量 估计总体参数。参数估计的方法:1.点(值)估计(point estimation):如用样本平均值估计总体平均值。方法简单,但未考虑抽样误差。2.用区间估计(interval

8、estimation):按一定的可信度估计未知总体平均值所在的范围。统计学上习惯用95(99)可信区间表示总体平均值有95% (99%)的可能性在某一范围内。,估计总体平均值可信区间的三种情况,下面以总体均数的95%可信区间为例,介绍其计算公式。,1. 已知:用正态分布规律估计总体平均值可信区间.,2. 未知,但n足够大:用正态分布规律估计总体平均值可信区间.,3. 未知,且n小:用t分布规律估计总体平均值可信区间,1. 已知: 用正态分布规律估计总体平均值可信区间由u分布可知,标准正态曲线下有95%的u值在 (-1.96,1.96) 之间,或(-1.96u0或者0或者规定为H1: u0.05

9、/2。应作出拒绝H0的决定。但这一决定是错误的。故又称为犯I类错误的概率。,(2) 选定检验方法,计算检验统计量,根据分析目的、设计方案和资料类型选用合适的检验方法,计算相应的统计量。设计方案有:1. 样本平均值与总体平均值比较。2. 两个样本平均值比较。3. 配对设计的两样本平均差值的比较。检验方法有:已知或虽未知,但n足够大:用基于标准正态分布规律的u检验,计算u值。2. 未知,且n小:用基于t分布规律的t检验,计算t值。例9-14的资料为:,属虽未知,但n足够大情况,用u检验(书中用t检验),(3) 确定P值,作出推断结论。 当很大时,t分布曲线趋近于标准正态分布曲线。u(=0.05)=

10、1.96, 11.161.96, P0.05. 在=0.05水准上拒绝H0, 接受H1。差别有统计学意义。可以认为该地健康成年男性的血红蛋白含量平均值低于一般正常成年男性的血红蛋白含量平均值。,这一统计学结论出现错误的概率为P50)。 检验的应用条件:未知,n较小;要求:样本来自正态分布总体; 两样本平均值比较时还要求两总体方差相等。,一、样本均数与总体均数的比较,比较的目的:推断样本所代表的未知总体平均值与已知总体平均值0有无差别。通常把理论值、标准值或经大量调查所获得的稳定值作为0。用检验还是检验:根据的大小和是否已知选用。1. 检验:用于已知,或未知但足够大时(n50)。,2. 检验:

11、用于未知且n较小时。,若,则P,不拒绝H0,差异无统计学意义;若,则P, 拒绝 H0,差异有统计学意义。,例9-15 已知某小样本中含CaCO3的真值是20.7mg/L.现用某法重复测定该小样本15次,结果为:,问:该法测得的均值与真值有无差别?(1)建立检验假设,确定检验水准。 H0:0。H1:0。=0.05(2) 选定检验方法,计算检验统计量。未知且n小,t-test.,(3) 确定P值,作出推断结论。 =15-1=14,查表9-9 t界值表,得t0.05/2(14)=2.1451.70.故P0.05,按=0.05水准不拒绝H0,尚不能认为该法测得的平均值与真值不同。(双侧尾部P(t=1.

12、70,)=0.1112),二、配对设计的差值平均值与总体平均值0的比较 1. 在医学科学研究中的配对设计主要有以下情况:自身比较:同一受试对象处理前后的比较;同一受试对象两个部位的数据;同一样品用两种方法(或仪器等)检验的结果;配对的两个受试对象分别接受两种处理后的数据;目的是推断两种处理(或方法)的结果有无差别。 解决这类问题时,首先求出各对差值(d)的平均值 。在理论上,若两种处理无差别,差值d的总体平均值d=0。故对于配对设计的两样本平均值比较来说,可将两个样本平均值的比较看成是两个样本中各对差值(d)的平均值 与总体平均值d=0的比较。,根据自由度和检验水准,查界值表。查表结果与算得的

13、统计量 t 的绝对值进行比较,若,则P,不拒绝H0,差异无统计学意义;若,则P,拒绝H0,差异有统计学意义。,2. 配对资料比较的 t 检验公式:,差值的平均值差值的标准差对子数差值的标准误,表9-10 用某药治疗高血压患者在治疗前后的舒张压(mm/Hg),(1)建立检验假设,确定检验水准:。 H0:d0。H1:d0。=0.05(2) 选定检验方法,计算检验统计量。配对t-test.,(3) 确定P值,作出推断结论。 =8-1=7,查表9-9 t界值表,得t0.05/2(7)=2.3654.02故P0.438, 故P0.05,按=0.05水准不拒绝H0,故不能认为正常新生儿血中甘油三脂浓度的平

14、均值有性别差异。(从表9-8得双侧尾部概率?P(-,-0.438)+ P(0.438,+) 0.660,0.3307,0.3307,P=0.6614,标准正态分布的双侧尾部概率: P(-,-u)+ P(u,+),-0.438,0.438,1.96,-1.96,0.025,0.025,2.检验公式用于两样本含量nl、n2较小时,且要求两总体方差相等。,根据自由度和检验水准查界值表;用算得的统计量,与()进行比较;若|,,则,不拒绝H0,差异无统计学意义, 若|,,则,拒绝H0,差异有统计学意义。,1,例9-18 两组雄性大鼠分别喂以高蛋白和低蛋白饲料,观察每只大鼠在实验第28天到84天之间所增加

15、的体重,见表9-11。问用不同饲料喂养的体重增加有无差别?,(1)建立检验假设,确定检验水准:。 H0:12H1:12,,=0.05(2) 选定检验方法,计算检验统计量。成组比较的 t-test.计算t值。,(3) 确定P值,作出推断结论。查表9-9 t界值表,得t0.05/2(17)=2.1101.891, 故P0.05,按=0.05水准不拒绝H0,尚不能认为两种饲料喂养的大鼠体重增加量有差别。,0.038,P=0.076,0.038,/2=0.025,/2=0.025,-2.110,2.110,-1.891,1.891,t()分布的双侧尾部概率: P(-,-t)+ P(t,+),附表9-9

16、 t界值表,本章主要内容的归纳,1.抽样研究时,由于变异的存在,抽样误差是不可避免的。反映均数抽样误差大小的指标是标准误。当未知时,标准误的理论值可以用标准误的估计值来代表。2.参数估计和假设检验是统计推断的两个重要内容。对于数值型资料,常用的参数估计方法是t分布和u分布,假设检验有检验、检验。决定于样本含量的大小。3. 根据不同的研究设计,假设检验的方法有三种: (1) 样本平均值与总体平均值参数的比较。 (2) 配对资料的平均差值的比较。 (3) 成组设计两样本平均值之间的比较。4. 进行假设检验时,对差异有无统计学意义的判断不能绝对。如P=0.55时,如何下统计学结论?5.假设检验的单侧

17、检验和双侧检验要根据专业作出选择。,|值与P值和统计推断结论,表8-3 算得的统计量|值与P值、统计推断结论间的关系 (0.05),注意:假设检验的结论是具有概率性的,无论是拒绝或不拒绝H0 ,都有可能发生错误。,练习题(380382)(一) 选择题:4,5,7,8.(二) 思考题:3,7. (三) 应用题:4,5,6,8,9。,例题:请选用合适的统计学方法进行分析,例1.已知某地婴儿的出生体重均数为3.20kg,一个产科医生随机调查25名难产儿,其平均体重为3.42kg,问?例2.某内科医生随机测量了25名健康人血中 脂旦白含量,均数为491.4 mg/100ml,标准差为138.5 mg/100ml;同时测量23名心肌梗塞病人血中 脂旦白含量,均数为672.3 mg/100ml,标准差为150.7 mg/100ml;问?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。