1、 医学统计学总结一.绪论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。2,医学统计学的主要内容:1) 统计研究设计 调查研究设计和实验研究设计2) 医学统计学的基本原理和方法 研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。3)医学多元统计方法 多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic 回归与 Cox 回归分析。3,统计
2、工作步骤:1) 设计 明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。2) 搜集材料A, 搜集材料的原则 及时、准确、完整B, 统计资料的来源 医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。C, 资料贮存3) 整理资料 a 检查核对 b 设计分组 c 拟定整理表 d 归表4) 分析资料 统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。变异(variation):同质基础上的各观察单位间的差异。变量(variable):收集资
3、料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。变量类型 变量值表现 实例 资料类型离散型 产前检查次数数值变量连续型定量测量值,有计量单位身高计量资料二分类 对立的两类属性 性别(男女)无序多分类 不相容的多类属性 血型(A,B,O,AB)计数资料分类变量 有序多分类 类间有程度差异的属性 受教育程度(小学,中学,高中,大学)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性样本(sample) 从总体中随机抽取部分观察单位,其
4、变量值的集合构成样本。样本必须具有代表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。统计量(statistics)描述样本变量值特征的指标( 样本率, 样本均数, 样本标准差)。 参数(parameter)描述总体变量值特征的指标( 总体率, 标准差, 总体均数)。抽样误差(sampling error):由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误差。随机事件(random event)对随机试验的各种可能结果的集合。概率(probability) 描述随机事件发生的可能性大些哦的一
5、个度量。小概率事件 若随机事件 A 的概率 P(A),习惯上,=0.05 时,就称 A 为小概率事件。其统计学意义是小概率事件在一次随机试验中认为不会发生。抽样误差1,抽样误差(sampling error) 由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造成的样本率与总体率之间的差异称为率的抽样误差。2,样本均数的标准差 (简称标准误,standard error) 反映均数的抽样误差大小的指标。 大,抽样误差大;反之, 小,抽样误差小。(3.1)实际工作中 往往未知的,可用样本标准差
6、 s 作 的估计值,计算标准误的估计值 。 (3.2)3,标准误的用途:a,衡量样本均数的可靠性;b,估计总体均数的置信区间;3,用于均数的假设检验。4,标准误的估计值 的用途:a,描述抽样误差的大小;b,总体参数的估计;c,用来进行假设检验。5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差。衡量率的抽样误差大小的指标是率的标准误 。 越小,率的抽样误差越小; 越大,率的抽样误差越大。(3.3)其中 为总体率。实际工作中,由于 往往是未知的,可用样本率 p 作 的估计值,计算率的标准误的估计值 。(3.4)。标准差(s) 标准误计算公式 s=(1)表示观察值的变异程度 (1)
7、估计均数的抽样误差的大小(2)计算变异系数 CV= 100%(2)估计总体均数的可信区间( , )(3)确定医学参考值范围 (3)进行假设检验(4)计算标准误简述标准差、标准误的区别与联系?区别:(1)含义不同:标准差 S 表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S 越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误 估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与 n 的关系不同: n 增大时,S 趋于 (恒定),标准误减少并趋于 0(不
8、存在抽样误差)。(3)用途不同:标准差表示 x 的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。标准差: 标准误:二.分布正态分布1,正态分布的函数其中 为总体均数, 为总体标准差, 为圆周率, 为自然对数的底,且仅 为变量。以 为横轴,以 为纵轴,当均数和标准差已知时即可绘出正态分布曲线。为应用方便,将式中 进行变量变换,使原来的正态分布变为 的标准正态分布,亦称 分布。 被称为标准正态变量或标准正态离差,将 代入上述公式即得标准正态分布的密度函数。(2.17)
9、(2.18)2,正态分布的特征 (1)正态曲线(normal curve)在横轴上方均数处最高。(2)正态分布以均数为中心,左右对称。(3)正态分布有 2 个参数(parameter),即均数 (位置)和标准差 (形状)。当 固定不变时,越大,曲线沿横轴越向右移动;反之, 越小,则曲线沿横轴越向左移动。当 固定不变时, 越大,曲线越平阔; 越小,曲线越尖峭。通常用 N( , )表示均数为 、方差为 的正态分布。用(0,1)表示标准正态分布。(4)正态分布在 1 处各有一个拐点。(5)正态曲线下面积的分布有一定规律。3,常用的两个区间: 1.96 及 2.58 的区间面积分别占总面积的 95%及
10、 99%。4,正态分布的应用1),制定医学参考值范围 a,正态分布法 适用于正态或近似正态分布的资料 双侧界值: ;单侧上界: ,或单侧下界: 。b,对数正态分布法 适用于对数正态分布资料 双侧界值: ;单侧上界:,或单侧下界c,百分位数法 常用于偏态分布资料及资料中一端或两端无确切数值的资料。双侧界值: 和;单侧上界: ,或单侧下界: 。2)正态分布是多种统计方法的理论基础 如 t 分布,F 分布, 分布都是在正态分布的基础上推导出来的, 分布也是以正态分布为基础的。另外 t 分布,二项分布,poisson 分布的极限为正态分布,一定条件下可按正态分布原理处理。t 分布1,t 分布: (3.
11、5)t 分布的特征为:1 以 0 为中心,左右对称的单峰分布。2 t 分布曲线形态变化与自由度的大小有关。自由度 越小,则 t 值越分散,曲线越低平;自由度 逐渐增大时,则 t 分布逐渐逼近正态分布(标准正态分布)。当 = 时,t 分布为 u 分布。t 界值表附图中非阴影部分面积的概率为:2,总体均数的估计:用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。总体均数的估计有 2 种方法。一是直接用统计量 估计总体参数 ,称为点值估计。由于抽样误差的存在,此法很难估计准确。二是区间估计(interval estimation)法。区间估计是按一定的概率 100(1- )% 估计总体均
12、数所在的范围,亦称可信区间(confidence interval,CI)。常取的可信度为 95%和 99%,即 95%可信区间和 99%可信区间。计算方法有 3 种:(1) 未知且 n 小 按 t 分布原理用式(3.6)计算可信区间。由于 将 代入,得则总体均数的 100(1- )%可信区间的通式为: (3.6)或写成 ( , )。(2) 未知,但 n 足够大时(n100) t 分布逼近 u 分布,按正态分布原理,用式(3.7)估计可信区间。( ) (3.7)(3) 已知 按正态分布原理,用式(3.8)估计可信区间。( )(3.8)标准正态分布(u 分布)与 t 分布有何异同?答:相同点:t
13、 分布和标准正态分布(u 分布)都是以 0 为中心的正态分布。标准正态分布是 t 分布的特例(自由度是无限大时)。不同点:t 分布为抽样分布,u 分布为理论分布;t 分布比标准正态分布的峰值低,且尾部翘得更高;t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t 分布有无数条曲线,而 u 分布只有唯一一条曲线。二项分布1,二项分布(binomial distribution)是对只具有 2 种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。二项分布概率公式: (3.9)式中 n 为独立的贝努力试验次数, 为成功的概率,(1- )为失败的概率,X 为在 n 次贝努力试
14、验中出现“成功”的次数, 表示在 n 次试验中出现 X 的各种组合数,在此称为二项系数(binomial coefficient)。2,二项分布的应用条件:(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。(2)已知发生某一结果(阳性)的概率为 ,其对立结果的概率为 1- ,实际工作中要求 是从大量观察中获得比较稳定的数值。(3)n 次试验在相同条件下进行,且各个观察单位的观察结果相互独立。3,二项分布的性质:A,二项分布的均数和标准差 在二项分布的资料中,当 和 n 已知时,它的均数 及其标准差 如下: =n (3.11) (3.12)若均数和标准差不用绝对数表示,而是用
15、率表示时,即对式(3.11)(3.12)分别除以 n,得: (3.13) (3.14)是样本率的标准误的理论值,当 未知时,常用样本率 p 作为 的估计值,则: (3.15)B,二项分布的累计概率 二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计 2 种方法。从阳性率为 的总体中随机抽取 n 个个体,则(1)最多有 k 例阳性的概率(3.16) (2)最少有 k 例阳性的概率 (3.17)D,二项分布的形状取决于 和 n 的大小:(1)当 =0.5 时,分布对称;当 0.5 时,分布呈负偏态,且固定 n 时, 越大,分布越偏。(2)对固定的 ,分布随
16、 n 的增大趋于对称。4,总体率的估计 总体率的估计也有点估计和区间估计,点估计是简单地用样本率来估计总体率;区间估计是求出总体率的可能范围。样本率的理论分布和样本含量 n、阳性率 p 的大小有关,所以需要根据 n 和 p 的大小不同,分别选用下列 2 种方法。(一)查表法 当样本含量 n 较小,如 n50,特别是 p 很接近于 0 或 1 时,按二项分布的原理估计总体率的可信区间。(二)正态近似法 当样本含量 n 足够大,且样本率 p 或 1-p 均不太小,如 np 与 n(1-p )均大于 5 时,样本率的 p 的抽样分布近似正态分布,总体率 的可信区间可按下列式(3.17)进行估计。(3
17、.17)Poisson 分布1,Poisson 分布 泊松分布是在 很小,样本含量 n 趋向于无穷大时,二项分布的极限形式。更多地用于研究单位时间、单位人群、单位空间内,某罕见事件发生的次数的分布。X=0,1,2 (3.19)式中 =n 为 Poisson 分布的总体均数,X 为单位时间或单位空间内某事件的发生数,e 为自然对数的底,约等于 2.71828。在实际运算中,P(X)亦可按式(3.20)作递推计算。 (3.20)2,Poisson 分布应用条件:A, 要求事件的发生是相互独立B, 发生的概率相等C, 结果是二分类3,Poisson 分布的性质:A, 该分布是一种单参数的离散型分布,
18、其参数为 ,它表示单位时间或空间内某件事平均发生的次数,又称强度参数。B, Poisson 分布的方差 和均数 相等,即 =C, Poisson 分布的累计概率 (1) 最多为 k 次的概率 (2) 最少为 k 次的概率 4,Poisson 分布的图形 已知 ,就可按公式计算得出 X=0,1,2, 时的 P(X)值,以 X 为横坐标,以 P(X)为纵坐标作图,即可会出 Poisson 分布的图形。值越小,分布越偏,随着 的增大,分布越趋于对称,当 =20 时,分布接近正态分布,当 =50时,可以认为 Poisson 分布呈正态分布 N( , )按正态分布处理。5,Poisson 分布具有可加性
19、6,总体参数的估计由样本均数(样本计数)X 估计总体均数 也有点(值)估计和区间估计,区间估计的方法,需视样本计数(样本均数)X 的大小而定,X 小时用查表法,X 大时用正态近似法。(一)查表法当样本计数 X 时,用 X 值查附表 poisson 分布 的可信区间,可得总体均数 的 95%或 99%可信区间。(二)正态近似法当样本计数 X50 时,可用正态近似原理下面公式求总体均数 的 95%或 99%可信区间 正态分布、二项式和泊松分布的关系:二项分布(binomial distribution):对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。Poisson 分布是在
20、很小,样本含量 n 趋于无穷大时,二项分布的极限形式。当 v=时,t分布即为 u 分布,趋向正态分布。可信区间与参考值范围的区别:意义、计算公式和用途均不同。(1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。而可信区间是指在百分之几十的可信度估计的总体参数的所在范围。(2)同样的百分之几十,参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。(3)从意义来看,95参考值范围是指同质总体内包括 95个体值的估计范围,而总体均数 95可信区间是指按 95可信度估计的总体均数的所在范围。(4)从计算公式看,若指标服从正态分布,95参考值范围的公式是: 1.96s。总体均数
21、95可信区间的公式是: 。前者用标准差,后者用标准误。前者用 1.96,后者用 为 0.05,自由度为 v 的 t 界值。(5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某项指标是否正常。简述检验假设与可信区间的联系与区别。答:(1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。(2)可信区间也可回答假设检验的问题。但可信区间不能提供确切的 P 值范围,只能给出在 水准上有无统计意义。(3)可信区间还可提示差别有无实际意义。统计图表1,绘制统计图的基本要求:A, 根据资料性质和分析目的据顶适当
22、图形。B, 标题应说明资料的内容、时间和地点,一般位于图的下方。C, 图的纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一般自左而右、自下而上、由小到大。D, 为使图形美观并便于比较,统计图的长宽比例一般为 7:5,有时为了说明问题也可以变动。E, 比较、说明不同的事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。2,常用统计图的适用条件与绘制1 条图(bar graph) 用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示它们之间的对比关系。2 圆图(pie graph) 圆形图适用于百分构成比资料,表示事物各组成部分所占的比重或构成。3 百分条图(percent
23、 bar) 意义及适用资料同圆图,也称构成条图。4 线图(line graph) 线图适用于连续性资料,以不同的线段升降来表示资料的变化,并可表明一事物随另一食物(时间)而变动的情况。5 直方图(histogram) 直方图用于表达连续性资料的频数分布。6 散点图(scatter diagram) 散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。常用在对资料进行相关分析之前适用。单变量资料一,数值变量 统计描述1,频数表的编制 求全距 定组段和组距 列频数表 画频数图2,频数分布的两个重要特征:集中趋势和离散趋势3,频数分布可以分为正态分布和偏态分布4,频数表的用途:揭示资料分布
24、类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和统计处理;便于发现某些特大或者特小的可疑值。5,集中趋势的描述:均数 几何均数 中位数 百分位数6,均数(mean):算术均数的简称。常用 = = 表示。7,中位数(median):一组由小到大按顺序排列的观察值中位次居中的数值,用 M 表示。可用于描述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。8,百分位数(percentile)是一种位置指标,用 表示。一个百分位数 P 将一组观察值分为两部分,理论上有 x%的观察值比它小,有(100-x)%的观察值比它大。可用于确定非正态分布资料的医学参考值范围
25、。9,离散趋势的描述:全距(range) 四分位数间距(quartile) 方差 标准差10,全距(range) 亦称极差,为一组同质观察值中最大值和最小值之差。反映个体差异的范围,优点是计算简单,缺点是:1)只考虑最大最小值之间的差异,不能反映组内其他观察值的变异度;2)样本含量相差悬殊时不宜用全距比较。11,四分位数间距(quartile) 上四分位数与下四分位数之差。常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。12,方差(variance)离均差的平方和表示。13,标准差(standard variance)的作用:a ,估计变量值的离散程度 b,计算变异系数 c
26、,与均数结合,估计变异值的频数分布范围 d,计算标准误(总体) s= (样本)14,变异系数(coefficient of variation) 常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。CV= 100%假设检验1,假设检验(hypothesis test)亦称显著性检验(significance test),其基本思想是先对总体的参数或分布做出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等;总体服从正态分布或两分布相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。2,假设检验的一般步骤:(1)建立假设和确定检验水准:根据实际情况确定单、双
27、侧检验,建立假设,确定检验水准;(2)选定检验方法和计算统计量:根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量;(3)确定 P 值并做出推断结论。若 tt,v,则 P,按检验水准,拒绝 H0,接受 H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义3,假设检验时应注意的事项:(1)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的,要保证组间的均衡性和资料的可比性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;(2)正确选择检验方法;根据现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的检验方法,如不符合条件可做适当转换;(3)正确理解“
28、差别无显著性”的含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析的指标在实际应用上就有“显著效果”。(4)检验假设的推断结论为概率结论,不能绝对化:检验水准人为规定,是相对的,报告结论时应列出检验统计量和 P 值的确切范围。(5)注意是单侧检验还是双侧检验I 型错误和 II 型错误:I 型错误(type I error)拒绝了实际上成立的 ,即样本原本来自 的总体,由于抽样的偶然性得到了较大的 t 值,所以拒绝了 ,接受了 ,这类弃真错误称为第一类错误,犯第一类错误的概率是 。II 型错误(type II error)是不拒绝实际上不成立的 ,即“存伪”即样本原本来自 的总体,
29、但是由于抽样的偶然性,得到了较小的 t 值,得到了较大的 P 值,没有拒绝 ,这类存伪错误称为第二类错误,犯第二类错误的概率是 1-正态性检验:用均数和标准差描述资料的分布特征,对例数 n 较小的样本进行 t 检验时,首先要求样本取自正态分布的总体。两个方差的齐性检验:两样本均数比较的 t 检验和多个样本均数比较的方差分析要求各样本所来自的总体方差相等。两样本方差的齐性检验:(4.12)式中 为较大的样本方差, 为较小的样本方差, 为分子的自由度, 为分母的自由度,相应的样本例数分别为 和 。当两总体方差齐同时,F 值一般不会离 1 太远;若算得的 F 值较大,大于我们规定的界值时,就认为两样本所在总体的方差不齐。t 检验t 检验:常用于总体标准差未知且样本含量较小时样本均数与总体均数的比较,成组设计的 两个小样本的均数的比较及配对设计的两样本均数的比较。t 检验的应用条件:a,n50 b,样本来自正态分布的总体 c,两样本均数比较时要求两样本总体方差相等。1,单样本 t 检验(one sample t-test):样本均数与已知总体均数比较,目的是推断样本所代表的未知总体均数 与已知总体均数 有无差别。( ) (4.1)