1、医学统计学,主 要 内 容,前言,医学研究资料的统计处理,统计表与统计图,医学统计资料的统计描述,统计是什么?What is Statistics?,若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。 Florence Nightingale 1820一1910,一、前言,Florence Nightingale,在她的时代,各医院的统计资料非常不准确。但是南丁格尔却有先知灼见,她认为医学上的统计资料,有助于改进医疗与护理的方法与措施,而最后可促进医学的进步。 1858年影响英国军队健康、效率以及医院行政的笔记。这本书被称为“有史以来写得最好的一本统计图表书籍”。,Flor
2、ence Nightingale,在书中,有一个章节是她所做的统计图表;她是以图表陈述统计数据的先驱者,也是首位发明圆饼图(Polar-area Charts,或称为Pie Charts),用来呈现统计数据比率的人。 1858年,她获选为英国统计学会的第一位女性会员,不久又成为美国统计学会的荣誉会员。,6,统计学是收集、分析、解释与呈现数据资料的一门科学。医学统计学 -是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。,什么是统计学?,天气预报,生活中的统计数据,数据处理的工具和技能,同质与变异变量与变量值参数与统计量总体和样本概率误差,
3、二、医学研究资料的统计处理,(一)常用基本概念,(一)常用基本概念,同质与变异 同质:被研究指标的影响因素相同 。 e.g.比较两种不同药物的降压效果。 在医学研究中,对被观测指标有影响的可控制的非实验因素达到相同或基本相同就可认为是同质。 同质性是构成研究总体的必备条件;研究内容不同,对同质性的要求不同;,制定血红蛋白参考值范围时:,制定白细胞参考值范围时:,同质与变异 变异(variation)是指在同质的基础上各观察单位(或个体)之间的差异。e.g.同为20岁健康男大学生,身高有高有矮、体重有重有轻,这种差异就是变异。,不可控因素作用下所产生的一种综合表现。 结果是随机的。个体变异是普遍
4、存在的。个体变异是有规律的。没有个体变异,就没有统计学!,(一)常用基本概念,变量及变量值 变量是指观察单位的某项特征或指标。e.g. 人的年龄、性别、身高、体重等。 变量值是变量的观察结果。e.g. 定性结果:男、女;已婚、未婚 定量结果:厘米、千克,(一)常用基本概念,(一)常用基本概念,总体和样本总体是根据研究目的确定的同质观察单位某种变量值的集合。 有限总体:调查某地成年女性红细胞数。 无限总体:调查A厂30岁成年女性红细胞数。样本是指在研究总体中随机抽出一部分个体进 行观察或测量,这些个体的测量值构成的集合。挪威统计学家凯尔(A.N.Kiaer),1895年提出抽样调查。,参数与统计
5、量 描述总体特征的有关指标,称为参数。未知的,固有的,不变的! 反映样本特性的有关指标,称为统计量。已知的,变化的,有误差的!,(一)常用基本概念,平均身高,总体,样本,平均身高,总体参数,样本统计量,概率又称机率。是描述事件发生可能性大小的一个度量,常用P来表示,取值范围为0P1。,(一)常用基本概念,1. 不可能事件:P=02. 必然事件:P=13. 随机事件:0 P1,随机机会均等随机抽样 有相同的机会被抽到随机分组 有相同的机会被分到不同的组中实验顺序随机 先后接受处理的机会相同,(一)常用基本概念,抛硬币试验在概率的统计学定义上的诠释,(一)常用基本概念,当观察次数n越来越大,频率f
6、的随机波动幅度越来越小,并最终趋向于一个常数:随机事件A发生的概率 。频率:用随机事件A发生表示观察到某个可能的结果,则在n次观察中,其中有m次随机事件A发生了,则称A发生的比例 为频率。显然有 。,(一)常用基本概念,小概率原理 当某事件发生的概率P0.05或P0.01时,统计学上称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。 小概率原理是进行统计推断的依据。,(一)常用基本概念,小概率原理,小概率事件在一次试验中认为是不会发生的。,误差指实际测量值与真实什之差。,(一)常用基本概念,1. 系统误差:P=0 可避免2. 随机测量误差
7、:P=1 不可避免,可控3. 抽样误差:0 P1 不可避免,不可控,1. 系统误差:P=0 可避免2. 随机测量误差:P=1 不可避免,可控3. 抽样误差:0 P1 不可避免,不可控,(一)常用基本概念,抽样误差指由抽样引起的样本统计量与 总体参数间的差别。原因:个体差异抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差是有规律的!,数值变量资料 分类变量资料,(二)医学统计资料的类型,无序多分类有序多分类(等级资料),二分类 多分类,二分类 多分类,无序多分类有序多分类(等级资料),无序多分类有序多分类(等级资料),二分类 多分类,无序多分类有序多分类(等级资料),数值变量
8、资料以定量方法表达每个观察单位的某项观察指标,又称定量资料或计量资料。 变量值是固定的,有度量衡单位:cm、kg、kPa特征 数据间有连续性:体重55kg60kg 统计描述指标有 统计推断方法:t检验、u检验、方差分析、相关回归,(二)医学统计资料的类型,集中趋势:平均数 离散趋势:标准差,分类变量资料将观察单位按某种属性来分类计数的资料,亦称定性或计数资料。 数据为整数,无度量衡单位特征 统计描述指标常用相对数:率、构成比、相对比 统计推断方法:u检验、X2检验分类,(二)医学统计资料的类型,二分类:有效、无效;阴性、阳性 多分类:血型: A、B 、O 、AB,无序多分类有序多分类:(等级资
9、料),治愈、好转、无效、死亡; 、,观察单位observations个体individuals,变量variables,Quantitative data 计量资料,Qualitative data 计数资料,Units;elements,三类资料间关系,例:一组2040岁成年人的血压,以12kPa为界分为正常与异常两组,统计每组例数,60,60平均存活天数?(一)中位数(median) 是将每个变量值从小到大排列,位置居于中间的那个变量值。,计算,公式: n为奇数时 n为偶数时,例2-3 9名中学生甲型肝炎的潜伏期分别为12,13,14, 14, 15, 15, 15, 17, 19天,求其
10、中位数。,频数表资料的中位数,下限值L,上限值U,i; fm,中位数M,例21频数表中位数的计算,Nf,中位数71+3x(130x50%59)/2671.69,应用,1、各种分布类型的资料2、特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。,百分位数示意图,(二)百分位数(percentile),1直接计算法,设有n个原始数据从小到大排列,第X百分位数的计算公式为:当 为带有小数位时: 当 为 整数时:,Trunc()取整函数,例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。,患 者:住院天数: (1)n=120,
11、 ,为整数:,(2) ,带有小数,故取整 trunc(118.8)= 118,患 者:住院天数:,2频数表法,公式:,当 时,公式(2-9)即为中位数的计算公式,例2-9 试分别求例21频数表的第25、第75百分位数。,P2565+3x(130x25%19)/1565.90P7574+3x(130x75%85)/1974.66,众数(mode),众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。例2-7 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,
12、62,62,试求众数。,众数(mode),众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。例2-7 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。,正态分布时: 均数中位数众数正偏态分布时:均数 中位数 众数负偏态分布时:均数 中位数 众数,设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3),甲得出了560、540、500、460、440,乙得出了520、510、500、490、480,丙得出了510、5
13、05、500、495、490,见下图2,三名医生的计数结果得到的均数均为500,5个数值之和均为2500。,第三节 离散趋势的描述,甲医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。,常用统计指标:极差、四分位数间距、方差、标准差和变异系数。,一、极差(Range) 极差,用R表示:即一组变量值最大值与最小值之差。 对于书中例2-1数据,有,简单,但仅利用了两端点值,稳定性差。,二、四分位数间距(quartile range),四分位数间距,用Q表示: Q=下四分位数: 上四分位数:,例21数据P2565+3x(130x25%19)/1565.9
14、0P7574+3x(130x75%85)/1974.66,三、方差与标准差,1. 方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。 总体方差 样本方差,离均差平方和SS,2、公式: 样本标准差用 表示 ,其度量单位与均数一致,所以最常用。公式:,离均差平方和SS,标准差的公式还可以写成 :利用频数表计算标准差的公式为,例2-11 对例2-1的前10个数据: 75,76,72,69,66,72,57,68,71,72, 用直接法计算标准差。,例2-12 利用表2-2中的数据和频数表法计算标准差。,Nf,fX,fX2,标准差的意义和用途
15、,说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差; .。 标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误(见第四章)结合均值与正态分布的规律,估计参考值的范围(见第五节)。,四、变异系数,变异系数(coefficient of variation,CV) 常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。,某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?,第四节 正态分布,正态曲线
16、(normal curve)的发现de Moivre(1667-1754),published in 1733Laplace(1749-1827)Gauss(1777-1855)正态分布: 又称高斯分布(Gaussian distribution),一、正态分布的概念和特征,1正态分布曲线的数学表达式(概率密度函数,probability density function,pdf ) ,,2正态分布的特征,正态曲线下面积分布有一定的规律,总面积=1。,累积面积可通过对概率密度函数f(X)积分求得,(累积)分布函数:,图2-7 正态曲线面积分布示意图,二、标准正态分布,见P404405,ZN(0
17、,1)2,例2-1的130名健康成年男子脉搏资料的均数、标准差分别为:71.32与5.80 (次/分);问在正态分布假定下,脉搏在6575(次/分)之间有多少人?,正态分布,标准正态分布,一、基本概念,第五节 医学参考值范围的制定,1.意义:医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。 由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准,但不是“金标准”。,2.单、双侧问题,常依据医学专业知识而定,双侧 :如:血清总胆固醇、血液白细胞数无论过低或过高均
18、属异常单侧上限 :如:血清转氨酶、 体内有毒物质过高异常(越低越好, P5 ),3. 有90%、95%、99% 等医学参考值范围,最常用的是95% 。计算医学参考值范围的常用方法: 1、正态分布法 2、百分位数法,二、正态分布法,公式:,单侧下限,单侧上限,Z,Z,Z,Z,单侧下限,单侧上限,例2-16 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的95%参考值范围。,表2-7 282名正常人尿汞值( )测量结果,单侧上限,(一)数值变量资料的统计描述,常用的相对数率构成比比相对数应用的注意事项率的标准化,调查得知:甲地区的小学生中流脑发病63例,乙地区的小学生中流脑发病35例。,是
19、否甲地区较为严重?,甲地区共有小学生50051人,乙地区共有小学生14338人,甲地区流脑发病率:乙地区流脑发病率:,1000=2.44,1000=1.26,相对数两个作用,第一,表示事物出现的频度。 第二,便于比较。,1 常用相对数(1),1.1 率(rate)、速率 说明某现象发生的频率与强度: (1000,或10万/10万,等),1 常用相对数(2),1.2 构成比(proportion) 说明某一事物内部各组成部分所占比例。,1 常用相对数(3),1.3 比(ratio) 说明A 是B的多少倍,或百分之几。,相对数的例子(1),表19931998年某地损伤与中毒病死率(%)与构成比(%),血型频数 (%) O205 40.43 A112 22.09 B150 29.59 AB 40 7.89合计507100.00,