1、,卫生统计学 主讲人 李宏革 卫生统计学教研室,第一章 绪论一.什么是统计学 ?二.什么是卫生统计学 ?三.统计学的基本概念。四.统计分析资料的基本类型。五.统计工作的基本步骤。,一.什么是统计学?统计学(statistics)是运用概率论和数理统计的原理、方法,研究数据资料的搜集、整理、分析和推断的一门学科 。理论基础:数理统计、概率论。目的:透过现象看本质。,统计学statistics,二.什么是卫生统计学 ?运用概率论和数理统计的原理、方法,结合公共卫生实际,研究数据资料的搜集、整理、分析和推断的一门学科 。,三.统计学的基本概念.变量:观察对象的某项特征定义为变量。变量的观测结果 变量
2、值。根据变量值的特征,变量分为:(1)数值变量 (2)分类变量,()数值变量(定量变量)变量值既有大小又有度量衡单位。 连续型数值变量:如身高、体重等 。 离散型数值变量:,()分类变量(定性变量)变量值表现为互不相容的类别或属性。根据类别或属性之间有无程度性差别,分类变量分为: 无序分类变量 有序分类变量,无序分类变量: 两分类变量 多分类变量,有序分类变量: 尿糖化验结果按、分类;疗效按治愈、显效、好转、无效分类。,连续型数值变量 数值变量 离散型数值变量变量 两分类变量 无序分类变量 分类变量 多分类变量 有序分类变量,()变量间的转化数值变量两分类变量有序分类变量 分类变量数值化,.同
3、质:根据研究目的,观察单位或个体对所研究指标有影响的非实验性因素相同。 如:调查皇姑区5岁男孩身高情况。.变异:同质基础之上个体被研究指标之间的差异。,.总体:根据研究目的所确定的同质观察单位全体。如:调查皇姑区5岁男孩身高情况。根据有无明确的时空,总体分为: (1)有限总体 (2)无限总体,统计学的任务:(1)了解事物或现象的总体情况。(2)了解事物或现象之间的关系。,.样本:按照随机化原则从总体中抽取部分个体组成的集合。样本容量样本的代表性,.参数:根据总体个体值计算出来的描述总体特征的指标称为参数。.统计量:根据样本个体值计算出来的描述样本特征的指标称为统计量。统计量参数?,.抽样误差:
4、由于个体变异的存在,在随机抽样的过程中,出现的统计量与参数、统计量间的差异称为抽样误差。9.概率: 某随机事件发生可能性大小的量。用P表示P0.05 或P0.01 小概率事件,四.统计分析资料的基本类型 1.数值变量资料(计量资料) 2.分类变量资料(计数资料 无序分类变量资料) 3.等级资料(半定量资料 有序分类变量资料),五.统计工作的基本步骤 1.设计 2.搜集资料 3.整理资料 4.分析资料,统计描述资料统计分析 参数估计 统计推断 假设检验,第二章 数值变量资料的统计描述,测得130名健康成年男子脉搏资料(次/分)如下:,(1)求极差(R):即最大值与最小值之差,又称为全距。R84
5、57 =27(次/分)(2)确定分组组数(n)、组距(i):n通常为1015组。组距=极差/组数,为方便计,组距为极差的十分之一, 再略加调整。 27/10=2.7 3 (3)确定组限(L):第一组的下限略小于最小值,最后一个组上限必须包含最大值。 56 59 80 8385(4) 划记计数:用划记法将所有数据归纳到各组,得到各组段的频数。,一.频数表的编制,130名健康成年男子脉搏(次/分)的频数分布表,二、频数分布图-直方图,三.描述集中趋势的指标-平均数平均数:描述一组同质观察值的平均水平,作为其代表值。 均数 几何均数平均数 中位数 众数 调和平均数,1. 均数(算术均数): 样本均数
6、, 总体均数 (1)适用条件:变量值呈对称分布,尤其呈正态或近似正态分布。,(2)计算:直接法:用于样本含量较少时,其公式为:加权法:用于频数表资料或样本中相同观察值较多时,其公式为:,130名健康成年男子脉搏(次/分)的频数分布表,测得130健康成年男子脉搏资料(次/分)如下:,130名健康成年男子脉搏(次/分)的频数分布表,2.几何均数(geometric mean)用G表示 (1)适用条件:变量值之间呈倍数或近似倍数关系;变量值呈对数正态分布,即数据经过对数变换后呈正态分布。,(2)计算:直接法:加权法:(3)注意事项:观察值中不能有0,因0不能取对数;一组观察值中不能同时有正或负值。,
7、测定10名伤寒病人血清 抗体滴度分别为1:4, 1:4, 1:4,1:4,1:4,1:16, 1:16,1:16,1:64, 1:128,求其平均抗体滴度。以其滴度的倒数为原变量值,代入公式有:,平均抗体滴度为: 1:11,69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。,3.中位数(median) 用M表示。(1)定义:一组由小到大按顺序排列的观察值中位次居中的数值。(2)适用条件:变量值呈非正态分布资料(对数正态分布除外);频数分布的一端或两端无确切数据的资料;总体分布不清楚的资料。,是否为对称分布?,是否为对称分布?,
8、115名正常成年女子血清转氨酶(mmol/L)含量分布,正偏态分布 :,101名正常人的血清肌红蛋白含量分布,负偏态分布:,(3)计算:直接法:n为奇数 ,n为偶数,例 9名中学生甲型肝炎的潜伏期分别为12,13,14, 14, 15, 15, 15, 17, 天,求其中位数。,19,频数表法:用于频数表资料。 百分位数(percentile)用Px表示。 中位数是一个特定的百分位数,即M=P50。Px计算公式:,Px,xmin,xmax,百分位数示意图,百分位数(percentile),频数表中位数的计算,中位数71+3x(130x50%59)/2671.69,试分别求频数表的第25、第75
9、百分位数。,P2565+3x(130x25%19)/1565.90P7574+3x(130x75%85)/1974.66,例:199名食物中毒患者潜伏期的M和PX的计算M=P50= =12+12/71(19950%-30)=23.75(小时),四.描述离散趋势的指标 极差(全距) 四分位数间距变异指标:方差 标准差 变异系数,1.极差(range,简记为R):同质观察值中最大值与最小值之差。用全距描述定量资料的变异度大小,虽然计算简单,但不足之处有:只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大。因此样本含量相差悬殊时
10、不宜用全距比较。,2四分位数间距(quartile,简记为Q):上四分位数QU(即P75)与下四分位数QL(即P25)之差。由于四分位数间距不受两端个别极大值或极小值的影响,因而四分位数间距较全距稳定,但仍未考虑全部观察值的变异度,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。,3方差(variance):2 s2离均差 :每个观察值X与总体均数的差值(X-)。离均差和:(X-)=0 离均差平方和:(X-)2 0 n-1称为自由度( degree of freedom)。,y,x,0,x1,x2,4标准差(standard deviation): s,直接法: 加权法:,
11、标准差的应用:(1)结合均数描述变量值的分布特征:XS。(2)计算标准误。(3)计算变异系数(CV)。,5. 变异系数(CV): 应用于两种情况:(1)比较度量单位不同;(2)均数相差悬殊的两组或多组资料的变 异度 。,某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.59kg,标准差为2.26kg,比较其变异度?,描述分布形态的统计指标1.偏度系数 SKEW2.峰度系数 KURT,例:,一.频数表(frequency table)的编制1.求全距(range):找出观察值中的最大值与最小值,其差值即为全距(或极差),用R表示。2.确定组数(n):一般设10-15
12、个组。3.确定组距(i): i=R/n 4.确定组限(L):第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下限与上限。5.列表划记:,某地110名8岁男孩身高(cm)的频数表,二.直方图 频 率 密 度 身高(cm),三.描述集中趋势的指标-平均数平均数:描述一组同质观察值的平均水平,处于中心位置的指标体系。 均数 几何均数平均数 中位数 众数 调和平均数,1. 均数(算术均数): 样本均数, 总体均数 (1)适用条件:变量值呈对称分布,尤其呈正态或近似正态分布。(2)计算:直接法:用于样本含量较少时,其公式为:加权法:用于频数表资料或样本中相同观察值较
13、多时,其公式为:,2.几何均数(geometric mean)用G表示 (1)适用条件:变量值呈对数正态分布,即数据经过对数变换后呈正态分布;呈等比级数资料,即观察值之间呈倍数或近似倍数变化。(2)计算:直接法:加权法:(3)注意事项:观察值中不能有0,因0不能取对数;一组观察值中不能同时有正或负值。,例3.6 测定10名伤寒病人血清 抗体滴度分别为1:4, 1:4, 1:4,1:4,1:4,1:16, 1:16,1:16,1:64, 1:128,求其平均抗体滴度。以其滴度的倒数为原变量值,代入公式有:,平均抗体滴度为: 1:11,例2-6 69例类风湿关节炎(RA)患者血清EBV-VCA-l
14、gG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。,3.中位数(median) 用M表示。(1)定义:一组由小到大按顺序排列的观察值中位次居中的数值。 在全部观察中,小于和大于中位数的观察值个数相等。 (2)适用条件:变量值呈非正态分布资料(对数正态分布除外);频数分布的一端或两端无确切数据的资料;总体分布不清楚的资料。(3)计算:直接法:将观察值由小到大排列 n为奇数 ,n为偶数,例 9名中学生甲型肝炎的潜伏期分别为12,13,14, 14, 15, 15, 15, 17, 天,求其中位数。,19,频数表法:用于频数表资料。 百分位数(percentile)用Px表示。 一个
15、百分位数Px将一组观察值分为两部分,理论上有X%的观察值比它小,有(100-X)%的观察值比它大,是一种位置指标。中位数是一个特定的百分位数,即M=P50。Px计算公式:首先要确定Px所在的组段。 如何确定,根据累计频数或累计频率。,百分位数示意图,百分位数(percentile),例:199名食物中毒患者潜伏期的M和PX的计算M=P50= =12+12/71(19950%-30)=23.75(小时),四.描述离散趋势的指标 全距 四分位数间距变异指标:方差 标准差 变异系数,1.全距(range,简记为R):亦称极差,是一组同质观察值中最大值与最小值之差。它反映了个体差异的范围,全距大,说明
16、变异度大;反之,全距小,说明变异度小。用全距描述定量资料的变异度大小,虽然计算简单,但不足之处有:只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大。因此样本含量相差悬殊时不宜用全距比较。,2四分位数间距(quartile,简记为Q):为上四分位数QU(即P75)与下四分位数QL(即P25)之差。四分位数间距可看成是中间50%观察值的极差,其数值越大,变异度越大,反之,变异度越小。由于四分位数间距不受两端个别极大值或极小值的影响,因而四分位数间距较全距稳定,但仍未考虑全部观察值的变异度,常用于描述偏态频数分布以及分布的一端
17、或两端无确切数值资料的离散程度。,3方差(variance):2 s2离均差 :每个观察值X与总体均数的差值(X-)。离均差和:(X-)=0 离均差平方和:(X-)2 0 n-1称为自由度( degree of freedom)。,4标准差(standard deviation): s,直接法: 加权法:,标准差的应用:(1)结合均数描述变量值的分布特征:XS。(2)计算标准误。(3)计算变异系数(CV)。,5. 变异系数(coefficient of variation,简记为CV): 应用于两种情况:(1)比较度量单位不同;(2)均数相差悬殊的两组或多组资料的变 异度 。,某地7岁男孩身高
18、的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?,第三章 分类变量资料的统计描述,一.频数表某地区1000人血型构成分布表 血型 例数 A 200 B 350 AB 150 O 300 合计 1000,二.相对数 率(rate) 构成比(proportion) 相对数 比(ratio) 动态数列,1.率(rate) P 率是一频度指标,用以反映某现象发生的频度或强度。常以百分率()、千分率()、万分率(1万)和十万分率(1十万)等表示,计算公式为:,2构成比(proportion) 说明某事物内部各组成部分所占的比重或比例。常以百分数表
19、示,计算公式为:,3比(ratio) 又称为相对比,比较两个指标时用以反映两个有关指标间数量上的比值,如A指标是B指标的若干倍,或A指标是B指标的百分之几,通常用倍数或分数表示。计算公式为:,4.动态数列绝对增长量发展速度增长速度平均发展速度平均增长速度,三.应用相对数的注意事项1计算相对数时分母过小。 2以构成比代替率。 3求几个相对数的平均数时,简单地将几个相对数相加后除以相对数的个数。 4忽视资料的可比性,各相对数直接相比较。 5抽样所得的样本相对数有抽样误差,相对数间的比较应做假设检验。,某工厂在职工健康状况报告中写道:“在946名工人中,患慢性病的有274人,其中女性219人,占80
20、%;男性55人,占20%;所以女性易患慢性病”,你认为是否正确?为什么?,四.率的标准化法1.为什么进行率的标准化?,Crude incidence rate of city A=28.96 Crude incidence rate of city B=35.03,Table Incidence rates of infectious diseases, children of two cities,2.率的标准化法的基本思想采用一个共同的构成标准,消除被比较的总体或样本各构成部分不同对平均率的影响。,3.率的标准化方法 直接法率的标准化方法 间接法,直接法:被比较的总体或样本各构成部分的率已
21、知。(1)确定构成标准:三种途径:选择有代表性的、较稳定的、数量较大的人群作为构成标准(如人口普查后的资料);将被比较的总体或样本各相应构成部分合并;选择其中容量大的总体或样本作为构成标准。,(2)计算预期发生数:N =NiPi(3)计算标准化率:P = N / Ni,Standardized incidence rate of city A = 793/24767 = 32.02 Standardized incidence rate of city B = 523/24767 = 21.12 ,4.标准化时应注意的问题(1)标准化率已不能反映率的实际水平。(2)选定的标准不同,所得的标准化
22、率也不 同,但结论是一致的。(3)两样本标准化率的比较也应作假设检验。(4)如果不计算标准化率,而分层比较率时,也可得出正确结论,但不能直接比较总体率的大小。(5)注意“交叉”的问题。,五.医学中常用的相对数指标,一.频数表二.相对数 率(rate) 构成比(proportion) 相对数 比(ratio) 动态数列,1.率(rate) P 率是一频度指标,用以反映某现象发生的频度或强度。常以百分率()、千分率()、万分率(1万)和十万分率(1十万)等表示,计算公式为:,2构成比(proportion) 说明某事物内部各组成部分所占的比重或比例。常以百分数表示,计算公式为:,3比(ratio)
23、 又称为相对比,比较两个指标时用以反映两个有关指标间数量上的比值,如A指标是B指标的若干倍,或A指标是B指标的百分之几,通常用倍数或分数表示。计算公式为:,4.动态数列绝对增长量发展速度增长速度平均发展速度平均增长速度,三.应用相对数时应注意的事项1计算相对数时分母过小。 2以构成比代替率。 3求几个相对数的平均数时,简单地将几个相对数相加后除以相对数的个数。 4忽视资料的可比性,各相对数直接相比较。 5如数值型变量一样,抽样所得的样本相对数也有抽样误差,因此相对数间的比较也应做假设检验。,某工厂在职工健康状况报告中写道:“在946名工人中,患慢性病的有274人,其中女性219人,占80%;男
24、性55人,占20%;所以女性易患慢性病”,你认为是否正确?为什么?,四.率的标准化法1.为什么进行率的标准化?,Crude incidence rate of city A=28.96; Crude incidence rate of city B=35.03 - Strange!?,Table Incidence rates of infectious diseases, children of two cities,2.率的标准化法的基本思想采用一个共同的构成标准,消除被比较的总体或样本各构成部分不同对平均率的影响。,3.率的标准化方法 直接法率的标准化方法 间接法,直接法条件:被比较的总
25、体或样本各构成部分的率已知。(1)确定构成标准:三种途径:人口普查后的资料;将被比较的总体或样本各相应构成部分合并;选择其中容量大的总体或样本作为构成标准。(2)计算预期发生数:N =NiPi(3)计算标准化率:P = N / Ni,Standardized incidence rate of city A = 793/24767 = 32.02 Standardized incidence rate of city B = 523/24767 = 21.12 ,间接法条件:被比较的总体或样本各构成部分的率未知。,4.标准化时应注意的问题,第四章 常用概率分布,二项分布(离散型随机变量概率分布
26、)1.二项实验(贝努里实验 Bernoulli实验)条件:(1)该实验由n次重复试验构成。(2)每次试验只有两个结果:一个成功,一个失败。(3)每次试验成功的概率都是,失败的概率自然是1-。(4)n次重复试验间是独立的,即各次试验结果间互不影响。n重二项试验成功数(X),称为二项分布随机变量。二项随机变量(X)的概率分布,称为二项分布。,2.二项分布概率函数XB(x;n,),例: 由经验得知某药治疗某病,治愈率为0.6,未愈率为0.4,现用该药治疗同种病人3位,求治愈人数对应的概率?,.二项分布的特征()二项分布的图形特征,()二项分布的特征数(期望值,方差) ()=n =n ()p= p=
27、sp=,4.二项分布的应用()概率估计()单侧累积概率(cumulative probability)计算最多有k例阳性的概率 最少有k例阳性的概率 其中,X=0,1,2,k,n。,Poisson分布 Poisson分布更多地专用于研究单位时间、单位人群、单位空间内,某罕见事件发生次数的分布。Poisson分布在很小,样本含量n 趋向于无穷大时,二项分布的极限形式。 Poisson分布发展成为描述小概率事件出现规律性的一种重要的离散型分布。,Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数例如:1. 放射性物质在单位时间内的放射次数;2. 在单位容积充分摇匀的水中的细菌数;3
28、. 野外单位空间中的某种昆虫数等。,.Poisson分布的概率函数X=0,1,2,3 XP(), .Poisson分布的特征() Poisson分布的图形特征,取不同值时的Poisson分布图,() Poisson分布的特征值()ar() ()() Poisson分布的可加性,. Poisson分布的应用()概率估计()单侧累积概率(cumulative probability)计算,一.二项分布(离散型随机变量概率分布)1.二项实验(贝努里实验 Bernoulli实验)条件:(1)该实验由n次重复试验构成。(2)每次试验只有两个结果:一个成功,一个失 败。(3)每次试验成功的概率都是,失败的
29、概率自 然是1-。(4)n次重复试验间是独立的,即各次试验结果间互不影响。n重试验成功数(X),称为二项随机变量。二项随机变量(X)的概率分布,称为二项分布。,例: 由经验得知某药治疗某病,治愈率为0.6,未治愈率为0.4,现用该药治疗同种病人3位,求治愈人数对应的概率?,2.二项分布概率函数XB(n,),.二项分布的特征()二项分布的图形特征,()二项分布的特征数(期望值,方差) ()=n =n ()p= p= sp=,4.二项分布的应用()概率估计()单侧累积概率(cumulative probability)计算最多有k例阳性的概率 最少有k例阳性的概率 其中,X=0,1,2,k,n。,
30、二.Poisson分布 Poisson分布更多地专用于研究单位时间、单位人群、单位空间内,某罕见事件发生次数的分布。Poisson分布在很小,样本含量n 趋向于无穷大时,二项分布的极限形式。 Poisson分布发展成为描述小概率事件出现规律性的一种重要的离散型分布。,Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数例如:1. 放射性物质在单位时间内的放射次数;2. 在单位容积充分摇匀的水中的细菌数;3. 野外单位空间中的某种昆虫数等。,.Poisson分布的概率函数X=0,1,2,3, .Poisson分布的特征() Poisson分布的图形特征,取不同值时的Poisson分
31、布图,() Poisson分布的特征值()ar() ()() Poisson分布的可加性,. Poisson分布的应用()概率估计()单侧累积概率(cumulative probability)计算,正态分布 (normal distribution),(CarlFriedrichGauss,17771855),一.正态分布对应的几何图形。,钟型曲线对应的f(x)-正态分布概率密度函数 定义域: -x100)时, u分布法。由t分布可知,当自由度越大,t分布越逼近u分布,此时t曲线下有95%的t值在1.96之间,即:P(-1.96t+1.96)=0.95P(-1.96 +1.96)=0.95 P( )=0.95 故总体均数的95%可信区间为: ( , ),(3)未知且n小时,t分布法。 某自由度的t曲线下有95%的t值在 之间,即: 故总体均数的95%可信区间为 ( , ),