1、预 防 医 学,Preventive Medicine,预防医学教研室,2004.06,第十四章 数值变量的统计描述蔡泳,频数表的编制方法,1找全距:Range = Max Min2. 划分组段(1)确定组数:815组,一般取10组(2)确定组距:组距(i)= 全距 / 组段数(3)确定各组段的上下限:各组的起点为下限, 终点为上限。 要求:(1)第一组含最小值 (2)最后组含最大值3归纳计数:划计法4. 计算频率与累计频率,集中趋势,集中趋势: 表示数据的中心位置 。集中趋势的指标 : 平均数是一组统计指标,常用的有算术均数、几何均数及中位数等。,平均数,平均数 是表示一组同质计量资料的集中
2、趋势或平均水平的统计指标,是计量资料中非常重要的一个指标体系。医学研究中常用的平均数有算术均数、几何均数及中位数三种。这个平均数是广义的,而日常人们所说的平均数是狭义的算术均数。,(一)算术均数 ( mean),算术均数 简称均数。用于说明一组观测值的趋中位置或平均水平。 均数用于对称分布、正态或近似正态分布的资料。x表示变量X的样本均数,(希腊字母)表示总体均数。 常用的计算方法是直接法和加权法。,直接法,当样本含量较小时,可选用此法。有n个观察值,分别为X1,X2,Xn,均数的计算公式为: 式中,是求和的符号 。,例题,例 14-1 10名12岁男孩身高(cm)分别为125.5,126.0
3、,127.0,128.5,147.0,131.0,132.0,141.5.0,122.5,140.0。求平均数。,加权法,1.列出频数表 2.计算组中值 组中值X,计算方法是将本组下限和下组下限相加除以2。3.用加权法计算均数: 式中f为各组的频数,x为各组的组中值。,(二)几何均数(geometric mean),几何均数 适用于对数正态分布的资料,例如抗体的平均滴度和平均效价。几何均数用G表示。 例:5人的抗体滴度为:1:10,1:100,1:1000,1:10000,1:100000,直接法,直接法: 样本含量较小时,选用此法。有n个观察值X1,X2,Xn,几何均数的计算公式为:一般采用
4、对数形式计算:式中lg为取常用对数的符号,lg-1为反对数。,例题,6份血清抗体滴度为:1:2,1:4,1:8,1:8,1:16,1:32,求平均数。 几何平均滴度为1:8,加权法,加权法: 当样本含量较大时,可将资料整理成频数表,用下式计算:,例题,例1-4某地102名健康人的钩端螺旋体血清抗体滴度如表1-2,计算平均滴度。 102名健康人的钩端螺旋体血清滴度的几何平均滴度为1:464,表14-1 102名健康人的钩端螺旋体 血清抗体平均滴度的计算,(三)中位数(median),将一组观察值从小到大按顺序排列,位次居中的观察值就称中位数。 中位数适用于任何一种分布的计量数据,一般多用于描述偏
5、态分布或数据一端无界资料的集中趋势。中位数用M表示。,直接法,样本含量较小时,可根据下式计算: n为奇数时n为偶数时 上式中n为一组观察值的总个数, 、 及 均为下标,表示有序数列中观察值的位次。,频数表法,样本含量较大时用此法 L为本组(中位数所在组)下限,i为本组组距,f为本组频数,fL为上一组的累计频数。本组位置可根据累计频数的数值来判断。当某一组的累计频数首先超过n/2时或累计频率首先超过50%时,即定为本组。,例题,例1-6调查某地107名正常人尿铅含量(mg/L)结果列于下表,计算中位数: 本例,第3组的累计频数为65,超过n/253.5,即第3组为本组。,(四)百分位数(perc
6、entile),百分位数是一种位置指标,用PX表示。 百分位数是一个有序数列百等分的分割值。第50百分位数(P50)也就是中位数,中位数是一个特定的百分位数。 计算百分位数的计算公式为: 计算百分位数一般需计算累计频率(%),为各组段累计频数除以总例数n。,离散趋势的统计描述,计量数据的频数分布有两个重要特征:集中趋势和离散趋势。必须指出,要把两者结合起来才能全面地反映数据频数分布的基本特征。 例1-8两组计量数据如下,分析其分布特征。 甲组 98,99,100,101,102 乙组 80,90,100,110,120 描述离散趋势的常用指标有全距、四分位间距、方差和标准差等。,一、全距(ra
7、nge),亦称极差,用R表示,是一组观察值中最大值与最小值之差,反映个体差异的范围。全距大,说明变异度大;反之,说明变异度小。 如例1-8中甲组全距为4,乙组全距为40,表明乙组变异度大。 但全距易受个别数据的影响,稳定性较差,抽样误差较大,而且还受n大小的影响,一般n越大,全距越大。,二、四分位间距(inter-quartile range),四分位间距是两个特定的百分位数之差,即第75百分数P75(上四分位数QU)和第25百分位数P25(下四分位数QL)之差,用Q表示,适用于任何分布的计量资料,尤其适用于偏态分布的资料. 四分位间距比全距稳定,但仍然未考虑到每个观察值的变异。,QQUQL,
8、三、平均偏差与离均差平方和,平均偏差(mean difference) :每个观测值与均数之差的绝对值相加,然后取平均。离均差平方和:为了避免使用绝对值,采用取平方的方法。 离均差平方和=,四、方差(variance),为了消除观察值的总个数N的影响,将 除以N,这就是总体方差,用2表示。 对于样本资料,在对离均差平方和取平均时分母用n-1代替n。,五、标准差(standard deviation),方差的单位是原度量单位(如kg)的平方,把总体方差开平方,这就是总体标准差,度量单位与原始观察值一致,即 对于样本资料,样本标准差的计算公式为: 可改写为: 上式n-1称为自由度。,例题,例1-9
9、对例1-8的数据计算标准差 甲组:n=5,X98+99+100+101+102=500X2982+992+1002+1012+102250010,标准差应用,表示观察值的变异程度 在两组(或几组)均数相近、单位相同的条件下,标准差大,表示变量值的变异度大,均数的代表性较差;反之,标准差小,表示变量组变异度小,数据多集中在均数周围,则均数的代表性较好。计算变异系数 结合均数描述频数分布的特征和制定医学参考值范围。 计算标准误,六、变异系数(coefficient of variation),当单位不同时,均数相差较大时,用标准差就不适宜了,此时用变异系数更好。 变异系数是一种相对的离散程度指标,
10、它无单位,用CV表示,其计算公式为:,例题,例1-11 某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm,其体重均数为53.72kg,标准差为4.96kg。请比较何者变异度较大。 由于两者度量单位不同,不能直接比较标准差,而应比较变异系数。 身高 体重 结果表明该地20岁男子体重的变异大于身高的变异。,正态分布,正态分布的图形 图频数分布逐渐接近正态分布状态,正态分布的特点,正态分布是一种很重要的连续型分布。正态分布以均数为中心,左右两侧对称,靠近均数两侧的频数较多,而距均数两侧较远处,频数逐渐减少,形成钟形分布。正态曲线下的面积分布有一定的规律。,正态曲线下面积的分
11、布规律,曲线下横轴上的总面积为100%或1。 下面是应用较多的三个区间的面积分布规律。(1)正态分布区间(-,+)下的面积,即范围的面积占总面积为68.27%;(2)正态分布区间(-1.96,+1.96),即1.96范围的面积占总面积为95.00%;(3)正态分布区间(-2.58,+2.58),即2.58范围的面积为99.00%。(如图1-2),正态分布曲线下的面积,图1-2 正态分布曲线及其面积分布,正态分布的主要特征,1. 以均值为中心,左右对称。2. X取值范围理论上没有边界。X离越远,函数f(x)值越接近0,但不会等于0。3. 正态分布曲线下的面积分布有一定的规律。4. 正态分布完全由
12、参数和决定。 是位置参数(即平均水平),决定分布曲线在横轴的偏移位置。当 一定后, 增大,曲线右移; 反之减小,曲线左移。是变异参数,决定分布曲线的形态。 越大,曲线的形态越“矮胖”,表示数据分布越分散; 越小,曲线的形态越“瘦高”,表示数据分布越集中。,标准正态分布(standard normal distribution),标准正态分布:是均数为0、标准差为1的正态分布,即=0、=1 亦称u分布。u变换 :将均数为 ,标准差为的正态分布变换成标准正态分布。 u=(X-)/,正态分布的应用 医学参考值范围的估计,1正态分布法估计参考值范围公式为: 如制定95参考值范围,双侧界值u=1.96,
13、单侧界值u=1.645。 双侧界值:x1.96s 单侧上界:x+1.645s 单侧下界:x-1.645s,例题,例1-12某地调查正常成年男子144人的红细胞数近似正态分布,得均数5.38(1012/L),标准差s=0.44(1012/L),试估计该地成年男子红细胞数的95%参考值范围。 因红细胞数过多或过少均为异常,故按双侧估计95%界值。 下限为:x - 1.96s=5.38-1.96 0.44 =4.52 (1012/L)上限为:x + 1.96s=5.38+1.960.44 =6.24(1012/L) 故该地成年男子红细胞数的95%参考值范围(4.526.24)1012/L,2、百分位数法,用于描述偏态分布资料 。1)白细胞数的95参考值范围,因为白细胞数无论过高或过低均属异常,则分别计算P2.5和P97.5。这是双侧95参考值范围;2)又如确定肺活量的95%参考值范围,因为肺活量以过低为异常,应计算P5; 3) 再如确定尿铅的95%参考值范围,因为尿铅以过高为异常,应计算P95。肺活量、尿铅都是单侧参考值范围,