1、第四章 定量资料的统计描述 4-1 第四章 定量资料的统计描述 【习题 解析 】 一、思考题 1. 均数、中位数、几何均数三者的相同点是都用于描述定量资料的集中趋势, 。不同点: 均数用于单峰对称分布,特别是正态分布或近似正态分布的资料; 几何均数用于 变量值间呈倍数关系的 偏态 分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料 ; 中位数用于不对称分布资料、两端无确切值的资料、分布不明确的资料。 2. 同一资料的标准差不一定小于均数。均数 描述的是一组同质定量变量的平均水平,而 标准差是描述单峰对称分布资料离散程度最常用的指标。标准差大 ,表示观察值之间变异大,即一组观察值的
2、分布较分散;标准差小,表示观察值之间变异小,即一组观察值的分布较集中。 若标准差远大于均数表明数据离散程度 较大,可能为偏态分布,此时应考虑改用其他指标来描述资料的集中趋势。 3. 极差、四分位数间距、标准差、变异系数四者的相同点是都用于描述资料的离散程度。不同点: 极差 可 用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度 ; 四分位数间距可用于 描述 偏态 分布资料、两端无确切值或分布不明确资料 的离散程度 ; 标准差用于 描述 正态分布或近似正态分布资料的离散程度; 变异系数用于比较 几组 计量单位不同 或均数相差 悬殊 的正态分布 资料的离散程度。 4. 正态分布
3、的特征: 正态曲线在横轴上方均数处最高; 正态分布以均数为中心,左右对称; 正态分布有两个参数,即位置参数 和形态参数 ; 正态曲线下的面积分布有一定的规律,正态曲线与横轴间的面积恒等于 1。曲线下区间 ( 2 .5 8 , 2 .5 8 ) 内的面积为 95.00%; 区间 ( 2 .5 8 , 2 .5 8 ) 内的面积为 99.00%。 5 通过大量调查证实符合正态分布的 变量 或近似正态分布的 变量 ,可按正态分布曲线下面积分布的规律制定医学参考值范围;服从对数正态分布的 变量 ,可对观察值取对数后按正态分布法算出医学参考值范围的对数值,然后求其 反对数即可; 对于经正态性检验不服从正
4、态分布的 变量 ,应 采 用百分位数法制定医学第四章 定量资料的统计描述 4-2 参考值范围。 二、案例 辨 析 题 统计描述时, 常见错误是对定量资料的描述 均采 用均数、标准差, 。 正确做法是根据资料分布类型和特点,计算相应的集中趋势指标和离散程度指标 。 本资料的血清总胆固醇的频数 分布图如下 : 图 4-1 血清甘油三酯 (TG)的频数分布 可见资料呈负偏态分布,不宜使用均数和标准差来描述其集中趋势和离散程度 , 而 应计算中位数和四分位数间距,计算结果为: 集中趋势指标1 5 0 1 5 0 122 ( 1 . 7/2 6 1 . 7 5 ) / 2 1 . 7 5 5XM X (
5、mmol/L) 离散程度指标 四分位数间距 = 7 5 2 5 2 .1 0 1 .3 4 0 .7 6PP (mmol/L) 三、 最佳 选择题 1. B 2. E 3. B 4. C 5. D 6. E 7. A 8. D 9. D 四、综合分析题 1. 解: 输出结果 频数第四章 定量资料的统计描述 4-3 图 4-4 尿总砷的频数分布图 由图 4-4可见 , 该资料集中位置偏向左侧,为正偏态分布 , 考虑作对数变换。 输出结果 图 4-5 尿总砷对数的频数分布图 由图可见 lgx分布近 似 对称,可认为燃煤型砷中毒患者尿总砷含量近似 服从对数正态分布。 (2) 燃煤型 砷中毒患者尿总砷
6、的含量近似 服从 对数正态分布,故应计算几何均数 。 输出 结果 频数频数第四章 定量资料的统计描述 4-4 D e s c r i p t i v e S t a t i s t i c s176 - 1 . 9 9 - . 2 4 - 1 . 1 8 3 1 . 3 9 6 8 5176l g xV a l id N ( l is t w i s e )N M in im u m M a x i mu m M e a nS t d .D e v i a t io n结果中的 Mean表示 尿 总 砷对数值的均数为 - 1.1831, 求其反对数,得到几何均数 0.0656(g/L)G 。
7、2. 解 : (1) 已知健康人的血清 TC 服从正态分布,故采用正态分布法制定 95%的参考值范围 。 下限: 1 . 9 6 4 . 8 4 1 . 9 6 0 . 9 6 2 . 9 6XS (mmol/L) 上限: 1 . 9 6 4 . 8 4 1 . 9 6 0 . 9 6 6 . 7 2XS (mmol/L) 该市 4555 岁健康男性居民 的 血清总 胆固醇的 95%参考值范围为 2.96 mmol/L6.72mmol/L。 (2) 4555 岁健康男性居民 的 血清总胆固醇 分布为 非标准正态分布,需作标准化变换 后,查表确定正态分布曲线下面积 。由于是大样本,可用样本均数和
8、样本标准差作为总体均数和总体标准差的点估计值。 11 3 . 2 5 4 . 8 4 1 . 6 60 . 9 6XZ 22 5 . 2 5 4 . 8 4 0 . 4 30 . 9 6XZ 查标准正态分布曲线下的面积表 (附表 2)得: 1( ) ( 1 . 6 6 ) 0 . 0 4 8 5Z 2( ) 1 ( 0 .4 3 ) 1 0 .3 3 3 6 0 .6 6 6 4Z 21( ) ( ) 0 .6 6 6 4 0 .0 4 8 5 0 .6 1 7 9 6 1 .7 9 %D Z Z 该市 4555 岁健康男性居民 中, 血清总胆固醇在 3.25mmol/L5.25mmol/L范
9、围内的比例 为 61.79%。 (3) 作标准化变 换 3 . 8 0 4 . 8 4 1 . 0 80 . 9 6XZ 第四章 定量资料的统计描述 4-5 查标准正态分布曲线下的面积表 (附表 2)得: ( ) ( 1 .0 8 ) 0 .1 4 0 1 1 4 .0 1 %Z 该市 4555 岁健康男性居民 中, 血清总胆固醇低于 3.80mmol/L 所占 的 比例为14.01%。 3. 解 : 输出结果 跟骨硬度指数 图 4-8 跟骨硬度指数的频数分布图 由图 4-8可见资料呈负偏态分布,因为跟骨硬度指数过高或过低均为异常,故应使用百分位数法 , 制定双侧 95%参考值范围。 输出结果
10、 Statistics SI N Valid 120 Missing 0 Percentiles 2.5 58.0167 97.5 143.6618 即 该地区 3035 岁健康女性的 SI 的 95%参考值范围 为 (58.02, 143.66)。 频数50 60 70 80 90 100 110 120 130 140 150 第四章 定量资料的统计描述 4-6 第五章 定性资料的统计描述 【 习题解析 】 一、 思考题 1 计算相对数应 时 有足够的观察单位数; 分析时不能以构成比代替率; 计算观察单位数不 等 的几个率 的 合计率或平均率时,不能简单地把各组率相加求其平均值而得,而应该
11、分别将分子和分母合计 ,再 求出合计率 或 平均率; 相对数的比较应注意其可比性,如果内部构成不同,应计算标准化率 ; 样本率或样本构成比的比较应作假设检验。 2. 率是指某现象实际发 生数与 某时间点或某时间段 可能发生 该 现象 的观察单位总数之比,用以说明 该 现象发生的频率或强度。 构成比 是指事物内部某一 组 成部分观察单位数与 同一 事物各 组 成部分 的 观察单位总数之比,以说明事物内部各 组成部分所占的比重 ,不能说明 某现象发生的频率或强度大小 。 两者在实际应用时容易混淆,要注意区别。 3. 如 对死亡率的年龄构成标准化, 当已知被标化组的年龄别死亡率时,宜采用直接法计算标
12、准化率;当不知道被标化组的年龄别死亡率,只有年龄别人口数和死亡总数时,可采用间接法。 4. 常用的动态数列分析指标有:绝对增长量、发展速度与增长速 度、平均发展速度与平均增长速度。绝对增长量是指事物现象在一定时期增长的绝对值;发展速度与增长速度都是相对比指标,用以说明事物现象在一定时期的速度变化;平均发展速度是指一定时期内各环比发展速度的平均值,用以说明事物在一定时期内逐年的平均发展程度;平均增长速度是说明事物在一定时期内逐年的平均增长程度。 5. 标准化 法的目的 是通过选择同一参照标准 , 消除混杂因素的影响 , 使算得的标准化率具有可比性 。但标准化率并不代表真 实 水平 , 选择 的
13、标准不同,计算出的标准化率也不相同。因此 , 标准化率 仅用 于相互间的比较 , 实际水平 应采用未标化率 来反映 。 样本的标准化率是样本指标, 亦 存在抽样误差,若要比较其代表的总体标准化率是否相同,需 作 假设检验。 注意标准化 方 法的选用 。 如对死亡率的年龄构成标准化,当已知 被标化组 的 年龄 别 死亡率时,宜采用直接法计算标准化率 。 但 当 被标化组各年龄 段 人口数太少,年龄别死亡率波动较大时,第四章 定量资料的统计描述 4-7 宜采用间接法。 各年龄组率若出现明显交叉, 或 呈 非平行变化趋势 时, 则不适合采用标准化法,宜分层比较各年龄组率。此外, 对于因其它条件不同,
14、而非内部构成不同引起的不可比性问题,标准化法难以解决。 二、案例辨析题 该结论不正确。因为 该医生所计算的指标 是构成比,只能说明 98 例 女性生殖器溃疡 患者中, 3 种病原体 感染所 占的比重,不能说明女性 3 种病原体 感染 发生的频率或强度 , 该医生 犯了以 构成比 代替 率 的错误 。 三、最佳选择题 1. B 2. A 3. D 4. E 5. D 6. D 7. C 8. C 9. B 四、 综合分析题 1. 解: 表 5-3 经常吸烟与慢性阻塞性肺病 (COPD)的 关系 分 组 调查人数 经常吸烟 经常 吸烟率 (%) 是 否 COPD 患者 356 231 125 64
15、.89 非 COPD 患者 479 183 296 38.20 COPD 患者的 经常 吸烟率: 231/356100%=64.89% 非 COPD 患者 经常 吸烟率: 183/479100%=38.20% COPD 患者的 经常 吸烟率比非 COPD 患者高 26.69% 2 3 1 2 9 6= 2 . 9 8 91 2 5 1 8 3OR比 值 比 () 还 需 进一步对 OR 作 假设检验 (见第十一章 ),若经检验有统计学意义,可以认为经常吸烟与慢性阻塞性肺病 (COPD)有一定的关系。 输出结果 第四章 定量资料的统计描述 4-8 分组 * 吸烟情况 C r o s s t a
16、b u l a t i o nC o u n t296 183 479125 231 356421 414 835非 C O P D 患者C O P D 患者分组T o t a l不吸烟 吸烟吸烟情况T o t a lR i s k E s t i m a t e2 . 9 8 9 2 . 2 4 7 3 . 9 7 61 . 7 6 0 1 . 5 0 3 2 . 0 6 1. 5 8 9 . 5 1 3 . 6 7 5835O d d s R a t i o f o r 分组 ( 非 C O P D 患者 / C O P D 患者 )F o r c o h o r t 吸烟情况 = 非经常
17、吸烟F o r c o h o r t 吸烟情况 = 经常吸烟N o f V a li d C a s e sV a l u e L o w e r U p p e r9 5 % C o n f i d e n c e In t e r v a l2. 解: 表 5-4 某地居民 19982004 年 某 病死亡率 (1/10 万 )动态变化 年份 符号 死亡率 绝对增长量 发展速度 增长速度 累计 逐年 定基 比 环比 定基 比 环比 1998 a0 160.5 1999 a1 144.2 -16.3 -16.3 0.90 0.90 -0.10 -0.10 2000 a2 130.0 -30
18、.5 -14.2 0.81 0.90 -0.19 -0.10 2001 a3 120.2 -40.3 -9.8 0.75 0.92 -0.25 -0.08 2002 a4 85.6 -74.9 -34.6 0.53 0.71 -0.47 -0.29 2003 a5 69.5 -91.0 -16.1 0.43 0.81 -0.57 -0.19 2004 a6 38.5 -122.0 -31.0 0.24 0.55 -0.76 -0.45 该 病死亡率的平均发展速度 60= / 3 8 . 5 / 1 6 0 . 5 0 . 7 9n naa 该 病死亡率的平均增长速度 = 1 = 0 . 7 9
19、 1 = 0 . 2 1 平 均 发 展 速 度 3. 解:因为 该地 男、女性的年龄构成有所不同,为了消除年龄构成的不同对HBsAg阳性 率的影响, 应 先进行标准化再进行比较。根据本题资料,以男、女合计为标准人口, 已知 被标化组的年龄别 阳性 率 , 采用直接法 计算 标准化 阳性率 。 表 5-5 直接法计算 某地不同年龄、性别人群的 HBsAg 标准化 阳性 率 (%) 年龄组 标准 人口 数 男性 女性 第四章 定量资料的统计描述 4-9 iN 原 阳性率 ip 预期 阳性 数iiNp 原 阳性率 ip 预期 阳性 数 iiNp 0 1081 2.30 24.90 2.32 25.
20、09 20 1473 2.71 39.97 2.72 40.02 40 1546 6.06 93.63 6.46 99.86 60 1408 7.52 105.85 8.60 121.04 合 计 5508(N) 5.11 264 ( iiNp ) 4.86 286( iiNp ) 男性 HBsAg标准化 阳性 率: 264 1 0 0 % 4 .7 9 %5508p 女性 HBsAg标准化 阳性 率: 286 1 0 0 % 5 .1 9 %5508p 可见 ,经标准化后女性 HBsAg阳性 率高于男性。 输出结果 D e s c r i p t i v e S t a t is t ic
21、s4 5 5 0 8 .0 04 2 6 4 . 3 54 2 8 6 . 0 14sps p 1s p 2V a l id N ( l is tw i s e )N S u m注:将 SPSS 输出的 sp1 的和除以 sp 的和,得男性 HBsAg 标准化 阳性 率; sp2的和除以 sp 的和 , 得女性 HBsAg标准化 阳性 率。 第六章 总体均数的估计 【习题解析】 一、思考题 1 抽样研究中,由于同质总体中的个体间存在差异 , 即个体变异,因而从同一总体中随机抽取若干样本,样本均数往往不等于总体均数,且各样本均数之间也存在差异。这种由个体变异产生的 、 随机抽样引起的样本 均数
22、与总体 均 数间的差异称 均数的 抽样误差 。决定 均数 抽样误差大小的因素主要为样本含量和标准差。 2 样本均数的抽样分布 的 特点 有 : 各样本均数未必等于总体均数 ; 样本均数之间存在差异 ; 样本均数 服从 正态分布; 样本均数的变异范围较原变量的变异范围小 ; 随着样本含量的增加,样本均数的变异范围逐渐缩小 。 第四章 定量资料的统计描述 4-10 3 标准差 与 标准误 的 区别在于 : 计算公式 : 标准差 为 2()1XXS n , 标准误 为X SS n; 统计学意义: 标准差越小, 说明 个体值相对越集中,均数对数据的代表性越好 ;而 标准误越小, 说明 样本均数的分布越
23、集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大 ;用途: 标准差 用于 描述个体值的变异程度 , 标准误 用于 描述均数的抽样误差 大小 。 标准差 与 标准误 的 联系:当样本量 n 一定时,标准误随标准差的 增加而增加,公式为:nSSX 。 4 数理统计的中心极限定理:从均数为 ,标准差为 的正态总体中进行独立随机抽样,其样本均数服从均数为 ,标准差为 n/ 的正态分布;即使是从非正态总体中进行独立随 机抽样,当样本含量逐渐增加时 )50( n ,其样本均数的分布逐渐逼近于均数为 ,标准差为 n/ 的正态分布。 X 越大,抽样误差越大,由样本均数估计总
24、体均数的可靠性越小。反之, X 越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。 计算总体均数置信区间的通式为 : ),( ,2/,2/ XX StXStX ;当样本含量较大时, 例如 100n , t 分布近似标准正态分布,可用 Z 值代替 t 值,作为置信区间的近似计算 , 相应的置信度为 (1 ) 时,总体均数的置信区间为:),( 2/2/ XX SZXSZX 。 5 置信区 间 与医学参考值范围的区别见表 6-1。 表 6-1 均数的置信区间与医学参考值范围的区别 区 别 均数的置信区间 医学参考值范围 意义 按一定的置信度 ( 1 )估计 的 总体均数 所在的 区间范围 大多数 “正常人 ”的某项解剖、生理、生化指标的波动范围 计算 公式 未知: ( XX StXStX ,2/,2/ , ) 未知而 n 较大: ( XX SZXSZX 2/2/ , ) 已知: ( XX ZXZX 2/2/ , ) 正态分 布法: 双侧 95%的参考值范围为 ( SXSX 96.1,96.1 ) 偏态分布法: 单侧下限 95%的参考值范围为 5P