1、卫生统计学,第二章 定量资料的统计描述,关英辉沈阳何氏医学院管理系电话:13840064332 邮箱:,第二讲 频数分布图表、定量资料集中趋势的统计指标,Outline 主要内容,统计图表:频数分布表、频数分布图统计指标: 描述集中趋势的统计指标,回顾,什么是定量指标?统计分析包括哪两部分内容?统计描述统计推断,把握资料的基本特征 为统计推断打下基础,统计描述 -从资料中获取信息最基本的方法,例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L),数据如下:,乱七八糟的原始数据,一些 杂乱无章的拼图块,我们无法知道他们究竟是什么?,让我们动手把他们重新排列组合、整理一下
2、,乱七八糟的拼图块,原来如此,第一节 频数分布表、频数分布图,原因:由于个体变异的存在,医学研究中某些指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的分布。解决:频数分布表的基本思想将原始数据按一定的标准划分若干组,合计各组的频数,得到频数分布表,再将频数分布表绘制成频数分布图。,频数分布表(frequency distribution table),又称频数表一、 离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7,直条图(bar chart)横坐标:产前
3、检查次数;纵坐标:频率, 检查k次的妇女所占的比例(%)等宽矩形长条:高度相当于检查次数的频率,二、连续型定量变量的频数分布,例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L),数据如下:,连续型变量频数表(frequency table)的编制,求全距(range)R找出观察值中的最大值与最小值,其差值即为全距(或极差),用R表示。R=最大值-最小值2. 确定组段和组距根据样本含量的大小确定“组段”数,一般设8-15个组段;各组段的起点和终点分别称为下限和上限,组距。组距=R/预计的组段数列表确定组段界限,清点各组段内数据的例数(频数)列于表,直方图(频率直方图)
4、,横轴:血清铁含量纵轴:频率密度 = 频率/组距 面积 = 频率注:组距相等时,矩形直条的高度与相应组段的频率成正比。,图2-2 120例健康成年男子血清铁含量分布单峰、对称 - 对称分布,图2-3 某地居民238人发汞含量(mol/kg)分布单峰,不对称 - 偏峰分布正偏峰分布:峰偏向左侧负偏峰分布:峰偏向右侧,第二节 定量资料的统计描述,定量地描述集中趋势与离散趋势是统计描述的重要内容一、 描述集中趋势的统计指标对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。,1. 算术均数简称均数(mean,),适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为,n
5、:样本含量 X1,X2,Xn:观察值,或 :观察之和,例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 按式(2-1),算术均数为,2. 几何均数(geometric mean,G),适用于观察值变化范围跨越多个数量级的资料频数图一般呈正偏峰分布,例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几何均数。,3. 中位数(median,M),可用于各种分布的定量资料 总体中有一半个体的数值低
6、于这个数,一半个体的数值高于这个数。 基于样本资料 将n例数据按升序排列,第i个数据记为 n为奇数时 n为偶数时 例2-7 某药厂观察9只小鼠口服高山红景天醇提取物(RSAE)后在乏氧条件下的生存时间(分钟)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0。试求其中位数。,4、百分位数(percentile),总体中, 数值小于它的个体恰有X%,大于它的个体恰有1-X%样本估计:按照升序排列的数列里, 其左侧(即小于它)的个体数在整个样本中所占百分比为X%。,4. 众数(mode),总体中出现机会最高的数值。样本估计:在样本中出现次数最多的数值。例2-1 1998年某山区96名孕妇产前检查次数资料: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7 众数为4(次),定量资料集中趋势统计指标,课后作业与思考题:,作业:1、频数分布表的用途及其编制2、集中趋势指标的计算(书26页2、4)思考题1、集中趋势指标各自的适用条件 ?2、定量指标的离散趋势如何描述 ?,本讲结束,谢谢,