1、卫生统计学,1,本次串讲的说明,假设大家看完了教学光盘。主要讲解考试大纲的内容。按本科考试大纲讲解,专科学生可依据专科考试大纲跳过不考的内容。不会象教学光盘中讲解的那样详细和系统。同学们仔细看教学光盘中相关内容。期末考试题型: 客观题: 35道单选题,70分 主观题: 3道计算题,30分,2,【第一章】 基本概念,3,1、频率,在 n 次试验中,随机事件A发生了 m 次,则称 为事件A发生的频率。,例如:投一枚硬币算一次试验。共投了200次,事件A=“正面向上”发生了98次,则A发生的频率是:,另一个人投了300次,事件A=“正面向上”发生了156次,则A发生的频率是:,4,2、概率,频率的这
2、种稳定性,揭示出一个随机事件发生的可能性有一定大小可言:,频率稳定于较大的数值,表明该随机事件发生的可能性较大,频率稳定于较小的数值,表明该随机事件发生的可能性较小。,频率所接近的这个固定的的数值就是该随机事件发生可能性大小的一个客观的定量的度量,称为该随机事件的概率。,5,概率:在 n 次试验中,随机事件A发生了 m 次,当加大n时,事件A发生的频率逐渐稳定在一个固定的常数附近,这个固定的常数叫事件A的概率。记作:P(A)。,0P(A)1,在统计学上,习惯将 P0.05 或 P0.01 的事件称为小概率事件,表示该事件发生的可能性很小。 小概率事件: 在一次观察中,可以认为不会发生的事件。,
3、6,3、总体和个体,总体:一个统计问题所研究对象的全体。 个体:总体中的每一个单个成员。,例如:研究Haier29寸彩电的质量问题。例如:某次研究进行随机抽样,测量得到北京市100名健康成年男子的血清总胆固醇值,则研究总体为?,7,4、同质和变异,同质:总体中个体存在的共性。变异:总体中个体存在的差异。,没有同质性就构不成一个总体供人们研究,总体内没有差异就无需统计学。,8,5、样本,在一个总体中抽取的n个个体 叫总体的一个容量为n的样本。在一次抽取后,样本为具体的数值x1,x2,xn 。,统计学的任务就是由样本值来描述总体和推断总体。,9,6、抽样,从总体中抽取样本的过程叫抽样。,从总体中抽
4、取样本 , 一定要遵循科学原则。一般来说, 一个样本应具有代表性、随机性和可靠性, 二个样本之间应具有可比性。,10,(1)代表性,就是要求样本中的每一个个体必须符合总体的规定。这就要求对总体有一个明确的规定。这种规定是根据研究目的而具体确定的。,(2)随机性,就是要保证总体中的每个个体有相同的几率被抽作样本。重要的是要避免主客观的“偏性” 。,11,(3)可靠性,即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。由于个体之间存在差异,只有观察一定数量的个体方能体现出其客观规律性。如果根据少数几例就下结论,这种结论可靠性差,体现不了规律,可能被后人所否定。
5、每个样本的含量越多,可靠性就会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够”为准。究竟需要多少例数,它与所观察的指标的变异程度有关。,12,(4)可比性,如果进行两个或多个样本之间的比较,那么要求每二个样本之间应具有可比性 。可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外 , 其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。,临床试验中:要求两组性别、年龄、病情、病程等无差异;动物试验中:要求两组性别、月龄、体重、种别等无差异。对照组可以是空白组、安慰剂组、服用当前最好药物组。,13,6、资料类型,医学统计资料一般可分为计量资料和计数资料两大类
6、。不同的统计资料应采用不同的统计分析方法。,计量资料:是对每个观察对象的观察指标用定量方法测定其数值大小所得的资料,一般用度量衡单位表示。如:身高(cm)、体重(kg)、脉搏(次/分)、血红蛋白(g/L)等,14,计数资料:,15,等级分组资料 : 痊愈、显效、好转、无效; -、+、+、+; 优、良、中、差; 轻、中、重。,16,【第二章】 集中趋势的统计描述,17,第二节 描述集中趋势的统计指标,描述一组观察值集中位置或平均水平的统计指标。常用的有算术均数、中位数、众数、百分位数。,18,一、算术均数,算术均数(mean),简称均数 。,观察值是:,2,4,0,5,0,1,19,(三)均数的
7、应用,主要适用于对称分布或偏斜度不大的资料,尤其适合正态分布资料 。由于在计算均数时用到了每一个观察值 , 在偏态较大的情况下 , 算出的均值容易受到极大或极小值的影响 , 不能真正地反映分布的集中位置 , 这时应考虑改用其他方法。12,13,12,14,12,15,500。,20,三、中位数,中位数(median)是将n个观测值从小到大排列后,位置居于中间的那个数值。记为M。,当n为奇数时,中位数取位次居中的变量值。当n为偶数时,中位数取位次居中的两个变量值的均数。,例如:7名病人患某病的潜伏期(天)分别为2,3,5,6,7,9,15,则中位数M = 6(天)。例如:8名患者食物中毒的潜伏期
8、(小时)分别为1,2,2,3,5,6,8,15,则中位数M =(3+5)/2 = 4(小时)。,中位数适用于各种分布类型的资料,尤其是偏态分布资料。对于分布大致对称的资料,中位数接近于算术均数。,21,四、百分位数,百分位数(percentile),用PX表示 。,将n个观测值从小到大排列,这n个观测值中有X%的观测值比PX小,有(100X)%的变量值比PX大。,例如,第5百分位数 P5 的含义是:有5%个变量值比 P5 小,有95%个的变量值比 P5 大。,22,例如,第5百分位数 P5 的含义是: 有5%个变量值比 P5 小,有95%个的变量值比 P5 大。,23,五、众数,众数(mode
9、):在一组变量值中,出现次数最多的那个变量值即为众数。例如, 六个数据 1,5,4, 5, 7,3,8 的众数为 5。,24,六、均数、中位数、众数的比较,25,均数易受极端值影响数学性质优良适用于对称分布或接近对称分布资料中位数不受极端值影响适用于各种分布类型的资料,尤其是偏态分布资料众数不受极端值影响具有不惟一性适用于各种分布类型的资料,尤其是偏态分布资料,26,【第三章】 离散趋势的统计描述,27,第一节 描述离散趋势的统计指标,变异:总体中个体存在的差异。,甲组(kg):98,99,100,101,102。 乙组(kg):80,90,100,110,120。这两组数据的均数都是100k
10、g,但是两组的变异程度不同,或者说离散程度不同。,离散趋势的统计指标:描述一组变量值变异大小的指标。常用的有:,极差 四分位数间距 方差 标准差 变异系数,28,一、极差和四分位数间距,(一)极差,极差(range)又称全距 ,记为R。极差R一组观测值的最大值和最小值之差。反映个体差异的波动范围。若极差大,说明该资料的变异度大;若极差小,说明该资料的变异度小。,甲组:98,99,100,101,102(kg)。R=102-98=4(kg)乙组:80,90,100,110,120(kg)。R=120-80=40(kg),29,极差不能反映组内其它数据的变异程度。极差是度量这组观察值的离散趋势的最
11、粗略的指标。一般仅适用于初步判断、观察值很少时,或与其他指标共同使用。受两端极端数值的影响。 例如:1,23,22,22,20,21,23,158,30,(二)四分位数间距,四分位数是特定的百分位数。若将全部变量值从小到大排序,划分为四等分:,31,四分位数间距(quartile range)记为Q。四分位数间距是中间一半变量值的极差。Q值越大,说明变异越大;Q值越小,说明变异越小。不受两端极端值的影响。但仍未用到每一个具体的观察值。,32,二、方差和标准差,(一)方差,方差(variance),又叫均方差(mean of square)。方差记为S2,MS。观测值:x1,x2,xn 。,33
12、,甲组(kg):98,99,100,101,102。,34,甲组(kg):98,99,100,101,102。(S2=2.5 kg2)乙组(kg):80,90,100,110,120。(S2=250 kg2 ),反映一组变量值的的平均离散水平。方差越小,说明数据的变异越小;方差越大,说明数据的变异越大。,35,(三)标准差,标准差(standard deviation)。记为S,SD。观测值:x1,x2,xn 。,36,甲组(kg):98,99,100,101,102。(S2=2.5,S=1.581)乙组(kg):80,90,100,110,120。(S2=250,S=15.811),S越小,
13、说明数据的变异越小;S越大,说明数据的变异越大。,37,三、变异系数,变异系数(coefficient of variation),记为CV。,变异系数是相对数,没有单位,更便于资料间的比较。变异系数多用于下面两种情况变异程度的比较:1、观测指标单位不同时。如身高与体重的比较。2、均数相差较大时。如儿童身高和成人身高的比较。,计算公式:,38,例3.3 测得某地成年男子舒张压均数为77.5mmHg,标准差为10.7mmHg;收缩压均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。,舒张压,收缩压,两种指标的变异程度几乎没有什么差别。,39,第二节 正态分布,前
14、一章的例2.1某地用随机抽样方法检查了 140 名成年男子的红细胞数 。,40,正态分布的分布密度函数,即正态曲线的方程:,其中: 3.14159, e 2.71828。 、为参数。,X服从正态分布,记作:,例如:,41,5、正态分布曲线与X轴所夹面积 = 1。6、在土 1.96范围内约为 95%; 在土 2.58范围内约为 99%; 在土 1.65范围内约为 90% 。,42,标准正态分布,当=0、=1时:,43,第三节 医学参考值范围,医学参考值范围传统上称作正常值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。同属正常人也不能以某一个测量数据作为标准,而必
15、须确定一个波动范围。,一、医学参考值范围的概念,44,2、正态分布法,(1)如果某医学观测值过高或过低均属异常,则双侧95%参考值范围的下界值为 、上界值为 。,45,例 3.4 若己算得某地正常成年男子红细胞数的均数为 4.78 1012/L, 标准差为 0.38 1012/L, 试估计该地成年男子红细胞数的 95% 参考值范围。,正常成年男子的红细胞数近似服从正态分布 , 故可按正态分布法处理。又因红细胞数过多或过少均属异常 , 所以应计算双侧参考值范围。下限 :上限 :,46,47,(2)如果某医学观测值只以过低为异常,则单侧95%参考值范围的下界值为 。,48,(3)如果某医学观测值只以过高为异常,则单侧95%参考值范围的上界值为 。,49,