1、医学统计学 重点 (2005 级 六年制) copyright vivian.cat1Chapter 基本概念显著性检验(test of significance):计算 P 值医学统计工作的内容:1、实验设计:最关键最重要2、收集资料:最基础原始资料:实验数据现场调查资料医疗卫生工作记录报表 报告卡质量控制 精度和偏倚3、整理资料(1) 资料的逻辑检查(坏数)(2) 一致性检查(3) 原始数据加工:频数分布表4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断统计描述类型的选择:集中趋势 离散趋势对称、正态 , xS!对数正态 G S lgX偏态及其他 M Q,R单位不同或均数差别
2、大 CV医学统计的资料类型:计量资料、计数资料、等级分组资料医学统计学的对象:有变异的事物总体和样本:总体(population)的特性: 同质性、大量性、差异性。抽样的要求:代表性、随机性、可靠性、可比性。样本的三性:代表性、随机性、可靠性。可靠性(reliability):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。两样本间具有:可比性。误差的类别:1、系统误差(system error):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。2、随机测量误差(ran
3、dom measurement error): 在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。3、抽样误差(sampling error):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:。|-X概率(probability):P(A)小概率事件:P0.05(有统计学意义)或P0.01 (有高度统计学意义) 。Chapter 集中趋势的统计描述手工整理资料频数表(frequency table)的步骤:1、求极差(全距)2、确定组数、组距参考组距=全距 / 组数3、确定组段抽样总体 样本参数 统计量推断医
4、学统计学 重点 (2005 级 六年制) copyright vivian.cat24、手工编制划记表直方图(histogram):高度:各组的频数 纵轴宽度:组距 横轴表示组限均数(average):适用:对称分布或偏度不大的资料,尤其适合正态分布。1、算术均数(mean): nX2、加权均数: f3、几何均数:,n XlglG1M1lfl中位数(median):观察值按照从小到大排列时,居中心位置的数值。适用于 1、分布明显成偏态时,2 、频数分布的一端或两端无确切数值时。不便于统计计算。 if n5.0LMML!M:中位数;L M:M 所在组的上限;f L:M 所在组之前积累的频数;f
5、M:M 所在组的频数;i:组距。百分位数(percentile):Px。在一组中找到这样一个数值 P,全部观察值的 x%小于 P。P 75、P 25描述资料离散程度。 if x%nLLxX!众数:一组观察值中,出现频率最高的那个观察值。若为分组资料,则为频率最高组的组中值。适用于大样本,但粗糙。Chapter 离散程度的统计描述离散的表述指标:1、按间距计算:极差、四分位数间距2、按平均差距:离均差平方和、方差、标准差、变异系数极差(range ,R):即全距。粗略。适用于任何分布。四分位数间距(quartile,Q): 一组观察值按大小排序后,分成四个数目相等的段落,每个段落观察值的数目占总
6、例数的 25%。去掉两端含有极端数值的 25%,取中间的 50%的观察值的数据范围即为。越大则数据变异越大。适用于偏态分布。Q=P75 - P25离均差平方和(sum of square of deviation):nXX-S222!方差(variance):样本方差 1-22!总体方差 NXS22!标准差(standard deviations):2适用于近似正态分布。p.s.1、可用于合并资料的直接计算2、与均数结合可以完整概括一个正态分布。医学统计学 重点 (2005 级 六年制) copyright vivian.cat3变异系数(CV):用于均属相差交大或单位不同的几组数据观察值的比
7、较。CV= %10XS正态分布(normal distribution):1、正偏态分布:高峰向左,长尾向右负偏态分布:高峰向右,长尾向左。2、 和 是正态分布总体的两个参数,对应样本统计量中的 S 和 X。实际应用中 和 通常未知,可以将 S 和 X 作为总体参数的估计量使用。注意对比: 1-n2!N2!2、 是位置参数, 是变异参数。描述方法:N(, 2)3、曲线下面积的意义:X 1X2 出现的概率。 68.3%1.96 (单侧 1.645) 95%2.58(单侧 2.33) 99%标准正态分布(standard):是 =0,=1 的正态分布。对于任何参数为 、 的正态分布,都可以通过变量
8、变换转化成标准正态分布: 。-xu医学参考值范围(reference value range)的制定方法:1、选择足够数量的正常人作为参照样本2、对选定的参照样本进行准确的测定3、决定取单侧范围还是双侧范围值4、选择适当的百分范围5、估计参考值范围的界限Chapter 抽样误差与可信区间中心极限定理:在样本含量很大的情况下(n 50) ,无论样本测量量(X )服从什么分布,样本均数 的抽样分布都近似服从以 为均数的正态分布 N( , 2/n)标准误(standard error):样本均数 之间变X异的标准差。 nX实际工作中总体标准差 未知, ,用样本的标准差 S 代替: X标准差与标准误的
9、区别:标准差 标准误含义 描述观察值的变异程度的大小的指标描述样本均数的抽样误差大小的指标公式 1-nXS2!(nX)意义 标准差较小,表示观察值围绕均数波动较小,说明样本均数代表性好小,表明样本均数围绕总体均数的波动较小,说明样本均数可靠性好应用 1、表示观察值变异程度2、结合样本均数描述正态分布资料特征,确定医学参考值范围1、估计样本均数抽样可靠程度2、估计总体均数的可信区间医学统计学 重点 (2005 级 六年制) copyright vivian.cat43、计算标准误4、计算 CV3、进行假设检验n 趋于稳定() 逐渐减小标准误(公式)的意义:1、与标准差的联系:在样本含量一定的情况
10、下,标准误与标准差成正比。(1) 当观察值的变异(标准差)较小时,样本均数之间的抽样误差较小,抽到的样本均数与总体均属可能相差较小,用 估计 的可靠性较好X(2) 当观察值的变异较大时,样本均数之间的抽样误差较大,抽到的样本均数与总体均属可能相差较大,用 估计 的可靠性较差。2、与样本含量的关系:与其平方根成反比,说明在同一总体中随机抽样,样本含量越大,标准误越小。3、标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。参数估计(parameter estimation):指偶那个过样本参数估计总体参数,是统计推断的重要内容之一。常用方法有点估计、区间估计。点估计(point
11、):使用单一数值直接作为总体参数的估计值。适用于各种资料。区间估计(interval ):按照预先给定的概率计算出一个区间,使它能够包含总体参数。给定的概率(1- )称为可信度。计算得到的区间称为可信区间(confidence interval, CI)可信区间通常包括两个数值界定的可信限(confidence limit) ,分别为上限、下限。总体均数估计的 95%可信区间表示:该区间有95%的概率包含总体均数 。注意不可以说“总体均数有 95%的概率落在这个区间里” 。可信区间估计效果的比较:1、 (1-)越接近 1 越好,概率 2、区间宽度越窄越好,精确度但两者是矛盾的。一般选择(1-)
12、=95%。t 分布(t distribution):是以 0 为中心的对称分布;当 时,t 分布的极限分布就是标准正态分布。在正态分布的总体中进行抽样,服从自由度 的 t 分布。n/S-x1nt 的大小与 、自由度有关。可信区间的计算:,XS,2/t! !XS,2/t若 n50,则 t 分布接近标准正态分布,则简化,X2/u! !X2/u若 已知,则可简化为,X2/! !X2/,96.1u05.58.01.Chapter 假设检验假设检验(hypothesis test):目的:比较总体参数有无差别基本思想:首先对所需比较的总体提出一个无差别的假设,然后通过样本数据推断是否拒绝这一假设。基本方
13、法:反证法和小概率事件。基本步骤:1、建立假设和确定检验水准无效假设(null hypothesis):H 0:= 0(或d=0) ,总体均数无差别。备择假设(alternative ):H 0: 0(或d 0) ,总体均数有差别假设有单侧和双侧两种。应用单侧检验一定要医学统计学 重点 (2005 级 六年制) copyright vivian.cat5有过硬的专业知识。一般选用双侧检验,因为双侧检验得出有显著差别的结论,单侧检验结论也一定是显著差别;然而反之不亦然。检验水准亦称显著性水准(significance level) ,用 表示,是预先设定的拒绝域的概率值。一般取0.05。2、选择
14、检验方法和计算检验统计量t 来自正态分布(或近似)的小样本(n,样本数据差异不显著,无统计学意义,根据现有样本不足以拒绝 H0(不等于接受 H0) 。单样本的 t 检验:条件:, ,S,nX1、H 0: =0 ,=0.05,双侧检验2、t= ,/-x13、 ,2/t配对样本 t 检验:条件:n,指标 1、指标 2(d,d,d 2)1、H 0: d=0,=0.052、t= nSd/3、 ,2/t成组设计实验的两样本均数比较条件:n1 ,n2, 1, 2,S1,S2X1、H 0: 1=2 ,2、u= 21/Sn3、 ,96.u05.58.01.F 检验:条件:表格略1、H 0:各组总体均数相同,H
15、1:各组总体均数不全相同2、 ,ETRETRSMF/vTR=k-1,v E=n-k3、F 符合自由度为(k-1,n-k)的 F 分布。F 值接近 1,则可认为均值只来源于随机波动。若 F1,且 FF,(k-1,n-k) ,则 P,。医学统计学 重点 (2005 级 六年制) copyright vivian.cat6假设检验中的两类错误:1、第一类错误:当 H0 为真时,拒绝 H0 接受H1。又称假阳性错误(阳性指两者总体参数有差异) 。检验水准 是预先规定的犯第一类错误的概率的最大值。2、第二类错误:当 H0 为假时,不拒绝 H0。又称假阴性错误。概率大小用 表示,只取单侧,一般未知。可证,
16、 越大 越小, 越小 越越大。若要同时减少第一类错误和第二类错误,唯一方法是增大样本含量。医学统计学 重点 (2005 级 六年制) copyright vivian.cat7简单四格表的 检验:2有效 无效 合计药物 1 a b a+b=n1药物 2 c d c+d=n0合计 a+c=m1 b+d=m0 N1、H 0: ,=0.05212、 当 n40,且所有 T5 时,四格表专用公式 )()c(22 dbadban!当 n40,但有 1T5 时,使用四格表校正公式 )()c(1|22 !当 n40,或有 T1 时,使用 Fisher 确切概率公式!a2 ndcb!3、 =3.84, =6.
17、632105.!210.!配对四格表 检验:2病例组对照组有暴露史 无暴露史 合计有暴露史 a b a+b=n1无暴露史 c d c+d=n0合计 a+c=m1 b+d=m0 N1、H 0: ,=0.05212、 ,当 b+c40 时, cb-22!当 b+c40 时, 1|22!3、 =3.84, =6.63105.!10.!行*列资料的 检验:2有效 无效 合计药物 1 a b n1药物 2 c d n2药物 3 e f n3合计 m1 m2 N1、H 0:各组有效率相同,H1:各组有效率不全相同2、 ,!1nACR2(行数-1) (列数-1 )3、 2!Chapter 相对数及其应用相对数(relative number):是两个有关的据对数之比,也可以是两个有关的统计指标之比。常用的有:率、比值比、构成比。率(rate):表示在一定的范围内某现象的发生数与可能发生的总数之比。构成比(constitute ratio):表示某事物内部组成部分在总体中的比重。相对比(relative ratio):A、B 两有关联的指标之比,用以描述两者的对比水平。如 RR。