生物统计学基本概念及公式.doc

上传人:dwx****52 文档编号:2221372 上传时间:2019-05-02 格式:DOC 页数:22 大小:373KB
下载 相关 举报
生物统计学基本概念及公式.doc_第1页
第1页 / 共22页
生物统计学基本概念及公式.doc_第2页
第2页 / 共22页
生物统计学基本概念及公式.doc_第3页
第3页 / 共22页
生物统计学基本概念及公式.doc_第4页
第4页 / 共22页
生物统计学基本概念及公式.doc_第5页
第5页 / 共22页
点击查看更多>>
资源描述

1、生物统计学(Biostatistics) 是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、二、科学研究的基本程序 1、提出一个欲待研究的问题:2、科学研究设计:专业设计、统计学设计:统计学设计(statistical design) :是指用统计学原理对研究的全过程所作出的周密合理的统筹安排,如确定研究对象,拟定研究因素及其分配,如何执行随机、对照与重复的统计学原则,如何观察与度量效应,以及数据收集、整理与分析的方法,通过合理的、系统的安排,达到控制系统误差,以尽可能少的资源消耗(最小的人力、物力、财力和

2、时间)获取准确可靠的信息资料及可信的结论,使效益最大化。3、获取试验与观察的资料,又称为搜集资料4、数据审核与计算机录入5、分析资料描述性统计(descriptive statistics) 是指用统计指标、统计图、统计表等方法,对数据的特征及其分布规律进行检测与描述。统计推断(inferential statistics) 是通过随机样本信息推断总体特征的过程。统计推断又包括置信区间(confidence interval)估计与统计学假设检验(hypothesis test) 。统计学分析过程按变量的多寡可分为单变量分析与多重变量分析。 6、分析结果的合理解释(Explication of

3、 results): 研究中应注意的问题1、统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。 2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。变量 variable: 在总体中,个体的许多属性(如年龄、性别、血浆胆固醇等)存在变异性,统计学上将反映个体属性变异性特征的指标称为 随机变量(Random variable),简称变量; 针对不同类型的属性,需采用不同类型的变量,因而产生不同类型的资料。总体(Population)与样本(Sample) :根据研究目的所确定的具有相同性质的

4、观察单位的集合成为总体(母体) 。从同一总体中通过随机化过程抽取的部分观察单位称为样本(子样) 。抽样(Sampling) 从研究总体中通过一定原则获取样本的过程样本含量(Sample size) .样本中所包含的基本研究单位数量同质(Homogeneity): 同一总体中的每一个体都具有相同性质类别的特征。变异(Variation) : 同一总体中的各个体间的差异性。随机化(randomization ): 能使总体中每一观察单位均能以同等机会(概率)进入样本,或分配到实验组与对照组的过程。抽样误差(Sampling Error) :由于总体中各个体间存在变异性,因抽样过程的随机性所至样本的

5、统计量与总体的参数不等,或多个样本的统计量存在差异性称为抽样误差。概率(Probability) :描述随机事件发生的可能性的度量。随机事件 A 的发生概率记为 P(A)。概率的取值在 0 到 1 之间,若 P=1 或 P=0 的事件称为必然事件,若 0P1 的事件为随机事件。概率接近于 0(如 P0.05)的事件称为小概率事件。分布(distribution): 一个随机试验的所有结局事件与对应的概率的排列称为分布 。对应于样本数量值分布称其为 频率分布(Frequency Distribution) ;对应总体数量值的分布则称其为 概率分布(Probability Distribution

6、) 。参数(Parameter) :描述总体特征的数量称为参数;常用希腊字符表示,如 表示总体均数, 表示总体标准差, 表示总体率。统计量(Statistic) :描述样本特征的数量称为统计量;常用英语字母表示,如 表示样本均x数,s 表示样本标准差,p 表示样本率。生物医学数据的组织与表达变量的类型:按变量测量的精确程度由低到高,将数据分类为:名义变量(如性别、婚姻状况) 、有序变量(如疗效,类别间差别大小难以度量) 、区间变量(如摄氏体温,类别间差别有实际意义) 、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比

7、变量)1、定性变量(Qualitative Variable)(1)名义变量(Nominal variable)二项分类:性别分类,如男性为 1,女性为 0。多项无序分类:血型的 A、B、AB、O 型多项无序分类(2)有序(等级)变量(Ordinal or ranking variable)多项有序分类:疗效观测分为显效、有效、好转及无效 4 个类别。2、定量变量(Quantitative Variable)(1)区间变量(interval variable ):或数值变量(numerical variable )如:身高,血压,血清胆固醇浓度,体温,脉搏计数、红细胞计数、玫瑰花环计数、住院天

8、数等。(一般有度量衡单位,类别间的差别大小有实际意义)(2)比变量(ratio variable):以上例子中除体温外(具有真实意义的零点)连续型变量(Continuous variable)与离散型变量(Discrete variables)根据观察数据之间有无缝隙(gap) ,常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类,名义变量一定是离散型变量;连续型变量只能是比、区间和有序变量,但比、区间和有序变量也可以是离散型变量频数分布表:*定量数据的频数分布;*(非配对设计) 定性数据的频数分布 *配对设计定性数据的频数分布频数(frequency) :将定量数据分类成若干个组

9、段,或将定性数据分类成若干个类别,所清点得到的每一组段或类别的数据出现个数。 频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。 R=6.29-2.72=3.57 mmol/L(2) 决定分组组数、组距:组距=极差/组数。 (3) 列出组段:(4) 划记计数。 (非配对设计) 定性数据的频数分布:*一维频数表*二维频数表 *高维频数表统计图形表达:*直方图(Histogram ):用于描述定量变量的数据分布特征。*概率-概率散点图(p-p plot)又称为 p-p 图或百分点图,横轴为观察累积概率,纵轴为理论(如正态)累积概率,确定样本数据对于理论分布的一致性;*分

10、位数-分位数散点图(q-q plot)又称为 q-q 图,横轴为观察值,纵轴为理论(如正态)分位数,确定样本数据对于理论分布的一致性绘PP 或 QQ 图的数据 *茎叶(Stem-Leaf )图 *盒式图(Box plot) 直条图(Bar chart):用直条反映定性变量不同类别下的某指标大小。饼图(pie Chart):反映定性变量各个分类的构成情况。 *散点图 * 线图 *统计地图(statistical map)SAS 会话窗口界面:三个基本窗口 *Editor 编辑窗:在此编写 SAS 程序 *Log 记录窗:记录程序运行过程中所做的内容,如所运行的数据情况、所调用的过程步、程序运行时

11、间等(红色- 错误 绿色- 警告 兰色- 正常 ) *Output 结果输出窗:统计分析的结果。 *Result 窗口 *Explorer 窗口单变量综合性描述统计量常用的中心趋势指标:算术均数、几何均数、中位数、众数,统称为平均数(average)算术平均数 The Arithmetic mean:简称均数(Mean)或均值,定义为所有测量值之和除以变量值个数(即,样本含量 Sample Size) 。反映一组呈对称分布的变量值在数量上的平均水平。(1)直接计算法 :公式 : nxni1(2)加权法: kiiikiiifxfx11组中值(下限值上限值)/2均数的特征:*最常用,特别是正态分布

12、资料;*对极值非常敏感,最大值和最小值常将其拉向自己;*离均差的和为 0中位数(median) :是将每个变量值从小到大排列,位置居于中间的那个变量值。 公式:n 为奇数时 )21(nXMn 为偶数时 )12()(n频数表资料的中位数 中 位 数 所 在 组 的 频 数 的 累 计 频 数 ) 中 位 数 所 在 组 前 一 组(所 在 组 下 限 值 组 距 %50M中位数的特征:计算时只利用了位置居中的测量值,优点:对极值不敏感,缺点:并非考虑到每个观测值;适用于各种分布类型的资料,特别适合于:大样本偏态分布资料或者一端或两端无确切数值的资料百分位数(percentile): 直接计算设有

13、 n 个原始数据从小到大排列,第 X 百分位数的计算公式为:当 nX%为带有小数位时: 1%)int(Px当 nX%为 整数时: )()(21X频数表法:计算方法大致同中位数几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。公式: nnXG.21(2)加权法: )lg(l1f几何均数的特征1、几何均数适用于对数正态分布,如药物的效价、抗体的滴度、传染性疾病的潜伏期等资料。2、变量 x 服从对数正态分布,即表示变量 lg(xi)服从正态分布。对于 lg(xi),具有正态分布的所有特性。众数(Mode): 是一群数据中出现次数(频数

14、)最多的值。适用于大样本;较粗糙。众数的特征:1、对于某些数据而言,例如均匀分布,并不存在众数;2、对于某些数据存在两个或多于两个的众数;3、定性数据可以存在众数;4.众数对于进一步的统计学计算与分析不具备应用价值。离散与变异性指标:全距;方差;标准差;变异系数;四分位间距;多样性指数全距 range: 为最大值与最小值之差,也叫极差,即 R=Max(x) Min(x).方差:(Variance) 也称均方差(mean square deviation) ,反映一组数据的平均离散水平。样本方差为各变量值到样本均数距离的平方和除以自由度的商值,即1)(1)( 2222 nxnxSnininii总

15、体方差: N)(122niix标准差 :样本标准差为样本方差的平方根;总体标准差为总体方差的平方根。样本标准差实用公式样本标准差的加权公式随机变量 xi 的标准化: 如果随机变量 xi 服从正态分布,均数和标准差分别为 和 s,则随机变量 xi 的标准化x正态离差值(Standard normal deviation)又称为标准化得分值(Standard Scores )为:sxZii变异系数(coefficient of variation,CV) : 常用于比较度量单位不同或均数相差悬殊的两组1)(22nxsnii 1)(2112kiikiikifxffs(或多组) 资料的变异程度。 10

16、xsCV四分位数间距(inter-quartile range):用 IQR 表示: IQR=P75P25Q3 Q4多样性指数( Indices of Diversity) :描述无序分类变量在各各义类别间频数的离散度。用熵与最大熵之比表达离散度 率、比的均数与方差 率(rate) : 在特定条件下,可能发生某现象的总例数中,实际发生某现象的强度或频率。比(ratio ) :构成比(Proportion ,constituent ratio):构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重。相对比(relative ratio) 是由两个有关联的指标之比。应用率比指标时的注

17、意事项1、保证有足够样本含量;2、不要将率和比指标混淆;3、注意平均率的计算;4、率和比指标比较时,要有可比性(不可比时可采用率标准化) ;5、不要简单由样本率的差异做出结论。率比和均数一样都有抽样误差,需采用假设检验下结论。随机变量、概率和概率分布频率 frequency: 样本的实际发生率。设在相同条件下,独立重复进行 n 次试验,事件 A出现 f 次,则事件 A 出现的频率为 f/n。概率 probability:随机事件发生的可能性大小,用大写的 P 表示;取值0,1。 样本空间(sampling space) :随机试验的所有可能的结果称为样本空间。频率与概率间的关系:1. 样本频率

18、总是围绕概率上下波动;2. 样本含量 n 越大,波动幅度越小,频率越接近概率。事件间的关系:(1)和事件(Union of two events):事件 A 或者事件 B 发生(A 或 B)或(A B )(2)积事件(Intersection of two events):事件 A 与事件 B 同时发生(A 与 B)或(AB)(3)互斥事件:事件 A、事件 B 不可能同时发生(也可都不发生) ,则事件 A 与事件 B 互斥(4)对立事件:事件 A、事件 B 不可能同时发生,并且事件 A 与事件 B 必有一个发生。条件概率(condition probability) 若关心的事件为 B,以事件

19、 A 为条件, 则在 A 的条件下,事件 B 发生的概率为 P(B|A)事件的独立性:若事件的发生不影响事件的发生,即事件 A 与事件 B 相互独立,则有P(|) P( )概率分布(probability distribution) :描述随机变量值 xi 及这些值对应概率 P(X=xi)的表格、公式或图形。概率密度函数(probability density function): 如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。 大多数情况下,可采用一个函数拟合这一光滑曲线。这种函数称为常用的概率分布:离散型随机变量分布一、二项分布二、泊松分布当二项分布中 n 很大,

20、 很小时,二项分布就变成为 Poisson 分布,所以 Poisson 分布实际上是二项分布的极限分布。由二项分布的概率函数可得到泊松分布的概率函数为: !xeXPPoisson 分布主要用于描述在单位时间(空间) 中稀有事件的发生数Poisson 分布概率的计算Poisson 分布的性质1.Poisson 分布的均数与方差相等 即 2=m 2.Poisson 分布的可加性3.Poisson 分布的正态近似 :m 相当大(20)时,近似服从正态分布:N (m , m ) 4.二项分布的 Poisson 分布近似连续型随机变量分布:变量的取值充满整个数值区间,无法一一列出其每一个可能值。一般将连

21、续型随机变量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。 如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。 大多数情况下,可采用一个函数拟合这一光滑曲线。这种函数称为概率密度函数(probability density function)成功次数的概率分布二项分布: knknxP)1()(二项分布的应用1. 二项分布的均数与方差XB(n,) X 的均数 xX 的方差: )1(2 nXX 的标准差: 出现阳性次数至多为 k 的概率:XknknkP0)1()!()( 出现阳性次数至少为 k 的概率:nkXXnX)()!()(

22、 正态分布(Normal Distribution)1. 概率密度函数 2)(1)( xexf2. 概率分布函数 dxexF2)()( 正态分布特征 (1)正态分布在横轴上方均数处最高。(2) 正态分布以均数 为中心,左右对称。(3)正态分布由参数 和 确定。(总体均数) 是位置参数,当 (总体标准差)不变时, 越大,则曲线沿横轴越向右移动;反之, 越小,曲线沿横轴越向左移动。是变异度参数,当 不变时, 越大,表示数据越分散,曲线越平坦; 越小,表示数据越集中,曲线越陡峭。(4)正态分布曲线与 X 轴所围成的面积为 1。(5)在 的区间内占总面积的 68.27%,在 1.96 的区间内占总面积

23、的 95%;在 2.58 的区间内占总面积的 99%。标准正态分布: 标准正态离差: Z21z)(ze此概率密度函数实质上就是正态分布的概率密度函数中 =0,=1 的情形。从几何意义上说,此变换实质上是作了一个坐标轴的平移和尺度变换,使正态分布具有平均数为=0,标准差 =1 。这种变换称为标准化正态变换。因此将这种具有平均数为 =0,标准差 =1 的正态分布称为标准正态分布,记为 N(0,1)正态分布概率密度曲线在-1 +1 的区间内占总面积的 68.27%,在-1.96+1.96 的区间内占总面积的 95%;在-2.58 +2.58 的区间内占总面积的 99%。标准正态分布 正态分布 面积或

24、概率-11 68.27%-1.961.96 1.96 95%-2.582.58 2.58 99%描述正态分布特征的两个参数:偏度系数 coefficient of skewness:度量随机变量对称性的参数 r10 为对称,r10 为正偏态,反之为负偏态。峰度系数 coefficient of kurtosis:描述随机变量陡峭度的参数,r20 为正态峰,r20 分布较正态分布陡峭,r20 时分布较正态分布平阔。正态分布的特征,归纳起来有两点:一是对称性(symmetry ):若分布不对称就是偏态,长尾拖向右侧(变量值较大的一侧)叫做正偏态,或右偏态;长尾拖向左侧(变量值较小的一侧)叫做负偏态

25、,或左偏态。 二是正态峰(mesokurtosis) :峰态系数是描述随机变量陡峭度的参数,分为:正态峰、平阔峰、尖峭峰 。正态分布在医学中的应用1. 大多数生理生化指标服从正态分布2. 估计医学参考值范围 3. 质量控制 4. 二项分布,poisson 分布的极限均为正态分布 ;5. 卡方、t 与 F 分布都与正态分布有关。如果总体服从正态分布 N(m,s2) ,则从该正态总体中抽取样本,得到的样本均数也服从正态分布,但该分布为 N(m,s2/n ) ,此时的方差是总体的 1/n 倍,即有uxnx不论总体的分布形式如何,只要样本含量 n 足够大时,样本均数的分布就近似正态分布 ,此称为 中心

26、极限定理 central limit theorem。常用的三种抽样分布一、 分布 (1) 自由度为 1 的 分布 若 ZN(0,1) 则 Z2 的分布称为自由度为 1 的 分2x 2x布(chi-square distribution),记为 2)1(二、t 分布:自由度1XZnt 分布的特征以 0 为中心,左右对称的单峰分布;t 分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则 t 值越分散,曲线越低平;自由度逐渐增大时,t 分布逐渐逼近 Z 分布(标准正态分布);当趋于时,t分布即为 Z 分布。三、F 分布令 和 分别为服从自由度为 和 的21()2()12独立变量的卡方

27、分布,则称 服从分子自由度2()F为 和分母自由度为 的 F 分布,记为 F 。1212(,)对于样本方差 和 ,自由度分别为 和 的21s1正态总体,所以有 F = 2112(,)统计推断统计推断(Statistical inference)是采用样本统计量 对相应总体参数psx、所做的非确定性的推估。p、包括:1. 点估计 point estimation ; 2. 区间估计 interval estimation ; 3. 假设检验hypothesis testing (or significance testing) ; 4. 预测(prediction)抽样误差 (sampling

28、error) :由于个体差异导致的样本统计量与总体参数间的差别。标准误(standard error, SE) :即样本均数的标准差,可用于衡量抽样误差的大小。样本总体标准差已知时, 样本总体标准差未知时,nSxnSx2总体均数的点估计(point estimation)与区间估计(interval estimation)参数的估计: 点估计:由样本统计量直接估计总体参数区间估计:获得一个置信区间(confidence interval,CI)由样本数据估计得到的、100(1) 可能包含未知总体参数的一个范围值。一、置信区间的有关概念:(1) 或 100 (1) 称为置信度(confidenc

29、e level) ,常取95(90、99) 。 已知 或 s 未知但 n 足够大,按 Z 分布;s 未知,按 t 分布 已知,总体均数双侧 100 (1) 置信区间为:ZX2/ 已知,总体均数单侧 100 (1) 置信区间为:或)x( (xZXZ0.05/2=1.96 双侧Z0.05=1.645 单侧置信区间通常两个数值即两个置信限(confidence limit,CL):较小的称为置信下限(lower limit,L) ,较大的称为置信上限( upper limit,U) ,置信区间的涵义从同一总体中重复抽取若干个相互独立的样本,将具有 100(1-a)%的置信度,所计算的置信区间包括总体

30、均数。如 95%的置信区间表示:如果从同一总体中重复抽取 100 个独立样本,那么将可能有 95个置信区间包括总体均数。 (总体均数会落在这样的区间说法欠妥)对于一次估计的置信区间,可能有 95%的正确率包括总体均数,但仍有 5%的置信区间估计错误。5%是小概率事件,统计学认为在一次的估计中不发生。置信区间估计的优劣:置信度大好,还是小好?1. 置信度 1(准确度,accuracy) ,愈接近 1 愈好,如 99%的置信度比 95%的置信度要好;2. 区间的宽度(精密度, precision ) ,区间愈窄愈好。当样本含量为定值时,上述两者互相矛盾。在置信度确定的情况下,增加样本含量可减小区间

31、宽度。总体均数置信区间与参考值范围的区别区别点 总体均数可信区间 参考值范围含义从同一总体中重复抽取若干个相互独立的样本,将具有 100(1-)%的置信度,所计算的置信区间包括总体均数。“正常人”的解剖,生理,生化某项指标的波动范围。总体均数的波动范围 个体值的波动范围计算公式未知 n 较小: XSt,2/正态分布: StX2/已知,或 未知但 n 较大: XSZ2/偏态分布: PXP100X用途 总体均数的区间估计 绝大多数(如 95%)观察对象某项指标的分布范围方差的抽样分布特征1.样本方差的分布是正偏态分布,样本含量较小时更是如此。2.随着样本含量的逐渐增大,对称性逐渐改善。3.理论上可

32、以证明:若随机变量 x 服从正态分布,则其相应的样本方差 S2 的分布服从自由度为 n-1 的卡方分布。4.标准差的标准误 ns2总体方差 s2 的 100(1-a)%置信区间:( , )2/1)(xn2/)1(xs由抽样引起的样本率(p)和总体率( )的差异称为 率的抽样误差(sampling error of rate) ,用率的标准误(standard error of rate)度量。np)如果总体率 未知,用样本率 p 估计sp)1(I 型错误(弃真) :拒绝实际正确的 H0, I 型错误的概率记为 。 (1a)即置信度: 重复抽样时,样本区间包含总体参数(m )的百分数。II 型错误(纳伪) : 不拒绝实际不正确的 H0, II 型错误的概率记为 。 (1)即把握度(或检验效能):两总体确有差别,被检出有差别的能力单个总体均数的假设检验1. 总体方差已知,采用 Z 检验 xXZ2. 总体方差未知,采用 t 检验:自由度 n1nSt0第七节 总体率的假设检验例数较少时,采用二项分布的概率公式计算 knknxP)1()(当 n5,且 n(1-)5 (n 大, 不接近 0,1)时近似正态分布,可计算 Z 统计量

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 精品笔记

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。