1、第一章 绪论1、数据/资料的分类:、计量资料,又称定量资料或者数值变量;为观测每个观察单位某项治疗的大小而获得的资料。、计数资料,又称定性资料或者无序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后而得到的资料。、等级资料,又称半定量资料或者有序分类变量。为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。2、统计学常用基本概念:、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。、总体(population )指的是根据研究目的而确定的同质观察单位的
2、全体。、医学统计学(medical statistics):用统计学的原理和方法处理医学资料中的同质性和变异性的科学和艺术,通过一定数量的观察、对比、分析,揭示那些困惑费解的医学问题背后的规律性。、样本(sample):指的是从总体中随机抽取的部分观察单位。、变量(variable ):对观察单位某项特征进行测量或者观察,这种特征称为变量。、频率(frequency):指的是样本的实际发生率。、概率(probability):指的是随机事件发生的可能性大小。用大写的 P 表示。3、统计工作的基本步骤:、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;、收集资料:采取措施取得准确可靠的
3、原始数据;、整理资料:将原始数据净化、系统化和条理化;、分析资料:包括统计描述和统计推断两个方面。第二章 计量资料的统计描述1. 频数表的编制方法,频数分布的类型及频数表的用途 、求极差(range):也称全距,即最大值和最小值之差,记作 R;、确定组段数和组距,组段数通常取 10-15 组;、根据组距写出组段,每个组段的下限为 L,上限为 U,变量 X 值得归组统一定为 LXU,最后一组包括下限。、分组划记并统计频数。频数分布的类型包括对称分布和偏态分布;偏态分布主要分为右偏态分布(也称正偏态分布)和左偏态分布(也称负偏态分布) 。频数表的用途包括以下几个方面:、描述频数分布的类型;、描述频
4、数分布的特征;、便于发现一些特大或特小的离群值;、便于进一步做统计分析和处理。2. 集中趋势指标的适用条件、计算方法和意义 。统计学用平均数(average)这一指标体系来描述一组变量值的几种位置或者平均水平。常用的平均数有算术均数、几何均数和中位数。、算数均数,简称均数(mean) ,可用于反映一组呈对称分布的变量值在数量上的平均水平。计算方法包括直接计算法和频数表法(公式见 2-2) 。、几何均数(geometric mean) ,可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,在医学研究中常用于免疫学的指标。 (计算公式见于 2-3)、中位数(median) ,适用于各种
5、分布类型的资料,尤其是偏态分布资料和一端或者两端无确切数值的资料。、百分位数(percentile)是一种位置指标,是一个界值,其重要用途是确定医学参考值范围(reference range) 。直接计算法(公式见于 2-7、 2-8)频数表法(2-9、2-10)3、离散趋势指标的适用条件、计算方法和意义 。描述数据变异大小的常用统计指标有极差、四分位数间距、方差、标准差和变异系数。、极差,一组变量值的最大值与最小值之差。、四分位数间距(quartile range,QR)是把全部变量值分为四部分的分位数后,由第 3 四分位数和第 1 四分位数相减而得。它一般和中位数一起描述偏态分布资料的分布
6、特征。QR=P 75-P25。、方差(variance)也称均方差(mean square deviation)离均差平方和与样本含量的比值。计算公式为 2-11、标准差(standard deviation)是方差的正平方根,其单位与原变量值得单位相同。计算公式为 2-13、2-14、变异系数(coefficient of variation)记作 CV,多用于观察指标单位不同时,或者均数相差较大时两者变异程度的比较。计算公式为 2-164. 正态分布的图形,正态分布的特征,正态曲线下面积的分布规律。 正态分布的特征:、在直角坐标的横轴上方呈钟形曲线,两端与 X 轴永不相交,且以 X= 为对
7、称轴,左右完全对称。、在 X= 处,f(X)取最大值,远离 ,其值越小。、正态分布有两个参数,位置参数 和形态参数 , 决定正态分布的曲线在坐标轴上的左右移动,越大越右移; 决定曲线的弓背程度,越小峰值越高。正态分布曲线下的面积分布有一定的规律。X 轴与正态曲线所夹面积恒等于 1或者 100%;区间 的面积为 68.27%;区间 1.96 的面积为 95.00%,区间 2.58 的面积为 99.00%。5. 医学参考值范围的意义和估计方法。 医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医
8、学数据并非常数,而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。通常使用的医学参考值范围有 90%、95%、99%、正态分布法:数据服从或者近似服从正态分布,或者通过适当的变换转换为正态分布,采用此方法之前一般要对资料进行正态性检验且要求样本含量足够大(如 n100)计算公式为 2-23、2-24:双侧:单侧:、百分位数法:适用于偏态分布资料医学参考值范围的制定,所要求的样本含量比正态分布要多(不低于 100) 。计算公式为 2-25、2-26:双侧:单侧:第三章 总体均数的估计与假设检验1、基本概念:抽样误差(samp
9、ling error):指的是由于个体变异产生、随机抽样造成的样本统计量与总体参数的差异。标准误(standard error, SE):指的是样本统计量的标准差。均数的标准误(standard error of mean,SEM):指的是样本均数的标准差。SEM 反映样本均数之间的离散程度,也反映样本均数与相应总体均数间的差异。均数的标准误的计算公式为 3-1、3-2统计推断(statistical inference):通过抽样研究的方法从总体中随机抽取一个样本,用样本的信息来推断总体的特征的统计学方法,包括参数估计和假设检验。2、标准差的用途:、反映资料的离散趋势。标准差越小,说明变异程
10、度越小,均数的代表性越好;用于计算变异系数;用于计算标准误;结合均数和正态分布规律估计参考值范围。3、 u 分布与 t 分布:u 分布(也称 Z 分布):指的是总体均数为 0,总体标准差为 1 的标准正态分布N(0,1)。t 分布:随机变量 X 服从总体均数为 ,总体标准差为 的正态分布N(,) ,则可以通过 u 变换将一般的正态分布转化为标准正态分布。但是通常获得的资料为样本的均数标准误,因此经过转换后并不是完全意义上的标准正态分布,而是服从 t 分布。 (计算公式为 3-3)t 分布主要用于总体均数的区间估计和 t 检验。4、可信区间: 从固定样本含量的已知总体总进行重复随机抽样试验,根据
11、每个样本可算得一个可信区间,则平均有 1-(如 95%)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为 1-。5、参考值范围和总体均数可信区间的区别见课本表 3-26、 标准差与标准误的区别和联系:7、总体均数可信区间的计算:根据总体标准差 是否已知以及样本含量 n 的大小而异,通常有 t 分布和 u 分布两类方法。A、单一总体均数的可信区间:a、总体标准差 已未知:按 t 分布双侧和单侧公式见 3-5、3-6、3-7b、 已知或者未知,但 n 足够大(如60)时:按 u 分布双侧和单侧公式见 3、8、3-9、3-10B、两总体均数之差的可信区间:前提:两总体方差相等,但均数不等
12、计算公式见于 3-12、3-13、3-148、t 分布图的特征:、单峰分布,以 0 为中心,左右对称;、t 分布的曲线形态取决于自由度 v 的大小,自由度越小,则 t 值越分散,曲线的峰部越矮而尾部翘得越高;、当自由度逼近无穷的时候,样本标准误接近总体标准误,t 分布逼近标准正态分布。 (标准正态分布是 t 分布的特例)9、t 检验的适用条件t 检验(t test/Student t-test)当 未知且样本含量较小时(如 n60) ,理论上要求 t 检验的样本随机地取自正态分布的总体,两小样本均数比较式还要求两样本所对应的两总体方差相等,即方差齐性。在实际应用中,如与上述条件略有偏离,对结果
13、影响也不大。10、假设检验A、假设检验的基本思想:利用小概率反证法的思想,从问题的对立面(H 0)出发简介判断要解决的问题(H 1)是否成立。即在假设 H0 成立的条件下计算检验统计量,然后根据获得的 P 值来判断。B、假设检验的基本步骤: 建立检验假设,确定检验水准;计算检验统计量;确定 P 值,做出推断结论。C、假设检验的错误 型错误:拒绝了实际上成立的 H0,这类“弃真”的错误;()型错误:“接受”了实际上不成立的 H0,这类“取伪”的错误。 ()均 数 的 标 准 误 标 准 差 意 义 反 映 X的 抽 样 误差 大 小 反 映 一 组 数 据 的 离 散 情况 记 法 ()S ()
14、S 计 算 Xn 2XN ()1控 制方 法 增 加 n 不 能 通 过 统 计 方 法 来 控制 注意: 越小, 越大;反之 越大, 越小;若重点是减少 型错误,一般取 =0.05;若重点是减少型错误,一般取 =0.10 或者 0.20 甚至更高;若要同时减小 型和型错误,唯一的方法就是增加样本含量 n ;拒绝 H0,只可能犯 I 型错误;接受 H0,只可能犯型错误。单样本 t 检验 适用于已知样本均数和已知总体均数的比较t 分布(v=n-1)对方差齐与否无要求正态分布t 值配对样本 t 检验适用于配对设计的计量资料 t 分布(v=n-1)对方差齐与否无要求正态分布t 值方差齐 适用于任意两
15、计量资料的比较t 分布(v=n1+n2-2)方差齐正态分布t 值方差不齐 CochranH1:j 0注意:单独分析各个变量的偏回归平方和,所有值的和小于总的回归平方和,其原因是忽略了各个变量之间的相互作用成分。、t 检验法:对于同一资料,不同自变量的 t 值间可以相互比较, t 的绝对值越大,说明该自变量对 Y 的回归所起的作用越大。标准化回归系数:减少自变量观测单位不同对结果的影响。在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对 Y 的作用越大。3、自变量选择方法:A、全局择优法:、校正决定系数 Rc 选择法(当 R相同时,自变量个数越多,Rc 越小,最优为Rc 最大)、
16、Cp 选择法:应选择 Cp 最接近 p+1 的回归方程为最优方程。B、逐步选择法:、前进法:(只选不剔)在有统计学意义的前提下,选取偏回归平方和最大的一个自变量做 F 检验以决定是否选入。、后退法:(只剔不选)选取回归平方和最小的一个自变量做 F 检验以决定是否剔除。、逐步回归法:先选后剔,双向筛选。本质上是前进法,但每引入一个自变量进入方程后,要对方程中的每一个自变量做基于偏回归平方和的 F 检验,看是否需要剔除一些退化为不显著的自变量。注意:为了避免已经剔除的自变量再次入选,选入自变量的检验水准要小于或等于剔除自变量的检验水准。第十六章 logistic 回归分析logistic 回归(l
17、ogistic regression)属于概率型非线性回归。适用对象:二分类或多分类影响因素之间的关系。1、表示方法:阳性概率 P=1/1+exp(-Z) Z=0+ 1X1+2X2+ mXmP 的 logit 转换: logit P=ln(p/1-p)= 0+1X1+2X2+mXm回归系数 j 表示自变量 Xj 改变一个单位时 logit P 的该变量。2、模型参数的意义:、确定优势比(odds ratio ,OR)衡量危险因素作用大小的比数比例OR 适用于分类指标而不适用于计量指标;多变量调整后的优势比(adjust odds ratio)ORj :表示扣除了其他自变量影响后危险因素的作用。
18、用来对比某一危险因素两个不同暴露水平 Xj=c1 和 Xj=c0 之间的发病情况。1)j=0 时,ORj=1,说明因素 Xj 对疾病的发生不起作用;2)j0 时,ORj1,说明因素 Xj 对疾病发生起危险作用;3)j0 时,ORj1,说明因素 Xj 时一个保护因子。、确定相对危险度(relative risk,RR )对于发病率很低的疾病存在优势比即等于两种暴露水平之间的相对危险度。2、logistic 回归方程的参数估计:主要方法有最大似然估计法(maximum likelihood estimate,MLE)和优势比估计法。3、logistic 回归的适用对象:、比较各暴露因素的致病风险的
19、大小;、多因素的共同作用的评价;、危险因素的筛选:多经文献报道选取,但统计学资料不能代替专业依据4、logistic 回归模型的假设检验:常用的检验方法有似然比检验(likelihood ratio test) 、Wald 检验和计分检验(score test)统计量为卡方值logistic 回归模型变量的筛选与多元线性回归相同。第十七章 生存分析1、生存分析资料与一般资料比较的不同:、同时考虑生存时间和生存结局;、通常含有删失数据;、生存时间的分布通常不服从正态分布。2、概念:生存时间(survival time) ,从起始事件到终点事之间所经历的时间跨度。完全数据(complete data) ,在追踪观察中,当观察到了某观察对象的明确结局时,该观察对象所提供的关于生存时间的信息是完整的,这种生存时间数据称为完全
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。