科研设计的统计学原则.ppt

上传人:坚持 文档编号:4099738 上传时间:2019-09-25 格式:PPT 页数:106 大小:325KB
下载 相关 举报
科研设计的统计学原则.ppt_第1页
第1页 / 共106页
科研设计的统计学原则.ppt_第2页
第2页 / 共106页
科研设计的统计学原则.ppt_第3页
第3页 / 共106页
科研设计的统计学原则.ppt_第4页
第4页 / 共106页
科研设计的统计学原则.ppt_第5页
第5页 / 共106页
点击查看更多>>
资源描述

1、科研设计的统计学原则 高月求 实验设计 实验( Experiment)指由研究者主动地决定 给予部分实验对象某种处理,给予另一部分对象某 种对照处理的研究设计形式,这种处理的分配常常 是随机的。 实验设计( Experimental design)是通过对 象的选择、处理因素的合理分配、结果指标的准确 测量和恰当的资料分析来提高组与组间非处理因素 的一致性,使实验结果有较好的可比性,并且较好 地控制误差,用较小的样本获取可靠的结论。 实验设计三要素 处理 对象 效应 降压药 高血压病人 血压值 处理 处理( treatment):研究者根据研究目 的欲施加或欲观察的,能作用于受试对象并 引起效

2、应的因素。 非处理因素:相应的也能使受试对象产 生效应的因素,又称混杂因素 (confounding factor)。 处理因素要标准化,处理水平始终一致 。 对象 (subjects) 指根据研究目的确定的观察对象(动物 或人体),必须具备同质性和代表性 1)动物的选择:种类、品系、年龄、性 别、体重、营养 2)人的选择:诊断明确、依从性好,反 映主观感觉 效应 (effect) 是处理因素作用于受试对象的反应和结果,通过观察 指标表达。指标要求: 1)客观性:主观指标和客观指标。 2)精确性: 准确度 (accuracy):观察值与真值的接近程度,受 系统误差的影响。 精密度 (preci

3、sion):重复观察时观察值与其均值的 接近程度,受随机误差的影响; 3)灵敏性 (sensitivity):表示指标检出真阳性的能力 ,可减少假阴性率。 4)特异性 (specificity):表示指标检出真阴性的能力, 减少假阳性率。 实验误差及其特点 在实验中,由于实验对象自身特点、实 验条件的变化和实验结果测量的不确定性造 成实验结果与真值的差别称实验误差( Experimental error)。根据统计分析上的 处理不同,实验误差分成两类: 随机误差( Random error) 非随机误差 随机误差( Random error) 随机误差是由大量的、微小的、偶然因 素引起的不易控

4、制的误差。如在实验中,温 度、湿度、风向、振动、试剂、仪器、操作 员等都可能造成结果的偏差。 随机变异是没有倾向性的,在大量观察 条件下,随机误差的分布呈标准正态分布。 随机误差的规律可以用统计方法分析。 非随机误差 又称偏倚( bias)或系统误差( Systematic error) 由于在对象选择、处理因素分配的不随机、测量结果 的不准确造成实验结果有倾向性地偏离称之。(无统计规律 、可预防、务必控制) (1)选择偏倚 (Selection bias):指在选择研究对象和 分组时的非随机化,造成结果的偏倚。如肝癌手术治疗与化 疗的疗效比较中,由于手术对象的选择性造成有利于手术组 的结果。

5、 (2)信息偏倚( Information bias):指测量方面的误 差,特别是主观因素造成的有倾向性的偏倚。如在临床试验 中,实验组是在医院测量,对照组是在家中测量。 (3)混杂偏倚( Confounding):指实验组与对照组在 一些影响实验结果的非处理因素不均衡造成结果的偏倚。如 病情轻重、并发症、辅助治疗和护理等因素不均衡。 实验设计的原则 对照( Control) 随机化( Randomization) 重复( Replication) 盲法( blind method) 对照( Control) 指设立对照组以排除非处理因素而显示出处理 的效应。 处理组 处理因素 +非处理因素

6、=处理和非处理的效应 对照组 非处理因素 = 非处理因素的效应 对比 处理因素 =处理效应 对照组设置的三个条件: 对等:除处理因素外,两组对等的非处理因素 同步:两组始终处于同一空间和同一时间 专设:对照组专门设立,一般不能以文献为对 照(有时可与 “常模 ”比较) 随机化( Randomization) 随机原则是指 “机会均等 ”,最简单的方 法是抽签 随机 随便,任何随便都不是随机的 随机化类型 随机抽样:每个个体有同等的机会被抽 中 分组随机:每个实验对象分配到不同处 理组的机会相同 随机顺序:每个实验对象接受处理先后 的机会相同 重复( Replication) 重复是指在相同实验

7、条件下进行多次研 究或多次观察,以提高实验的可靠性与科学 性。 广义地讲,重复包括:整个实验的重复 、用多个实验单位进行重复、同一实验单位 的重复观察。 决定重复性的关键是样本含量,故常将 重复性简化为 “样本含量 ” 盲法( blind method) 按实验方案规定,尽量不让参与临床实验的受 试者、研究者、医务人员、监视员、数据管理和统 计分析人员知道患者接受何种治疗。 单盲法( single blind)指受试者不知道自己 属于试验组还是对照组 双盲法( double blind)指受试者和试验医 务人员都不知道病人属于试验组还是对照组 非盲法 (open label): 采用单盲或非盲

8、法试验 应在研究方案中申述理由。 盲法的原则应自始至终地贯彻于整个试验之中 针对研究类型选择适当的研究设计 类 型 目的 首 选 的研究 设计 治 疗 研究 检验 各种干 预 措施如 药 物治 疗 、介 入或外科手 术 的效果 随机 对 照 临 床 试验 诊 断研究 评 估新的 诊 断方法的有效性和可行性 横断面 调查 (须 同 时进 行新方法和金 标 准方法 检验 ) 预 后研究 了解确 诊 病人以后可能 发 生的情况 纵 向 队 列研究 因果关系 研究 评 估有害因素与疾病 发 生是否有关 队 列研究或病例 -对 照研 究,病例 报 告亦有用 筛选 研究 评 估适于大 规 模人群 检验 和

9、在疾病呈 现 症状早期 检 出 该 病的各种 检查 方 法 横断面 调查 随机对照临床试验 (RCT) n 适用 RCT解决的临床问题 对某一疾病,研究药物在效果上是否优 于安慰剂或另一种药物 (对照药 )? 新的手术方法是否优于传统方法? 改变生活习惯是否会影响病人血压水平 ? RCT的优点 n 在选定的病人组群中,可严格评价单一变量 的效果 n 前瞻性设计 n 应用假设 推导进行推理 n 消除偏倚:比较基线指标相同的两个组 n 可作荟萃分析和系统性评价 RCT被认为是临床科研的 “ 金标准 ” RCT的缺点 n 耗费又耗时:无法完成、样本量不足、研究时间 太短 n 多数由研究机构或药厂 (

10、公司 )资助,难免不会影响 公正 n 常使用 “ 替代终点 ” n 可出现 “ 潜在的偏倚 ” 随机化不完善 未对所有合格病人进行随机化分配 未避免资料评价人员知道病人随机情况 n 其他 排除标准的偏倚 入选标准的偏倚 不适合进行 RCT: n 预后研究 适于纵向队列研究 n 筛查研究 适于横断面研究 n “ 保健质量 ” 研究:尚未确定 “ 成功 ” 标准,适于定性研究方法 队列研究 选择 2组,暴露于某种特定物质 ( 药物、疫苗、环境致病物等 )不同的人群, 随访,观察每组发生特定疾病结局或人数 。 研究对象为可能发病或不发病者。 关注的是病因,而非疾病治疗 适合采用队列研究的临床问题 n

11、 吸烟导致肺癌吗? n 高血压随着时间推移会变好吗? n 避孕药导致 “ 乳腺癌 ” 吗? n 早产儿在以后的生长发育和学习成绩 上情况如何? 病例 -对照研究 确定有某种特定疾病的病人并与对 照组进行匹配,收集其暴露于某种可疑致 病因子的资料。 关注的是病因而非疾病治疗。 对于罕见病的研究可能是唯一选择 。 横断面调查 对某一研究对象中的代表性样本 ( 或病人 )进行访问、检查或研究以获得对某 一特定临床问题的答案。 资料在单一时间点收集,但可回 顾性追溯过去有关健康方面的经历。 病例报告 以故事方式描述单一患者病史。可 综合形成病例系列,以描述一个以上患有 某一特殊情况患者的病史,阐述此种

12、情况 的某个方面、治疗情况或对治疗之不良反 应。 病例报告之优点 n 可以传递大量在临床试验中或调查中 可能丢失的信息 n 易被普通医师或大众理解 n 易于完成 (数天内 ) 统计工作的步骤 第一步设计 (design): 第二步收集资料 (collection of data): 第三步整理资料 (sorting data): 第四步分析资料 (analysis of data) : 设计( design) 首先明确研究目的 , 根据研究目的,从统计角度对资 料的搜集、整理和分析全过程提出全面具体的计划和要求, 作为统计工作实施的依据,以便用尽可能少的人力、物力和 时间获得准确可靠的结论。

13、1、明确对象 2、明确取得原始资料的方法 3、如何整理资料 4、计算哪些指标 5、用何种统计推断方法 6、预测结果 搜集资料 搜集及时、准确、完整地搜集原始资料是统计 工作最重要的一步,它直接关系着统计结论的质量 。 统计资料的来源主要有: 1、报表资料。 2、医疗、预防机构的日常工作记录。 3、专题研究实验数据和现场调查资料。 整理资料( sorting of data) 整理资料又称统计归纳:是把搜集到的 资料进行适当的分组,把性质相同的资料归 纳到一起,用表格或图形的方式展示出来, 以反映研究对象的规律性。 1、审核资料 2、设计分组:质量分组和数量分组 3、拟整理表 4、归纳汇总 分析

14、资料 分析资料资料的分析过程是通过计算有关的统 计指标,对资料进行概括的、全面的描述,以及从 样本信息推断总体特征,分析资料就是从获取的资 料中抽取有关信息的过程。 1、统计指标的计算 2、统计图表的绘制 3、估计总体参数 4、进行假设检验 5、回归与相关 6、多元分析 统计资料的类型 v 计量资料 v 计数资料 v 等级资料 计量资料( measurement data) 通过对观察单位测量取得数值,其值一般 有度量衡单位。 如身高、体重、血压、脉搏、白细胞空气中二氧 化碳含量等。此类资料具有计量单位,各观察单位常 有量的差别。分析计量资料常用平均数、标准差、 t 检验、方差分析、相关与回归

15、分析等。 计数资料 (enumeration data) 将观察单位按某种属性或类别分组,然后 清点各组的观察单位数。 如性别、血型、民族、职称、某病的治愈和未愈 数等。分属于各组的观察单位间有质的差别,不同 质的观察单位不能归在同一组内。分析计数资料常 用率、构成比、 x2检验等。 将观察单位按某种属性的不同程度分组, 然后清点各组的观察单位数。 如疗效可分为治愈、显效、好转、无效;尿蛋白 化验结果分为 -、 + 、 + 、 +等。这类资料具有 计数资料的性质,但所分各组又是按一定顺序如由 轻到重、由小到大排列的。分析等级资料常用率、 构成比、秩和检验等。 等级资料 ( ranked dat

16、a) 医学统计中的几个基本概念 数据与变量 总体和样本 随机化 统计量与参数 抽样误差 概率 变量( variable) 具有变异性的数据称为变量。 1数值变量( numerical variable) :为连续变 量,如身高、体重、血压等。数值变量均可通过对 观察单位测量取得数值,其值一般有度量衡单位。 数值变量资料也称作计量资料。 2分类变量( categorical variable) :可能取值 是离散的,表现为互不相容的类别。比如性别、血 型、民族、职称等。分类变量资料又称为计数资料 。分类变量有两种:无序分类变量和有序分类变量 总体与样本 总体( population): 是根据研

17、究目的确定的同 质的观察单位的某个变量值的全体。分有限总体 和无限总体 。 样本( sample): 通常是从总体中随机抽取有 代表性的一部分观察单位。注意其代表性 和可靠 性。 抽样误差 ( sampling error) 用于描述样本特征的指标称为统计量,而用于描 述总体特征的指标称为参数。 我们把由随机抽样引起的样本指标与总体指标的 差异称为抽样误差 。 由于个体变异的普遍存在,抽样误差是不可避免 的。只要遵循随机化的原则,抽样误差的大小就可以 用统计方法进行估计。一般情况下样本越大,抽样误 差越小,反映事物客观规律的准确性越高,反之,样 本越小,抽样误差越大。 概率( probabil

18、ity) 描述随机事件发生的可能性大小的数值 称概率。 随机事件的概率 P取值在 0 1之间, P越接近 1,说明某事 件发生的可能性越大; P越接近 0,说明某事件发生的可能性 越小。 如果某事件的概率 P=0, 表示该事件不可能发生,称其为 不可能事件;如果 P=1, 表示该事件必然发生,称其为必然 事件。 随机事件是可能发生也可能不发生的事件。如果某随机 事件发生的概率 P 0.05,或 P 0.01表示该事件发生的可能 性很小,我们称其为小概率事件。其意义为在一次试验中不 发生事件。 数值变量资料的统计描述 统计图表 统计指标 平均数 v 均数 v 几何均数 v 中位数和百分数 均数

19、( mean) 均数是算术平均数 (arithmetic mean)的简 称。总体均数用希腊字母 ( )表示,样本均数 用 ( )表示。 1、应用条件 :均数反映同质的一组观察值 在数量上的平均水平,样本所代表总体为正态 分布。 2、计算方法: (1)直接法 当样本中观察值个数不多时,通常可用直接法,公式 为: 式中 是希腊字母,读作 sigma , 为求和的符号。 (2)加权法 当观察值个数较多时。通常可用加权法,公式为: 式中 X为各组的组中值,组中值等于该组的上限加 下限之和除以 2。 f为各组的频数,它相当于 权数 权衡了各组中值由于频数不同对均数的影响,故本 法也称为加权法。 几何均

20、数 ( geometric mean) 1、应用条件 : 观察的数据是呈倍数关系的资料 ,采用几何均数 简记为( G) 表示其平均水平。 2、计算方法: 如果观察的数据个数不多可以采用直接算法。 公式为: 如果样本量很大,或只掌握频数表资料可以按下式计算分组资料 的几何均数。公式为: 百分位数 (percentile) 百分位数是一种位置指标,用于描述一组观察 值在某百分位置上的水平。第百分位数以 PX表示 。 PX 是一个数,其意义是将某变量的观察值按从 小到大的顺序排列,比 PX 小的观察值的个数占 x% , 比 PX 大的观察值的个数占( 100-x) % 。 百分位数用于描述观察值序列

21、在某百分位位置 的水平,公式为: 中位数简记为 M, 中位数是一个位置指标,用于 描述一组资料的平均水平,其含义是将一组观察值 按从小到大的顺序排列,位置居中的数就是中位数 , 中位数即第 50百分位数。公式为: 应用条件为: 分布呈明显偏态; 分布的一端或两端无确定数值; 分布不清等资料。 中位数 ( median) u 极差 (R) u 四分位间距 (Q) u 标准差 (S) u 变异系数 (CV) u 标准误 (SE) 变异指标 极差简记为( R) 又称全距。是一组 观察值中最大值与最小值之差。 四分位数 , 简记为( Q) 是特定的 百分位数,是上四分位数与下四分位数之差 。可以看成是

22、全部观察值的位于中间的一半 的极差。 Q=P75-P25 极差( range) 和四分位间距( quartile) 标准差 (standard deviation) 标准差每个观察值到均数的平均距离,总 体标准差用希腊字母 ( )表示,样本标准差用 ( )表示。 1、应用条件:反映同质的一组观察值在数量 上的变异程度 , 样本所代表总体为正态分布 。 2、计算方法: (1)直接法 当样本中观察值个数不多时,通常可用直接法,公 式为: (2)加权法 当观察值个数较多时。通常可用加权法,公式为: 3、标准差应用 v 标准差的大小反应变异程度的大小,标准 差大 ,表示变异程度大,即观察值较分散, 反

23、之则表示变异程度小,较集中。 v 结合均数确定医学参考值范围。 v 结合均数计算变异系数。 v 计算标准误。 当两组资料单位不同或均数相差较大时,变异大小不能 直接用标准差进行比较,应计算标准差对均数的百分比,即 变异系数 (coefficient of variation, 简记为 CV)。 公式为: 当观察值为统计量时,描述其变异程度的大小用标准误 ( standard error简记为 SE)。 公式为: 变异系数和标准误 计量资料的统计推断 (总体均数的估计与假设检验 ) v均数的抽样误差与标准误 v总体均数估计 v假设检验 v 抽样研究 : 由样本推断总体的过程。 v 抽样误差 :

24、由抽样引起的样本指标与 总体指标的差异称为抽样误差 。 抽样误差 是不可避免的,但只要样本是随机抽取的 ,就可以用统计方法来估计它的大小。 均数的抽样误差与标准误 v均数标准误 : 样本均数变异程度的大小,反 映了均数的抽样误差的大小。我们以样本均数 的标准差作为衡量均数抽样误差大小的尺度, 即均数的标准误 。 公式为: v均数标准误和标准差相同,都是说明变异 程度大小的指标。不同的是标准差表示的是 某变量个体观察值变异程度的大小,而标准 误表示的是样本均数变异程度的大小。 样本 含量越小,抽样误差越大,即标准误越大; 反之样本含量越大,抽样误差越小,即标准 误越小。 根据研究设计类型选择分析

25、 方法 在成组比较设计中,若是两组 比较需要应用 t检验或 X2检验。多组比较 需应用方差分析、行 列表 X2检验或分级 的分析方法。 成组比较的设计 把除处理因素外,其他条件基本相似的受试对 象配成对子,每对中的两个随机分配到两个处理组 。 在同一受试对象上进行两种不同的处理。上述 两种情况其目的是推断两种处理的效果有无差别。 在某项处理前后观察受试对象的某指标值,通 过处理前后该指标值的差推断该处理是否有效。 这种类型的设计需要按照配比的 t检验, X2检 验及配对的病例对照研究方法进行数据分析。 配对设计 重复测量的设计 这类设计方法是在给定一个处理 因素后在不同的时间重复测量某一效应变

26、量 的改变情况。如欲评价生物制品接种后的免 疫学效果,在接种后的 2周、 4周、 6周和 8周 测定抗体滴度,即为此类设计类型。对于这 种设计类型的数据需应用重复测量的方差分 析方法进行数据的分析。 多因素设计 若在研究设计中有多个自变量,则 可根据因变量的性质选择合适的多因素分析方 法。如果自变量是数值变量,则可考虑应用多 元回归分析方法、协方差分析方法。如果是分 类变量,则可选择 logistic回归分析方法、判 别分析方法及聚类分析方法等。 根据变量的类型选择分析 方法 区别与明确研究的因变量和自变量具有重 要的流行病学与生物统计学意义,首先它有助 于选择拟研究的变量,对调查表的设计具有

27、指 导作用。 其次数据分析阶段可以指导数据分析方法 的选择及模型的建立。若因变量是分类变量, 则常考虑应用分类变量的分析方法,如卡方检 验, logistic回归分析等。如果因变量是数值变 量,则考虑应用数值变量的分析方法如 t检验、 方差分析,协方差分析、多元回归等。同时明 确自变量与因变量可以建立正确的统计学分析 模型。 因变量应该放在模型的左侧,自变量则放在模 型的右侧。 例如欲评价不同治疗方法(口服药物、注射胰 岛素及膳食控制)对糖尿病人的治疗效果(血糖水 平),在分析时要求调整病人的性别、年龄和病程 的影响。对本例的处理需要进行协方差分析,在应 用 SAS进行分析时,要将血糖水平(因

28、变量)放在 模型的左则,而治疗方法或其它协变量( covariate )即性别、年龄和病程放在模型的右侧。又如分析 脂蛋白( a)与冠心病发生的关系,则冠心病是否发 生为因变量,脂蛋白( a)则为自变量,不可颠倒这 种关系。 不同变量类型的数据分析方法选择 因 变 量 自 变 量 数 值变 量 分 类变 量 有序 变 量 数 值变 量 相关分析,多元回 归 分析 t检验 ,方差分析, 协 方差分析,多 元回 归 分析 相关分析,多元回 归 分析 分 类变 量 t检验 ,方差分析, logistic回 归 分 析 ,判 别 分析, 聚 类 分析 c2检验 , logistic 回 归 分析 c2

29、检验 有序 变 量 方差分析, logistic 回 归 分析 ,判 别 分析,聚 类 分析 c2检验 , logistic 回 归 分析 相关分析, c2检验 生存 时间 生存分析 不同研究设计和数据类型的数据分析方法 选择 研究 设计类 型 变 量 类 型 两 组 比 较 两 组 以上比 较 实验 前后比 较 重复 测 量 两 变 量 间 的 联 系 重复 测 量的方差分 析 线 性回 归 , Pearson 相关系数 数 值变 量 t检验 方差分析 配 对 t检验 分 类变 量 c2检验 c2检验 配 对 c2检验 列 联 表相关系数 有序 变 量 Mann-Whitney 秩和 检 验

30、 Kruskal-Wallis分 析 Wilcoxon符号 秩和 检验 Spearman相关系数 生存 时间 生存分析 数据的分析程序 数据的转换 1 )非正态数据的变量转换 多数的统计学分析方法是建立在数 据正态分布的基础上的,若数据不符合正 态分布,则不能够应用参数检验 (parametric test)的方法,只能应用非参数 检验 (non-parametric test)的方法,而非 参数的方法不是对原始数据的检验,如秩 和检验就是非参数检验方法之一,它是对 原始数据的秩次 (rank)进行检验,这样可能 损失数据信息,降低检验效率 在对数值变量进行分析时,需首先根据统计 分析方法 /

31、统计分析公式的限制性使用条件对数据 进行 “条件 ”检验,如正态性检验和方差齐性检验 等。很多统计学软件具有方便的正态性检验、方 差齐性检验功能如 SAS软件等 .若经过检验数据不 符合使用条件,就需要进行数据的变量变换,变 换后符合条件就可以应用参数检验的方法,否则 ,只有应用非参数检验的方法。 数据变量转换的方法很多,可以根据数据的 分布特征,选择合适的数据转换方法。常用的方 法有对数变换,平方根变换或倒数变换等。 2) 分类变量转换成哑变量 若分类变量是二分类尺度及顺序尺度 ,则可直接应用其原有的数量化数值,但对 于名义尺度因为各类别间没有顺序关系,在 进行不同分析(包括多元分析、 lo

32、gistic回归 、 Cox回归等)时,不能使用原始的计算机录 入数值,必经进行变量转换。即将该变量转 换成(水平数 -1)个哑变量,再将这些新转换 的变量放入多因素模型中。 t检验的应用条件 两组数据的比较 1样本量比较小( n50) 2样本来自正态总体 3两样本总体方差齐同 当两样本方差不齐时可以采用 t检验,变 量变换,或者秩和检验。 方差分析的应用条件 两组以上数据的比较 1各样本是相互独立的随机样本; 2各样本要来自正态总体; 3要求各个样本的总体方差齐同。 多个样本均数间的两两比较 Newman Keuls检验,亦称 Student Newman Keuls( SNK) 检验,简称

33、 q检验 。 最小显著性差距 (LSD)t检验。 协方差分析 定量分析中,进行两个样本或者多个样 本的均数比较时,不仅需要使用假设检验判 断其差异是否具有统计学差异,还应该考虑 他们之间是否存在混杂因素(协变量)的影 响。若存在协变量,则应该通过协方差分析 进行校正。协方差分析是定量变量分析中控 制混杂因素的重要手段 影响观察指标的其他非研究性因素(混 杂因素)在统计分析中又称之为协变量;考虑协变 量影响的方差分析即为协方差分析。协方差分析是 解决以上问题的分析方法,它将线性回归与方差分 析结合起来,检验 2个或者多个修正均数之间有无差 别的假设检验方法。一般是先用直线回归的方法找 出各组因变

34、量与协变量之间的数量关系,求得修假 定协变量相等时的修正系数,然后用方差分析比较 修正均数间的差别。 协方差分析的条件 1各个样本来自方差齐同的正态总体 2各组的总体直线回归系数相同,且都不为 0。 协方差分析的判别步骤: 1正态性和方差齐性检验; 2判断协变量与因变量有无线性关系; 3判断各组回归直线是否平行。 直线回归与相关的区别与联 系 区 别 直线相关 直线回归 变 量 地位 变 量 x 变 量 y 处 于 平等的地位,彼此 相关关系 变 量 y 称 为 因 变 量, 处 在被解 释 的地位, x 称 为 自 变 量,用于 预 测 因 变 量的 变 化 变 量 性 质 所涉及的 变 量

35、 x 和 y 都是随机 变 量, 要求两个 变 量服从 双 变 量正 态 分布 因 变 量 y 是随机 变 量 ,自 变 量 x 可以是随机 变 量,也可以是非随机 的确定 变 量 实际 作用 主要是描述两个 变 量之 间线 性关系的 密切程度 (相关系数 无 单 位) 揭示 变 量 x 对变 量 y 的影响大小 (回 归 系数 有 单 位), 还 可以由回 归 方程 进 行 预测 和控 制 多元线性回归的基本概念 事物间的相互联系往往是多方面的, 在很多情况下对应变量 y 发生影响的自变量往往不 止一个 。多元线性回归的目的就是用一个多元线 性回归方程表示多个自变量和 1个应变量间的关系 。

36、 标准偏回归系数表示其他自变量固定的情况下, xi改变一个单位, y平均改变 bi个单位。 多元线性回归的应用条件: 1. 独立性:各观察对象间相互独立。 2. 线性:自变量与应变量间的关系为 线性。 3. 正态性:自变量取不同值时,应变 量的分布为正态。 4. 方差齐性:自变量取不同值时,应变 量的总体方差相等。 5. 当不符合条件时,可对自变量进行变 换。 如: 要比较各个自变量对于应变量的作用大 小,不能用偏回归系数,因为各偏回归系数 的单位不同。必须把偏回归系数标准化,化 成没有单位的标准偏回归系数 . 消除不同单位的影响后,标准偏回归系 数的绝对值越大,该自变量对于应变量的作 用越大

37、,但该差别是否有统计意义,也必须 经过检验。 ( 2) 对各偏回归系数的显著性检验: F检验与 t检验 1. 计算截距和各偏回归系数。 2. 多元回归方程的显著性检验: ( 1)整个方程的显著性检验:用方差分析。 逐步回归分析的目的是建立 “最优 ”回归 方程。 “最优 ”回归方程是指包含所有对 y有显著 作用的自变量,而不包含对 y作用不显著的自 变量的方程。 逐步回归分析的基本概念 逐步回归分析的计算方法 在供选的自变量 Xi中,按其对 y的作用大小 ,由大到小地把自变量逐个引入方程, 每引入一个 自变量就对它作显著性检验,显著时才引入,而当 新的自变量进入方程后 , 对方程中原有的自变量

38、也要 作检验,并把作用最小且退化为不显著的自变量逐 个剔出方程。因此,逐步回归的每一步(引入一个 变量或剔除一个变量都称为一步)前后都要作显著 性检验,以保证每次引入新变量前方程中只包含作 用显著的自变量。这样一步步进行下去 , 直至方程中 所含自变量都显著而又没有新的作用显著的自变量 可引入方程为止。 逐步回归分析在医学研究中的应 用及需要注意的几个问题 1方程 “最优 ”问题,实际是精选自变量以求得拟和效 果最好的多元回归方程。 最优子集回归 是选择一种使回归方 程拟和最好的自变量,而逐步回归则选择对因变量作用有意 义的自变量。要根据研究目的选用适合方法。 2逐步回归主要在医学中用于病因探

39、索,临床疗效分 析及控制等。 3线性回归模型要注意正态性,方差齐性和独立性, 因变量必须是随机变量等。 4入选变量如果明显地与实际问题的专业理论不一致 时,首先检查数据是否有异常点,自变量间有无共线性存在 ,数据输入是否有误等,要结合专业知识作出合理的解释。 5逐步回归在对大量因素进行分析时,可以先进行聚 类分析,然后进行逐步回归。通常,观察单位取变量值的 5 10倍为宜。 Logistic回归分析的基本思想 回忆: 线性回归分析对因变量的要求 因变量 y 连续型 服从正态分布 胆固醇含量 自变量 x 数值型 与 Y呈线性关系 年龄 舒张压 医学研究中经常遇到分类型变量,例 如: 二分类变量:

40、 生存与死亡 有病与无病 有效与无效 感染与未感染 多分类有序变量: 疾病程度(轻度、中度、重度) 治愈效果(治愈、显效、好转、无效) 多分类无序变量: 手术方法( A、 B、 C) 就诊医院(甲、乙、丙、丁) 这种回归分析问题不能借助于线性回归 模型,因为因变量的假设条件遭到破坏。 能否找到一种其他形式的模型 y=f(x)来描 述分类变量 y和 x之间依存关系呢? 因为从数学角度看,使得 x取任意值而 y仅 取 1和 0两个值的的函数不存在。 转换为分析 y取某个值的概率 变量 p与 x的 关系 不能直接分析 变量 y与 x的关系 Logistic回归模型 Logistic回归分析的分类 按

41、数据的类型: 非条件 logistic回归分析(成组数据) 条件 logistic回归分析(配对病例 -对照数据 ) 按因变量取值个数: 二值 logistic回归分析 多值 logistic回归分析 按自变量个数: 一元 logistic回归分析 多元 logistic回归分析 Logistic 回归分 析的数学模型 1、一元 logistic回归模型 令 y是 1,0变量, x是一个危险因 素; p=p(y=1|x) , 那么,二值 变量 y关于变量 x的一元 logistic 回归模型是: 其中, 和 是未知参数或待估计的回归系数。该模型描述了 y 取某个值(这里 y=1)的概率 p与自

42、变量 x之间的关系 多元 logistic回归模型 令 y是 1,0变量, x1,x2, xk是 k个危险因素 ; p=p(y=1|x1,x2, xk), 那么,变量 y关于变 量 x1,x2, xk的 k元 logistic回归模型是: Logistic 回归模型的另外一种形式 它给出变量 z=logit(p)关于 x 的线性函数。 参数估计的步骤 1数据结构 设有 P个危险因素 X1,X2, Xn及 结果分析变量 Y,观察例数为 n。进行 logistic回归时,应将原始资料进行整理 ,一般格式如下 编 号 因素 Y X1 X2 XP 1 X11 X12 XP1 Y1 2 X21 X22

43、XP2 Y2 n Xn1 Xn2 Xn3 XnP Yn 2 参数的估计 Logsitc回归的参数估计常用最大似 然估计法。其基本思想是先建立似然函数和 对数似然函数,求似然函数或对数似然函数 达到极大值时参数的取值,即为参数的最大 似然估计值。可求出 值。 3 假设检验 求得各个参数的估计值之后,并不意味着 每个因素都与因变量有联系,模型中应只保留对 因变量有影响 因素,因此要求对方程中的各变量 逐一进行检验,剔除对因变量无影响的因素,并 对拟和的模型进行检验。 即使用似然比检验法,通过逐步回归筛选 自变量,最后得到具有统计学意义的 logistic回归 方程。该过程很复杂,由计算机完成。 医

44、学中经常需要作配对病例 -对照研究。所谓的配对病 例 -对照研究指的是在病例 -对照研究中,对每一个病例配以 性别、年龄或其它条件相似的一个 (1:1)或几个 (1:M)对照, 然后分析比较病例组与对照组以往暴露于致病因素的经历。 分析配对病例 -对照研究资料的统计分析方法一般采用 条件 logistic回归分析。 条件 logistic回归分析的数学模型以及分析原理方法均 和 非条件 logistic回归分析类似。因为参数的估计公式涉及到 条件概率理论,所以称为条件 logistic回归分析。 条件 logistic回归分析 Logistic回归分析和线性回归分析 的异同点是什么? 相同点: 都可以校正混杂因子的影响; 都可以利用模型来筛选危险因子; 都可以用来做预测。 不同点: 前者对因变量无分布要求,后者要求因变量是正态分 布变量; 前者要求因变量必须是分类型变量,后者要求因变量 必须是连续型数值变量。 前者不要求自变量和因变量呈线性关系,后者要求自 变量和因变量呈线性关系; 前者是分析因变量取某个值的概率与自变量的关系, 后者是直接分析因变量与自变量的关系。 谢 谢

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 医药卫生

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。