1、流行病学 Epidemiology 第九章 偏倚及其控制 Biases and Their Control 研究的解说涉及到研究的真实 性的问题。研究的真实性直接关系 到是否获得正确的结论,而真实性 需要通过变异性估计来确定。 Date 2 第一节 研究结果的变异性 第二节 研究的真实性 第三节 研究的偏倚 Date 3 第一节 研究结果的变异性 概 述 个体水平的变异性 群体水平的变异性 样本水平的变异性 Date 4 变异性 (variability) 研究结果包括描述性和分析性数据(指标) 的变动或波动。 第一节 研究结果的变异性 一 、概 述 Date 5 l 生物学(真实)变异和测量
2、变异 生物学变异 真实的客观变异 测量变异 测量过程的误差 l 随机变异和系统变异 随机变异 绝对值和方向交错变化,正态分布 系统变异 绝对值和方向保持恒定 第一节 研究结果的变异性 变异的来源分为两个层次 Date 6 某个体特征测得值的变化,是个体真值随时间 的改变,或是由于测量误差引起的变化。 第一节 研究结果的变异性 二、个体水平的变异性 Date 7 l 日间变异 l 年龄 l 膳食运动 l 环境 仪器标度差 仪器 精密度差 读数或记录错误 个体状态 测量误差 Date 8 l 个体的累计变异 群体中的个体具有不同的遗传素质并受环境影响 l 常大于个体变异 根据群体的变异范围确定 “
3、 正常值 ” 范围,用于判 定个体测得值是否 “ 正常 ” l 群体水平的变异性受测量误差影响 第一节 研究结果的变异性 三、群体水平的变异性 Date 9 通过不同样本研究所得结果的差异性 为什么高水平的血清总胆固醇是不利的或 不健康的? 这可以在关于血清总胆固醇与心血管死亡 风险呈正相关的研究中找到答案。 如 Framingham心脏研究。 第一节 研究结果的变异性 四、样本水平的变异性 Date 10 描述性结果的样本变异性 第一节 研究结果的变异性 样本 A 样本 C 样本 B Date 11 在图 8-1中,群体高胆固醇率为 25%,样 本 A为 40%,样本 B为 20%,样本 C
4、为 0%。 增大样本含量,样本的变异性会减少 ,样本的高胆固醇率对群体的代表性会增大。 第一节 研究结果的变异性 Date 12 分析性结果的样本变异性 膳食改良组 膳食改良组 降低胆固醇药物组 降低胆固醇药物组 研究 A(研究对象 200人,随机分配到两组 ) 第一节 研究结果的变异性 Date 13 如图 8-2,研究 A和 B中膳食改良组五年内发生心机梗死的风险 为 9%,而降胆固醇药物组为 6%。 研究 A样本较小( 200人),两组效应指标(心肌梗死风险) 的 95%可信限较大,发生重叠,无显著性差异。 研究 B样本较大( 2000人),两组效应指标(心肌梗死风险 )的 95%CI较
5、小,未发生重叠,有显著性差异。 第一节 研究结果的变异性 Date 14 样本越大,效应估计值的抽样误差越小( 95%可信限越小),统计检验能发现的两组间效 应差值越小。 样本非常大,两组间差异很小的效应值也 会有统计学显著差异,但这很少有生物学或临床 意义。 Date 15 第二节 研究的真实性 概 述 内部真实性 外部真实性 Date 16 真实性 (效度 ) 定义 指研究收集的数据、分析结果和所 得结论与客观实际的符合程度。 研究误差 真实性的反面变异可以是真实的 (如生物学个体变异),而反映研究误差 的变异肯定是不真实的。 一、概 述 Date 17 系统误差 称为偏倚 来自于对象选取
6、、测量 和统计分析等的方法学缺陷,有固定方向和固定大 小的误差 。 随机误差 用统计学方法来估计,增大样本 含量可减少,没有固定方向和固定大小,一般呈正 态分布 。 研究误差的两种常见类型 Date 18 二、内部真实性 内部真实性( internal validity) 定义 研究结果与实际研究对象真实情况 的符合程度 ,它回答一个研究本身是否真实或 有效。 改善措施 限制研究对象的类型和研究的环境条件 。 第二节 研究的真实性 Date 19 三、外部真实性 外部真实性( external validity) 定义 研究结果与推论对象真实情况的符合 程度,又称为普遍性( generaliz
7、ability)。 它回答 一个研究能否推广应用到研究对象以外的人群。 改善措施 增加研究对象的异质性,使得研究对象的代表 性范围扩大。 第二节 研究的真实性 Date 20 在实际研究时,需要综合平衡考虑 研究对象的同质性和异质性问题 Date 21 第三节 研究的偏倚 选择偏倚 信息偏倚 混杂偏倚 混杂偏倚的分层分析 Date 22 1946年, Berkson做最著名的偏倚研究并给 予证实,又称为 Berkson偏倚。 1976年, Miettinen详细讨论了偏倚的定义, 并给出分类框架 ,分三类 选择偏倚 信息偏倚 混杂偏倚 Date 23 一、选择偏倚 ( selection bi
8、as ) 定义 研究对象的选取过程中,由于选取方式不当,导致 入选对象与未入选对象之间存在系统差异,由此造成的偏 倚称为选择偏倚。例如研究对象采用志愿者,方便样本, 或者研究对象的无应答或失访等。 第三节 研究的偏倚 Date 24 描述性研究的选择偏倚 主要体现 在样本对总体的代表性上 如不是采用随机抽样而是使用方便样本,或某些特 定群体(志愿者、因特网利用者等)造成的外部效度(外 推)受限问题。 控制方法 尽量采用随机抽样,避免样本选取的偏向 对特定群体的结果在外推上要谨慎等 第三节 研究的偏倚 Date 25 分析性研究的选择偏倚 主要体现 研究对象进入、排除、不参与或失访等与研究暴露
9、或处理因素存在关联,由此增大或减少暴露与疾病、处理与 效应的关联,导致效应估计的偏倚。 控制方法 选取具体环节或已选取人群的具体特征 分析研究对象的选取是否同暴露或处理因素有关 第三节 研究的偏倚 Date 26 常见选择偏倚 入院偏倚 失访偏倚 志愿者偏倚 第三节 研究的偏倚 Date 27 确定有无选择偏倚的关键 把握选取环节或已入选对象,是否存在人为增 大或减少研究因素与结局的关联程度 控制 方法 严密掌握对象选取的各个环节,注意选取对象 的代表性,增加应答和减少失访等 第三节 研究的偏倚 Date 28 二、信息偏倚 ( information bias ) 定 义 又称测量偏倚或观察
10、偏倚,是来自于测量或资料收集方法的 问题,使得获取的资料存在系统误差。由于流行病学的暴露或疾病 多为分类测量,所以信息偏倚又可称为错误分类偏倚( misclassification bias)。 信息偏倚同样影响描述性研究和分析性研究的结果。 第三节 研究的偏倚 Date 29 无差异性错误分类和差异性错误分类 第三节 研究的偏倚 无差异性错误分类 差异性错误分类 错误分类数据 错误分类数据 研究真实数据 研究真实数据 Date 30 差异性信息偏倚的两种常见类型 回忆偏倚( recall bias) 产生于研究对象记忆过去活动和暴露能力的差异。 调查者偏倚( interviewer bias
11、) 产生于调查者对研究对象有差异性地收集信息。采取盲法, 可以降低调查者偏倚。 第三节 研究的偏倚 Date 31 为了减少错误分类以及改善测量的准 确性,研究者们正在越来越多地使用生物学 标记物( biological markers)。 它们可以用来 测量易感性、内暴露(实际进入体内)剂量 或生物学效应(剂量)等。 第三节 研究的偏倚 Date 32 三、混杂偏倚( confounding bias ) 定义 是指暴露因素与疾病发生的相关 (关联 )程度受到 其他因素的歪曲或干扰。 混杂的本来含义是 “ 混合掺杂 ” ( mixing together ),这里是指暴露因素对疾病的独立效应
12、与 混杂因素的效应混在一起,造成对暴露因素效应的估 计偏倚。 第三节 研究的偏倚 Date 33 判定原则 比较混杂因素调控前后的暴露因素效应估计值,如果 存在有意义的差异,就产生了混杂偏倚。 调控的统计方法 设计阶段:标准化率、分层和多变量分析 设计阶段:配比、随机化分配或限制进入 第三节 研究的偏倚 Date 34 继发关联( secondary association) 定义 是一种纯粹由混杂偏倚产生的关联 即怀疑的病因(暴露) E与疾病 D并不存在因 果关系,而是由于两者( E,D) 有共同的原因 C, E,D 同 C存在关联,从而继发产生 E与 D的关联。 第三节 研究的偏倚 C ?
13、 D E Date 35 例如 高血清胆固醇是冠心病的危险因素,高血清 胆固醇可产生沉积于眼睑的黄色瘤,从而导致黄色 瘤与冠心病的继发关联。另外, E与 C也可以由于相 关(因果方向不明)而产生继发关联。 例如 吸烟是胰腺癌的危险因素,吸烟又与喝咖啡 存在相关(没有确定的时间先后),从而造成喝咖 啡与胰腺癌的继发关联。 第三节 研究的偏倚 Date 36 直接因果关联的歪曲 如果怀疑病因 E与疾病 D既存在直接关联,又存在间 接关联 (图 A)或与其他危险(保护)因素 F存在相关 (图 B) ,暴露 E与疾病 D的直接因果关联程度或方向将可能受到混 杂干扰,即得到歪曲的关联估计值。 第三节 研
14、究的偏倚 F D E F D E ? ?A B Date 37 例如 静脉吸毒 E与性乱 F都是 HIV感染 D的危险因素 ,吸毒者易发生多性伴行为,即吸毒同 HIV感染既存 在直接关联( ED ) 又存在间接关联( EFD )( 图 8-3,(2)),吸毒与多性伴没有确定的时间先后而 呈双向相关(图 8-3,(3)),多性伴 F将对吸毒 E与 HIV 感染 D的直接因果关联起混杂或歪曲作用。 第三节 研究的偏倚 Date 38 第三节 研究的偏倚 图 8-3 Date 39 四、混杂偏倚的分层分析 M-H(Mantel-Haenszel)分层分析方法的步骤 对可能的混杂因素进行分层 判定层间
15、 RR或 OR是否相等或相近 得到控制混杂后的调整 RR或 OR 再将调整 RR或 OR与分层前的粗 RR或粗 OR( cRR或 cOR) 进行比较 第三节 研究的偏倚 Date 40 队列研究 (1) 累计发病率资料 第三节 研究的偏倚 表 8-4 Date 41 (2) 发病密度资料 第三节 研究的偏倚 Date 42 病例对照研究 第三节 研究的偏倚 Date 43 ( 1)按可能的混杂因素吸烟分层 第三节 研究的偏倚 ai bi m1i ci di m0i ni n0 ti Date 44 (2) 判定层间关联效应水平是否同质 按是否吸烟分层后,两层内的饮酒与肺癌的关 联效应大小是同质 (同质性检验 )的,可以应用 M-H方 法计算综合 OR 第三节 研究的偏倚 Date 45 (3) 计算综合或调整 OR, 并与粗 OR比较 P 0.25 第三节 研究的偏倚 Date 46 (4) 结论 l 吸烟对饮酒与肺癌的关联( cOR = 3.69) 有混杂作用( cOR ORMH) l 控制吸烟的混杂作用后,饮酒与肺癌无关联( = 0.6509, P 0.25) l 注意针对 ORMH的 2检验是在排除了混杂偏倚的基础上再排除随 机误差,而针对 cOR的 2检验是建立在没有排除混杂偏倚的基础上 的 第三节 研究的偏倚 Date 47