1、,偏倚及其控制,Control of Bias,第九章,研究的解说涉及到研究的真实性的问题。研究的真实性直接关系到是否获得正确的结论,而真实性需要通过变异性估计来确定。,引 言,第一节 研究结果的变异性 第二节 研究的真实性 第三节 研究的偏倚,目 录,第一节 研究结果的变异性,概 述,个体水平的变异性,群体水平的变异性,样本水平的变异性,变异性(variability) 研究结果包括描述性和分析性数据(指标)的变动或波动。,第一节 研究结果的变异性,一 、概 述,生物学(真实)变异和测量变异生物学变异 真实的客观变异测量变异 测量过程的误差随机变异和系统变异随机变异 绝对值和方向交错变化,正
2、态分布系统变异 绝对值和方向保持恒定,第一节 研究结果的变异性,变异的来源分为两个层次,某个体特征测得值的变化,是个体真值随时间的改变,或是由于测量误差引起的变化。,第一节 研究结果的变异性,二、个体水平的变异性,日间变异年龄膳食运动环境,仪器标度差仪器精密度差读数或记录错误,个体状态,测量误差,个体的累计变异 群体中的个体具有不同的遗传素质并受环境影响常大于个体变异 根据群体的变异范围确定“正常值”范围,用于判定个体测得值是否“正常”群体水平的变异性受测量误差影响,第一节 研究结果的变异性,三、群体水平的变异性,通过不同样本研究所得结果的差异性 为什么高水平的血清总胆固醇是不利的或不健康的?
3、 这可以在关于血清总胆固醇与心血管死亡风险呈正相关的研究中找到答案。 如Framingham心脏研究。,第一节 研究结果的变异性,四、样本水平的变异性,描述性结果的样本变异性,第一节 研究结果的变异性,图81,样本A,样本C,样本B,在图8-1中,群体高胆固醇率为25%,样本A为40%,样本B为20%,样本C为0%。 增大样本含量,样本的变异性会减少,样本的高胆固醇率对群体的代表性会增大。,第一节 研究结果的变异性,分析性结果的样本变异性,膳食改良组,膳食改良组,降低胆固醇药物组,降低胆固醇药物组,研究A(研究对象200人,随机分配到两组),第一节 研究结果的变异性,如图8-2,研究A和B中膳
4、食改良组五年内发生心机梗死的风险为9%,而降胆固醇药物组为6%。 研究A样本较小(200人),两组效应指标(心肌梗死风险)的95%可信限较大,发生重叠,无显著性差异。 研究B样本较大(2000人),两组效应指标(心肌梗死风险)的95%CI较小,未发生重叠,有显著性差异。,第一节 研究结果的变异性,样本越大,效应估计值的抽样误差越小(95%可信限越小),统计检验能发现的两组间效应差值越小。 样本非常大,两组间差异很小的效应值也会有统计学显著差异,但这很少有生物学或临床意义。,第二节 研究的真实性,概 述,内部真实性,外部真实性,真实性(效度) 定义 指研究收集的数据、分析结果和所得结论与客观实际
5、的符合程度。,研究误差 真实性的反面变异可以是真实的(如生物学个体变异),而反映研究误差的变异肯定是不真实的。,一、概 述,系统误差称为偏倚 来自于对象选取、测量和统计分析等的方法学缺陷,有固定方向和固定大小的误差 。 随机误差 用统计学方法来估计,增大样本含量可减少,没有固定方向和固定大小,一般呈正态分布。,研究误差的两种常见类型,二、内部真实性,内部真实性(internal validity)定义研究结果与实际研究对象真实情况的符合程度,它回答一个研究本身是否真实或有效。 改善措施 限制研究对象的类型和研究的环境条件。,第二节 研究的真实性,三、外部真实性,外部真实性(external v
6、alidity) 定义研究结果与推论对象真实情况的符合程度,又称为普遍性(generalizability)。它回答一个研究能否推广应用到研究对象以外的人群。 改善措施增加研究对象的异质性,使得研究对象的代表性范围扩大。,第二节 研究的真实性,在实际研究时,需要综合平衡考虑 研究对象的同质性和异质性问题,第三节 研究的偏倚,选择偏倚,信息偏倚,混杂偏倚,混杂偏倚的分层分析,1946年,Berkson做最著名的偏倚研究并给予证实,又称为Berkson偏倚。 1976年,Miettinen详细讨论了偏倚的定义,并给出分类框架,分三类 选择偏倚 信息偏倚 混杂偏倚,一、选择偏倚(selection
7、bias),定义 研究对象的选取过程中,由于选取方式不当,导致入选对象与未入选对象之间存在系统差异,由此造成的偏倚称为选择偏倚。例如研究对象采用志愿者,方便样本,或者研究对象的无应答或失访等。,第三节 研究的偏倚,描述性研究的选择偏倚 主要体现在样本对总体的代表性上 如不是采用随机抽样而是使用方便样本,或某些特定群体(志愿者、因特网利用者等)造成的外部效度(外推)受限问题。控制方法 尽量采用随机抽样,避免样本选取的偏向对特定群体的结果在外推上要谨慎等,第三节 研究的偏倚,分析性研究的选择偏倚 主要体现 研究对象进入、排除、不参与或失访等与研究暴露或处理因素存在关联,由此增大或减少暴露与疾病、处
8、理与效应的关联,导致效应估计的偏倚。 控制方法选取具体环节或已选取人群的具体特征分析研究对象的选取是否同暴露或处理因素有关,第三节 研究的偏倚,常见选择偏倚 入院偏倚 失访偏倚 志愿者偏倚,第三节 研究的偏倚,确定有无选择偏倚的关键 把握选取环节或已入选对象,是否存在人为增大或减少研究因素与结局的关联程度 控制方法 严密掌握对象选取的各个环节,注意选取对象的代表性,增加应答和减少失访等,第三节 研究的偏倚,二、信息偏倚(information bias),定 义 又称测量偏倚或观察偏倚,是来自于测量或资料收集方法的问题,使得获取的资料存在系统误差。由于流行病学的暴露或疾病多为分类测量,所以信息
9、偏倚又可称为错误分类偏倚(misclassification bias)。 信息偏倚同样影响描述性研究和分析性研究的结果。,第三节 研究的偏倚,无差异性错误分类和差异性错误分类,第三节 研究的偏倚,表8-3,无差异性错误分类,差异性错误分类,错误分类数据,错误分类数据,研究真实数据,研究真实数据,差异性信息偏倚的两种常见类型 回忆偏倚(recall bias) 产生于研究对象记忆过去活动和暴露能力的差异。 调查者偏倚(interviewer bias) 产生于调查者对研究对象有差异性地收集信息。采取盲法,可以降低调查者偏倚。,第三节 研究的偏倚,为了减少错误分类以及改善测量的准确性,研究者们正
10、在越来越多地使用生物学标记物(biological markers)。它们可以用来测量易感性、内暴露(实际进入体内)剂量或生物学效应(剂量)等。,第三节 研究的偏倚,三、混杂偏倚(confounding bias),定义 是指暴露因素与疾病发生的相关(关联)程度受到其他因素的歪曲或干扰。 混杂的本来含义是“混合掺杂”( mixing together ),这里是指暴露因素对疾病的独立效应与混杂因素的效应混在一起,造成对暴露因素效应的估计偏倚。,第三节 研究的偏倚,判定原则 比较混杂因素调控前后的暴露因素效应估计值,如果存在有意义的差异,就产生了混杂偏倚。 调控的统计方法 设计阶段:标准化率、分
11、层和多变量分析 设计阶段:配比、随机化分配或限制进入,第三节 研究的偏倚,继发关联(secondary association) 定义 是一种纯粹由混杂偏倚产生的关联 即怀疑的病因(暴露)E与疾病D并不存在因果关系,而是由于两者(E,D)有共同的原因C,E,D同C存在关联,从而继发产生E与D的关联。,第三节 研究的偏倚,C,?,D,E,例如 高血清胆固醇是冠心病的危险因素,高血清胆固醇可产生沉积于眼睑的黄色瘤,从而导致黄色瘤与冠心病的继发关联。另外,E与C也可以由于相关(因果方向不明)而产生继发关联。例如 吸烟是胰腺癌的危险因素,吸烟又与喝咖啡存在相关(没有确定的时间先后),从而造成喝咖啡与胰
12、腺癌的继发关联。,第三节 研究的偏倚,直接因果关联的歪曲 如果怀疑病因E与疾病D既存在直接关联,又存在间接关联(图A)或与其他危险(保护)因素F存在相关(图B),暴露E与疾病D的直接因果关联程度或方向将可能受到混杂干扰,即得到歪曲的关联估计值。,第三节 研究的偏倚,F,D,E,F,D,E,?,?,A,B,例如 静脉吸毒E与性乱F都是HIV感染D的危险因素,吸毒者易发生多性伴行为,即吸毒同HIV感染既存在直接关联(ED)又存在间接关联(EFD)(图8-3,(2)),吸毒与多性伴没有确定的时间先后而呈双向相关(图8-3,(3)),多性伴F将对吸毒E与HIV感染D的直接因果关联起混杂或歪曲作用。,第
13、三节 研究的偏倚,第三节 研究的偏倚,图8-3,四、混杂偏倚的分层分析,M-H(Mantel-Haenszel)分层分析方法的步骤 对可能的混杂因素进行分层 判定层间RR或OR是否相等或相近 得到控制混杂后的调整RR或OR 再将调整RR或OR与分层前的粗RR或粗OR(cRR或cOR)进行比较,第三节 研究的偏倚,队列研究(1) 累计发病率资料,第三节 研究的偏倚,表8-4,(2) 发病密度资料,第三节 研究的偏倚,表8-5,病例对照研究,第三节 研究的偏倚,表8-6,(1)按可能的混杂因素吸烟分层,第三节 研究的偏倚,表8-7,表8-8,ai bi m1i ci di m0ini n0 ti,(2) 判定层间关联效应水平是否同质,按是否吸烟分层后,两层内的饮酒与肺癌的关联效应大小是同质(同质性检验)的,可以应用M-H方法计算综合OR,第三节 研究的偏倚,(3) 计算综合或调整OR,并与粗OR比较,P 0.25,第三节 研究的偏倚,(4) 结论,吸烟对饮酒与肺癌的关联(cOR = 3.69)有混杂作用(cOR ORMH)控制吸烟的混杂作用后,饮酒与肺癌无关联(= 0.6509, P0.25)注意针对ORMH的2检验是在排除了混杂偏倚的基础上再排除随机误差,而针对cOR的2检验是建立在没有排除混杂偏倚的基础上的,第三节 研究的偏倚,