1、 学习要点 1.偏倚、误差的概念 2.偏倚的种类 3.常见偏倚产生的原因 4.常见偏倚的控制 样 本总 体 人 群 外 推 随机抽取 真 实 性 推论的可靠程度 影响真实性的因素 观测值 真实值 误差 + 随机误差 (机遇 ) 系统误差 + (偏倚 ) 影响真实性的因素 观测值 真实值 误差 + 随机误差 (机遇) 系统误差 + 随机分布的 ,不可预测的 不可避免的(抽样引起) 可估计误差大小(统计学) 通过增加样本量或重复测量 取均值可以减小 系统的偏离真实值 可避免的 是必须控制的 有固定方向和固定大小 (偏倚 bias) 180 , 174, 215, 305 233, 276, 146
2、, 195 205, 188, 190, 295 170, 164, 248, 162 220, 219, 228, 250 295, 146, 220, 162, 228 219, 164, 190, 188, 233 305, 276, 195, 215, 170源群体 样本 A 样本 B 样本 C 高胆固醇率 = 40% =20% =0% 高胆固醇率 = 25% ( 240mg/dL) 图 1 源群体与样本高胆固醇率的样本变异性示例 源群体高胆固醇率为 25%,样本 A为 40%,样本 B为 20%,样本 C为 0%。如果增大样本含量,样本的变异性 会减少,样本的高胆固醇率对群体的代表性
3、会增大 图 2 膳食与药物预防心机梗死的样本变异性示例 一般而言,研究样本越大,效应估计值的一般而言,研究样本越大,效应估计值的 抽样误差越小(抽样误差越小( 95%可信限越小),此为可信限越小),此为 随机误差;系统误差与样本含量无关。随机误差;系统误差与样本含量无关。 l 图 2,研究 A和研究 B中膳食改良组五年内发生 心梗死的风险为 9%,降胆固醇药物组为 6% l A样本较小( 200人),两组效应指标(心肌梗 死风险)的 95%可信限较大,从而发生重叠,统 计检验无显著性差异 l 研究 B样本较大( 2000人),两组效应指标的 95%可信限较小,从而未发生重叠,统计检验有 显著性
4、差异 l 一般而言,研究样本越大,效应估计值的抽样 误差越小( 95%可信限越小),统计检验能发现 的两组间效应差值越小 Bias (600-540BC) Bias是古希腊时代七贤人之一 Lydia的国王克利萨斯向 Bias咨询建造、 部署战舰防御爱奥尼亚人的最好方法 Bias为了避免战争、流血,骗克利萨斯国 王说,爱奥尼亚人正在买马准备陆地战 后来, Bias向克利萨斯国王承认,他说了 谎,爱奥尼亚人实际上也在建造战舰 克利萨斯国王对 Bias的本意表示赞许,与 爱奥尼亚人讲和 后人将 “背离事实 ”称为 bias (Hunter D. Father of all bias? BMJ 200
5、2;324:1071) 常见偏倚 选择偏倚 (selection bias) 信息偏倚 (information bias) 混杂偏倚 (confounding bias) 选择偏倚 (Selection Bias) 不同类型 (就研究的暴露、结局特征 而言 ) 的个体入选研究的概率不同。 排除或过分代表某一类型个体。 无偏抽样 选择偏倚(吸烟与肺气肿) 肺气肿、继续 吸烟的人生存 期短 常见的选择偏倚 入院率偏倚 (admission rate) / Berkson偏倚 现患病例新发病例偏倚 (prevalence-incidence bias) /奈曼 ( Neyman) 偏倚 无应答偏倚
6、( non-response bias)和志愿者偏倚 ( volunteer bias) 入院率 偏倚 (admission rate) / Berkson偏倚 入院病人 解决办法:不同类型 的多家医院 病例组与对照组 ( 其他疾病的患者 ) 入院率不同 入选的与不入选的 暴露率不同 现患新发病例偏倚 (prevalence-incidence bias) / Neyman偏倚 入选的为现患或存活病例 不包括死亡病例、病程短 的病例 解决办法:新发病例 志愿者偏倚 内华达州烟雾型原子试爆试验:核弹试验观察 员中白血病的发病率 最终联系到 76%的现场观察员参加本次调查, 了解这些人中白血病的发
7、生情况 82%是调查员主 动联系他们的 18%是自己主动 联系调查员的 这些人中白血病的发 病率是那些由调查员 找到的人的 4.4倍 暴露者较不暴露者更易因某 些症状较早较频就医检查, 提高了早期病例检出率 如果入选者中早期病例较多 的话,则暴露比例必然被虚 假的 解决办法:早、中、 晚期病例 检出征候偏倚 (detection signal bias) / 暴露偏倚 (unmasking bias) 选 择 偏 倚 l 无应答偏倚 :调查对象不合作或因种种原因不 能或不愿意参加,从而降低了应答率,以后亦未 补查。如 应答率低于 70就较难以调查结果来估 计整个研究人群的现况。 l 失访偏倚
8、应控制在 5%以下,若超过 10%,作出结论 应慎重。 如果暴露组与未暴露组的失访率相似,失访者与 未失访者的结局发生率也相似,则失访将不会产生 偏倚。比较现实可行的方法是把失访者与未失访者 的基线资料中的一些特征加以比较,如差别不大, 则可假定结局发生率的差别可能也不大。否则,对 选择偏倚可能产生的影响应有充分估计。 选择偏倚的控制 l充分了解可能的选择偏倚的来源,在研究 的设计过程中尽量避免。 l在病例对照研究和现况研究中,尽量选择 新发病例而不是现患病例。 l在研究中采取相应措施,尽量取得研究对 象的合作,以获得尽可能高的应答率。 l尽量采用多种对照。 常见偏倚 选择偏倚 (select
9、ion bias) 信息偏倚 (information bias) 混杂偏倚 (confounding bias) 信息偏倚 (Information Bias) l 又称分类偏倚、观察偏倚。是在收集信息过程中 由于测量暴露与结局的方法 (工具 )有缺陷,使采集 到的信息不准确 (即不完全真实 ),从而引起偏倚。 l 常见偏倚 回忆偏倚 (recall bias):病例对照研究 报告偏倚 ( reporting bias) 调查者偏倚( interviewer bias) 调查工具、手段等引起的偏倚 l 错分是测量不准确导致的最直接的结果。 暴露的非差异性错分 解决办法:客观的指 征、明确的定
10、义 暴露:酗酒 调查方式:询问 暴露的非差异性错分 暴露:被动吸烟 调查方式:询问 解决办法:客观的指 征、明确的定义 暴露的非差异性错分 解决办法:客观的指 征、明确的定义 暴露的差异性错分 暴露:皮肤晒黑能力 疾病:黑素瘤 调查方式:询问 暴露的差异性错分 暴露:母亲孕期暴露 疾病:新生儿先天畸形 调查方式:询问 病例比对照会报告更多的不实的暴露 对照较病例会漏掉更多的暴露 信息偏倚的控制 l 校准测量工具 l 统一资料收集方法和人群分类标准 l 采用盲法收集资料 l 收集客观资料 l 广泛收集资料 l 严格的设计和保证研究人员的科学态度 常见偏倚 选择偏倚 (selection bias
11、) 信息偏倚 (information bias) 混杂偏倚 (confounding bias) 混杂偏倚 (confounding bias) 当研究某一因素和疾病的关系时,由于某个当研究某一因素和疾病的关系时,由于某个 与研究的因素和研究的疾病与研究的因素和研究的疾病 均有关均有关 的因素的影响的因素的影响 ,掩盖或夸大了所研究的暴露因素与疾病的联系,掩盖或夸大了所研究的暴露因素与疾病的联系 ,这种现象称为混杂,该因素称混杂因素,其带,这种现象称为混杂,该因素称混杂因素,其带 来的偏倚即混杂偏倚。来的偏倚即混杂偏倚。 参见参见 P119 吸烟、火柴与肺癌 烟草公司的研究者坚持认为火柴暴
12、露可以引起肺癌 他们开展了一项大型的病例对照研 究来检验这个假说 研究者通过人群登记系统找到了 1000名肺 癌病例,其中 820人曾携带过火柴 从人群中随机抽取了 1000名对照,经 X线确 认未患肺癌,其中 340人曾携带过火柴 根据这批数据,定量估计火柴与肺癌之间的 关联 吸烟、火柴与肺癌 火柴与肺癌 想分别了解一下吸烟者与不吸烟者中火柴与 肺癌的关系 结果发现在 1000名病例中, 900名为吸烟者 ,其中 810名曾携带火柴 在 1000名对照中, 300名为吸烟者,其中 270 名曾携带火柴 分层绘制 22表,计算火柴与肺癌的关联效应 值 吸烟、火柴与肺癌 OR粗 = 8.8 (7
13、.2, 10.9) OR吸烟者 = 1.0 (0.6, 1.5) OR不吸烟者 = 1.0 (0.5, 2.0) 吸烟、火柴与肺癌 这个例子说明:即使本来没有任何效应,混杂 也可以引起明显的效应 在火柴与肺癌的关系中,吸烟就是一个混杂因 素 (confounding factor, confounder) 吸烟混淆了火柴与肺癌之间的真实关系 问题:火柴对于吸烟与肺癌的关系是不是一个 混杂因素 混杂:吸烟、火柴与肺癌 OR粗 = 21.0 (16.4, 26.9) OR携带火柴 = 21.0 (10.7, 41.3) OR不携带火柴 = 21.0 (13.1, 33.6) 吸烟、火柴与肺癌 吸烟
14、 不是混杂 因素 火柴 肺癌 夜灯 女孩 Sonia,旁边是盏夜灯。夜里开着这盏夜灯很方 便,父母可以随时从门口查看屋里的情况。 夜灯与近视 (Quinn et al. Nature 1999) 现患比 = 2岁以前周围环境的夜灯儿童近视的发生 于是,父母关掉了 Sonia房中的夜灯,开始 每天在屋子里抹黑蹒跚 后来,还是在 Nature上,又发表了 2篇文章, 说夜灯与近视的发生没有关联 (Zadnik et al. and Gwiazda et al. Nature, 2000) 夜灯与近视 父母的担心没有了,于是又把夜灯打开了,皆大欢喜 什么样的因素是混杂因素 ? 与暴露相关 混杂因素要
15、么是所研究的暴露因素的 “因 ”,要么是 “果 ”,要么为 简单 “相关 ”,而非因果关系 混杂因素与所研究的暴露因素间的关联必须独立于其与所研究的 疾病间的关联,即,混杂因素与研究的暴露因素间的关联必须 可 见于无病个体 中 与疾病相关 不一定是疾病的 “病因 ”,可以只是真正病因的一个 标志指标 混杂因素与所研究的疾病间的关联必须独立于其与所研究的暴露 因素间的关联,即,混杂因素与所研究的疾病间的关联必须可见 于 无暴露个体 中 如果为所 研究疾病的结果 ,不管其与所研究暴露因素的关系,该 变量都 不是混杂因素 研究因素与疾病因果链中的中间变量 只与可疑暴露有关而与疾病无关的因素 什么样的
16、因素不是混杂因素 ? C 混杂因素 E 暴露因素 D 疾病 与暴露相关 与暴露相关 与疾病相关 与疾病相关 病因链上的中间变量 控制混杂的方法 研究设计阶段 随机化 限制 匹配 资料分析阶段 分层分析 多因素分析 标准化 随机化 目标人群 患病人群 未患病人群 某些某些 特征特征 5/10 2/10 3/10 病例与对照匹配 频数匹配 (frequency matching) 病例与对照匹配 1:1个体匹配 (individual matching) 某些某些 特征特征 配对 (pair matching)目标人群 患病人群 未患病人群 病例与对照匹配 1:R个体匹配 (individual
17、matching) 目标人群 患病人群 未患病人群 某些某些 特征特征 1:2, 1:3 1:R 下 章 案 例 l2002年 11月在中国广东省部分地区陆续出 现一些不明原因肺炎病例,最初称为传染性 非典型肺炎。 2003年 1月起疫情加速扩散, 2 月已呈全球流行态势。 3月 15日,世界卫生组 织( WHO)将其名称公布为严重急性呼吸道综 合症( severe acute respiratory syndrome,缩写为 SARS)。 4月 16日, WHO宣布 SARS是由一种新的冠状病毒感染所引起。 下 章 案 例 lSARS发病主要集中在 2003年 3月至 5月, 6 月疫情逐渐
18、平息。截止到当年 8月 7日,全球 累计报告 SARS病例 8422例,死亡 916例,病 例分布于各大洲的 32个国家和地区。中国内 地总发病数达 5327例,死亡 349例,病例分 布于 24个省市。其中北京、广东分别发生 2521例和 1512例,占全国总病例数的 75.7 。病例以青壮年为主, 20-29岁病例占 30, 20-60岁占 85。病例具有明显职业特点,医 务人员所占比例高达 20。发病无明显性别 差异。 问题 l 应该如何描述 SARS的流行强度? l 什么是 SARS的传染过程?请课外查阅 SARS的有 关资料后,结合本章学习内容,阐述 SARS传染过程 的影响因素及 SARS感染谱的主要特征。 l 什么是 SARS的流行过程?构成 SARS流行过程的 基本条件是什么?请课外查阅 SARS的有关资料后, 结合本章学习内容,阐述 SARS流行过程的具体情况 。 l 为什么 SARS能够在短时间内在全球传播和流行? 作为一种新的传染病,又为什么能够在短时间内得到 控制? l 假设某个地区发生了 SARS疫情,请问应该怎样做 好 SARS的防控工作? l 传染病常见的传播途径有哪些? 大家辛苦了