流行病学研究中的偏倚汇总.ppt_文客久久网wenke99.com

资源描述

1、学习要点 1.偏倚、误差的概念 2.偏倚的种类 3.常见偏倚产生的原因 4.常见偏倚的控制样本总体人群外推随机抽取真实性推论的可靠程度影响真实性的因素观测值真实值误差 + 随机误差（机遇 ) 系统误差 + (偏倚 ) 影响真实性的因素观测值真实值误差 + 随机误差（机遇）系统误差 + 随机分布的 ,不可预测的不可避免的（抽样引起）可估计误差大小（统计学）通过增加样本量或重复测量取均值可以减小系统的偏离真实值可避免的是必须控制的有固定方向和固定大小 (偏倚 bias) 180 ， 174， 215， 305 233， 276， 146

2、， 195 205， 188， 190， 295 170， 164， 248， 162 220， 219， 228， 250 295， 146， 220， 162， 228 219， 164， 190， 188， 233 305， 276， 195， 215， 170源群体样本 A 样本 B 样本 C 高胆固醇率 = 40% =20% =0% 高胆固醇率 = 25% （ 240mg/dL）图 1 源群体与样本高胆固醇率的样本变异性示例源群体高胆固醇率为 25%，样本 A为 40%，样本 B为 20%，样本 C为 0%。如果增大样本含量，样本的变异性会减少，样本的高胆固醇率对群体的代表性

3、会增大图 2 膳食与药物预防心机梗死的样本变异性示例一般而言，研究样本越大，效应估计值的一般而言，研究样本越大，效应估计值的抽样误差越小（抽样误差越小（ 95%可信限越小），此为可信限越小），此为随机误差；系统误差与样本含量无关。随机误差；系统误差与样本含量无关。 l 图 2，研究 A和研究 B中膳食改良组五年内发生心梗死的风险为 9%，降胆固醇药物组为 6% l A样本较小（ 200人），两组效应指标（心肌梗死风险）的 95%可信限较大，从而发生重叠，统计检验无显著性差异 l 研究 B样本较大（ 2000人），两组效应指标的 95%可信限较小，从而未发生重叠，统计检验有显著性

4、差异 l 一般而言，研究样本越大，效应估计值的抽样误差越小（ 95%可信限越小），统计检验能发现的两组间效应差值越小 Bias (600-540BC) Bias是古希腊时代七贤人之一 Lydia的国王克利萨斯向 Bias咨询建造、部署战舰防御爱奥尼亚人的最好方法 Bias为了避免战争、流血，骗克利萨斯国王说，爱奥尼亚人正在买马准备陆地战后来， Bias向克利萨斯国王承认，他说了谎，爱奥尼亚人实际上也在建造战舰克利萨斯国王对 Bias的本意表示赞许，与爱奥尼亚人讲和后人将 “背离事实 ”称为 bias (Hunter D. Father of all bias? BMJ 200

5、2;324:1071) 常见偏倚选择偏倚 (selection bias) 信息偏倚 (information bias) 混杂偏倚 (confounding bias) 选择偏倚 (Selection Bias) 不同类型 (就研究的暴露、结局特征而言 ) 的个体入选研究的概率不同。排除或过分代表某一类型个体。无偏抽样选择偏倚（吸烟与肺气肿）肺气肿、继续吸烟的人生存期短常见的选择偏倚入院率偏倚 (admission rate) / Berkson偏倚现患病例新发病例偏倚 (prevalence-incidence bias) /奈曼（ Neyman）偏倚无应答偏倚

6、（ non-response bias)和志愿者偏倚（ volunteer bias) 入院率偏倚 (admission rate) / Berkson偏倚入院病人解决办法：不同类型的多家医院病例组与对照组 ( 其他疾病的患者 ) 入院率不同入选的与不入选的暴露率不同现患新发病例偏倚 (prevalence-incidence bias) / Neyman偏倚入选的为现患或存活病例不包括死亡病例、病程短的病例解决办法：新发病例志愿者偏倚内华达州烟雾型原子试爆试验：核弹试验观察员中白血病的发病率最终联系到 76%的现场观察员参加本次调查，了解这些人中白血病的发

7、生情况 82%是调查员主动联系他们的 18%是自己主动联系调查员的这些人中白血病的发病率是那些由调查员找到的人的 4.4倍暴露者较不暴露者更易因某些症状较早较频就医检查，提高了早期病例检出率如果入选者中早期病例较多的话，则暴露比例必然被虚假的解决办法：早、中、晚期病例检出征候偏倚 (detection signal bias) / 暴露偏倚 (unmasking bias) 选择偏倚 l 无应答偏倚：调查对象不合作或因种种原因不能或不愿意参加，从而降低了应答率，以后亦未补查。如应答率低于 70就较难以调查结果来估计整个研究人群的现况。 l 失访偏倚

8、应控制在 5%以下，若超过 10%，作出结论应慎重。如果暴露组与未暴露组的失访率相似，失访者与未失访者的结局发生率也相似，则失访将不会产生偏倚。比较现实可行的方法是把失访者与未失访者的基线资料中的一些特征加以比较，如差别不大，则可假定结局发生率的差别可能也不大。否则，对选择偏倚可能产生的影响应有充分估计。选择偏倚的控制 l充分了解可能的选择偏倚的来源，在研究的设计过程中尽量避免。 l在病例对照研究和现况研究中，尽量选择新发病例而不是现患病例。 l在研究中采取相应措施，尽量取得研究对象的合作，以获得尽可能高的应答率。 l尽量采用多种对照。常见偏倚选择偏倚 (select

9、ion bias) 信息偏倚 (information bias) 混杂偏倚 (confounding bias) 信息偏倚 (Information Bias) l 又称分类偏倚、观察偏倚。是在收集信息过程中由于测量暴露与结局的方法 (工具 )有缺陷，使采集到的信息不准确 (即不完全真实 )，从而引起偏倚。 l 常见偏倚回忆偏倚 (recall bias)：病例对照研究报告偏倚（ reporting bias) 调查者偏倚（ interviewer bias）调查工具、手段等引起的偏倚 l 错分是测量不准确导致的最直接的结果。暴露的非差异性错分解决办法：客观的指征、明确的定

10、义暴露：酗酒调查方式：询问暴露的非差异性错分暴露：被动吸烟调查方式：询问解决办法：客观的指征、明确的定义暴露的非差异性错分解决办法：客观的指征、明确的定义暴露的差异性错分暴露：皮肤晒黑能力疾病：黑素瘤调查方式：询问暴露的差异性错分暴露：母亲孕期暴露疾病：新生儿先天畸形调查方式：询问病例比对照会报告更多的不实的暴露对照较病例会漏掉更多的暴露信息偏倚的控制 l 校准测量工具 l 统一资料收集方法和人群分类标准 l 采用盲法收集资料 l 收集客观资料 l 广泛收集资料 l 严格的设计和保证研究人员的科学态度常见偏倚选择偏倚 (selection bias

11、) 信息偏倚 (information bias) 混杂偏倚 (confounding bias) 混杂偏倚 (confounding bias) 当研究某一因素和疾病的关系时，由于某个当研究某一因素和疾病的关系时，由于某个与研究的因素和研究的疾病与研究的因素和研究的疾病均有关均有关的因素的影响的因素的影响，掩盖或夸大了所研究的暴露因素与疾病的联系，掩盖或夸大了所研究的暴露因素与疾病的联系，这种现象称为混杂，该因素称混杂因素，其带，这种现象称为混杂，该因素称混杂因素，其带来的偏倚即混杂偏倚。来的偏倚即混杂偏倚。参见参见 P119 吸烟、火柴与肺癌烟草公司的研究者坚持认为火柴暴

12、露可以引起肺癌他们开展了一项大型的病例对照研究来检验这个假说研究者通过人群登记系统找到了 1000名肺癌病例，其中 820人曾携带过火柴从人群中随机抽取了 1000名对照，经 X线确认未患肺癌，其中 340人曾携带过火柴根据这批数据，定量估计火柴与肺癌之间的关联吸烟、火柴与肺癌火柴与肺癌想分别了解一下吸烟者与不吸烟者中火柴与肺癌的关系结果发现在 1000名病例中， 900名为吸烟者，其中 810名曾携带火柴在 1000名对照中， 300名为吸烟者，其中 270 名曾携带火柴分层绘制 22表，计算火柴与肺癌的关联效应值吸烟、火柴与肺癌 OR粗 = 8.8 (7

13、.2, 10.9) OR吸烟者 = 1.0 (0.6, 1.5) OR不吸烟者 = 1.0 (0.5, 2.0) 吸烟、火柴与肺癌这个例子说明：即使本来没有任何效应，混杂也可以引起明显的效应在火柴与肺癌的关系中，吸烟就是一个混杂因素 (confounding factor, confounder) 吸烟混淆了火柴与肺癌之间的真实关系问题：火柴对于吸烟与肺癌的关系是不是一个混杂因素混杂：吸烟、火柴与肺癌 OR粗 = 21.0 (16.4, 26.9) OR携带火柴 = 21.0 (10.7, 41.3) OR不携带火柴 = 21.0 (13.1, 33.6) 吸烟、火柴与肺癌吸烟

14、不是混杂因素火柴肺癌夜灯女孩 Sonia，旁边是盏夜灯。夜里开着这盏夜灯很方便，父母可以随时从门口查看屋里的情况。夜灯与近视 (Quinn et al. Nature 1999) 现患比 = 2岁以前周围环境的夜灯儿童近视的发生于是，父母关掉了 Sonia房中的夜灯，开始每天在屋子里抹黑蹒跚后来，还是在 Nature上，又发表了 2篇文章，说夜灯与近视的发生没有关联 (Zadnik et al. and Gwiazda et al. Nature, 2000) 夜灯与近视父母的担心没有了，于是又把夜灯打开了，皆大欢喜什么样的因素是混杂因素 ? 与暴露相关混杂因素要

15、么是所研究的暴露因素的 “因 ”，要么是 “果 ”，要么为简单 “相关 ”，而非因果关系混杂因素与所研究的暴露因素间的关联必须独立于其与所研究的疾病间的关联，即，混杂因素与研究的暴露因素间的关联必须可见于无病个体中与疾病相关不一定是疾病的 “病因 ”，可以只是真正病因的一个标志指标混杂因素与所研究的疾病间的关联必须独立于其与所研究的暴露因素间的关联，即，混杂因素与所研究的疾病间的关联必须可见于无暴露个体中如果为所研究疾病的结果，不管其与所研究暴露因素的关系，该变量都不是混杂因素研究因素与疾病因果链中的中间变量只与可疑暴露有关而与疾病无关的因素什么样的

16、因素不是混杂因素 ? C 混杂因素 E 暴露因素 D 疾病与暴露相关与暴露相关与疾病相关与疾病相关病因链上的中间变量控制混杂的方法研究设计阶段随机化限制匹配资料分析阶段分层分析多因素分析标准化随机化目标人群患病人群未患病人群某些某些特征特征 5/10 2/10 3/10 病例与对照匹配频数匹配 (frequency matching) 病例与对照匹配 1:1个体匹配 (individual matching) 某些某些特征特征配对 (pair matching)目标人群患病人群未患病人群病例与对照匹配 1:R个体匹配 (individual

17、matching) 目标人群患病人群未患病人群某些某些特征特征 1:2, 1:3 1:R 下章案例 l2002年 11月在中国广东省部分地区陆续出现一些不明原因肺炎病例，最初称为传染性非典型肺炎。 2003年 1月起疫情加速扩散， 2 月已呈全球流行态势。 3月 15日，世界卫生组织（ WHO）将其名称公布为严重急性呼吸道综合症（ severe acute respiratory syndrome,缩写为 SARS）。 4月 16日， WHO宣布 SARS是由一种新的冠状病毒感染所引起。下章案例 lSARS发病主要集中在 2003年 3月至 5月， 6 月疫情逐渐

18、平息。截止到当年 8月 7日，全球累计报告 SARS病例 8422例，死亡 916例，病例分布于各大洲的 32个国家和地区。中国内地总发病数达 5327例，死亡 349例，病例分布于 24个省市。其中北京、广东分别发生 2521例和 1512例，占全国总病例数的 75.7 。病例以青壮年为主， 20-29岁病例占 30， 20-60岁占 85。病例具有明显职业特点，医务人员所占比例高达 20。发病无明显性别差异。问题 l 应该如何描述 SARS的流行强度？ l 什么是 SARS的传染过程？请课外查阅 SARS的有关资料后，结合本章学习内容，阐述 SARS传染过程的影响因素及 SARS感染谱的主要特征。 l 什么是 SARS的流行过程？构成 SARS流行过程的基本条件是什么？请课外查阅 SARS的有关资料后，结合本章学习内容，阐述 SARS流行过程的具体情况。 l 为什么 SARS能够在短时间内在全球传播和流行？作为一种新的传染病，又为什么能够在短时间内得到控制？ l 假设某个地区发生了 SARS疫情，请问应该怎样做好 SARS的防控工作？ l 传染病常见的传播途径有哪些？大家辛苦了

展开阅读全文