1、第四章 队列研究,流行病学教研室,重点: 队列研究的概念; 基本原理; 队列研究各种率和效应估计指标的计算和意义,队列研究(cohort study)又称为群组研究,是将特定的人群按其是否暴露于某因素或按不同暴露水平分为n个群组或队列,追踪观察一定时间,比较两组或各组的结局的差异,以检验该因素与某疾病有无因果联系及联系强度大小的一种观察性研究方法。队列研究由于被观察对象在疾病出现以前先分组,然后随访一段时间观察再比较其结局,故有人称之为随访研究(follow- up study)。,一、概念,暴露 指接触过某种物质、具备某种特征或处于某种状态。 队列 有共同经历或有共同暴露特征的一群人分为固定
2、队列和动态队列 危险因素 泛指能引起某特定不良结局(outcome),或使其发生的概率增加的因子,包括个人行为、生活方式、环境和遗传等多方面的因素。,特定人群范围内的研究对象,出现某种结局,不出现某种结局,出现某种结局,不出现某种结局,非暴露组,暴露组,暴露状况,图示,如果某因素是某病的危险因素,那么暴露于该因素的人群经过一定时间后,其发病的比例一定高于未暴露人群,且暴露于该因素的机会越多则发病风险越高。反之,如果该因素不是危险因素,那么暴露与非暴露人群的发病率无差异或差异无统计意义。,二、基本思想:,属于观察法;设立对照组;由“因”及“果”,时序合理;检验露因素与疾病的因果联系科学性强。,三
3、、特点:,四、应用范围:1.验证病因假设2.考核疾病的防治效果3.观察暴露因素与多种疾病相关结局的关系4.研究疾病的自然史及其长期变动,五、分类:前瞻性队列研究历史性队列研究双向性队列研究,1.前瞻性队列研究 研究对象的分组是根据目前的暴露情况,研究的结局需随访观察一段时间才能得到。这是队列研究的基本形式.特点:最大优点是可以获取相对真实而可靠的资料;但是如果需要观察大量人群,则花费太大;如果疾病的潜伏期很长,则需要观察的时间很长。这些都会影响其可行性。,2. 历史性队列研究 研究工作是现在开始的,研究对象的分组是过去某个时间,研究的结局在研究开始时已经发生,暴露到结局的方向是前瞻性的。特点:
4、节省时间、人力和物力,出结果快,因而适宜于长诱导期和长潜伏期的疾病;常用于具有特殊暴露的职业人群的研究;研究常常缺乏影响暴露与疾病关系的混杂因素的资料,以至影响暴露组与未暴露组的可比性。,3. 双向性队列研究 在历史性队列研究之后,继续进行前瞻性队列研究叫双向性队列研究(ambispectivecohort study)。 特点:这种研究具有上述两种研究的优点,在一定程度上弥补了它们的不足。, 确定设计方法的原则1.前瞻性队列研究有明确检验假设;所研究疾病的发病率或死亡率一般不应低于5;有把握获得观察人群的暴露资料;有确定发病或死亡等结局的简便而可靠的手段;有把握获得足够数量的观察人群,并且该
5、人群能被长期随访观察而取得完整可靠的资料;有足够的人力、物力和财力。,2 . 历史性队列研究有足够数量完整可靠的有关暴露的记录或 档案材料;(2) 有可靠的的疾病诊断资料;(3) 可获得有关暴露与疾病关系的混杂因素的 资料。, 队列研究的实施,(一)确定研究目的队列研究首先要确定本次研究的目的,即根据一些病因线索提出病因假设,然后验证假设是否科学、正确。这直接关系到研究的成败,故一定要有足够的科学依据,可以先通过现况研究或病例对照研究结果初步验证假设,然后在此基础上提出队列研究的检验假设。,(二)确定研究因素及研究因素的定义一般把导致疾病事件增加的暴露因素称为危险因素或致病因素,把导致疾病事件
6、降低的暴露因素称为保护因素。暴露既可以是致病因素或保护因素还可是另一个暴露产生的后果,即另一种疾病。,有了明确的研究因素后,接下来就须给研究因素一个明确的定义,如果我们确定的暴露因素为吸烟,那么就必须事先明确规定何为吸烟?常用的吸烟定义为平均每天吸烟量达到1支或以上、时间持续1年以上者,也有人将1年内吸烟总量达到180支以上者定义为吸烟。究竟如何定义暴露因素,可以通过查阅文献或请教有关专家,同时结合自己的研究目的、才力和人力限度和对研究结果的精确度要求等因素,综合考虑后对暴露因素进行定义。,另外,要尽可能对暴露因素进行定量,并且要考虑到暴露的时间长短以及暴露是否连续。除了要确定主要的暴露因素外
7、,也应同时收集其它次要的暴露因素资料及一般特征资料。,(三)选择研究对象(暴露人群的选择 )(1)特殊暴露人群或职业人群指对某因素有高的暴露水平的人群。如果暴露因素与疾病有关,则高度暴露的人群中疾病的发病率或死亡率就可能高于其他人群,这将有利于探索暴露与疾病之间的联系。在研究暴露与疾病的关联时,常常首先选择特殊暴露人群。某些职业中常存在特殊暴露因素,可能与某些疾病有关。所以某些职业人群也是特殊暴露人群。选择特殊暴露人群做队列研究时,常用历史性队列研究。,(2)一般人群 指某行政区划或地理区域内的人群中暴露于所研究因素的人作为研究人群。选择指征: 无特殊暴露人群或不需要特殊暴露人群;所研究的因素
8、与疾病是人群中常见的;计划观察一般人群的发病情况。,(3)有组织的人群指作为一般人群的特殊形式,如医学会会员、工会会员等某些群众组织或专业团体成员,参加人寿保险或医疗保险的人员等。优点:便于有效率地收集随访资料。缺点:研究结果有一定局限性。,2.对照人群的选择 原则: 对照人群除未暴露于所研究的因素外,其它各 种因素或人群特征(年龄、性别、职业、文化程度等的构成)应尽可能地与暴露人群相同。,(1)内对照 在同一研究人群中,采用没有暴露或暴露水平最低的人员作为对照即为内对照。队列研究应尽量选用内对照,因为除暴露因素外,它与暴露人群的可比性好。但研究环境或职业暴露时难以实施(非暴露组被“污染”)。
9、,(2)外对照 职业人群或特殊暴露人群常需在该人群之外特设对照组,叫外对照。优点:避免了“污染”。缺点:可比性受一定影响,工作量增大。,(3)不另设对照研究中不选择特殊对照,暴露人群的发病率与一般人群进行比较。优点: 一般人群的发病率或死亡率比较稳定且较容易得到;节省大量的经费和时间。缺点: 资料不够全面,不精确或缺乏要比较的项目;与暴露人群的可比性较差。,(四)确定样本量队列研究的样本量主要大小取决于四个参数:1.一般人群中所研究疾病的发病率水平p0 ,p0越接近0.5,所需观察的人数越少;2.暴露人群的发病率p1 用一般人群发病率p0代替非暴露组的发病率。两组之差d= p1-p0,d值越大
10、,所需观察人数越少;RR值越大,所需观察人数越少;3.显著性水平 即检验假设时的第I类错误值,4.把握度(power),即1-5.其他:暴露组与对照组的比例、失访率。,(五)确定结局结局(outcome)指研究者预期的结果事件。结局不仅限于发病,还有死亡和各种化验指标,如血清抗体的滴度,血脂、血糖达到一定水平等。结局事件指研究对象个体而言,与观察期的终点不是一个概念。判断结局的标准应尽量采用国际或国内统一标准。需考虑到疾病的不同类型,不同临床表现等,应注意记录下其他可疑的症状或现象供以后详细分析。,(六)基线资料的收集 首先,暴露必须有明确定义。其次,根据资料或特别检查结果,评定队列成员的暴露
11、状况,剔除其中已患或疑似已患所研究疾病的人和对之不易感的人。原则是只能以受危者,即有可能患这种病但并未患这种病的人,作为观察对象。除所研究的暴露之外,还要收集与患病危险度有关系的其他暴露的资料。资料来源有医疗记录、劳动记录、劳保资料、访问、医疗检查、环境测定等。,(七)随访随访的目的主要有二: 确定哪些人尚在观察之中,哪些已死亡,哪些已无法追踪,即弄清楚率的分母的信息; 确定终点事件的发生,即确定关于率的分子的信息。关于分子的信息,必须尽可能地正确;关于分母的信息,如果无法掌握每一成员的动态,则不得已时也可用抽样、用寿命表法计算预期数等方法估计。,观察终点(end-point) 指观察对象出现
12、了预期的结果,至此就不再继续观察该对象了。观察的终止时间是指整个研究工作可以得出结论的时间,也可说此时整个研究工作到达了终点,应以暴露因素作用于人体至产生结局的一般潜伏期作为确定随访期限的依据。,队列研究的资料分析,队列研究结束后,也应对所获得的资料进行整理,然后进行描述性分析,将研究对象的组成、随访的经过、结局的发生和失访率等情况作出描述。再按年龄、性别、时间分别计算各研究组在随访期的疾病发病率和死亡率,然后进行比较。,队列研究资料的整理表,(一) 率的计算累积发病率(cumulative incidence,CI) 当观察人口比较稳定时,不论观察时间长短,以开始观察时的人口数为分母,整个观
13、察期内发病人数为分子,得到该观察期的累积发病率。随访期越长,则病例发生越多,所以CI表示发病率的累积影响 。 累积发病率=,发病密度(incidence density,ID) 当观察的人口不稳定,观察对象进入研究的时间先后不一,以及各种原因造成失访,因此每个观察对象随访的时间不同,用总人数为单位计算率是不合理的。此时可以用人时(person-time)为单位计算率, 由此得到的发病率称为发病密度。发病密度是一定时期内的平均发病率。其分子仍是一个人群在期内新发生的例数(D),分母则是该人群的每一成员所提供的人时的总和。,人时即观察人数乘以观察时间。人年数的算法: 固定人群,即封闭人群,人年数是
14、每一个成员的具体观察年数的总和。每一成员的观察年数是从观察开始算起到终点事件出现或研究结束时经过的年数(月数、周数、以至日数均可折算为年数); 动态人群,如果不知道每一成员进入与退出的具体时间,就不能直接计算人年数。但如随访期间人数与年龄基本保持稳定,则可用平均人数采以观察年数得到总人年数。平均人数取得相邻两时段人数之平均数或年中人数;寿命表法,适用于观察对象较多,又要求有一定的精度时。,标化比当研究对象数目比较少,结局事件的发生率较低时,适用标化比。常用:标化死亡比(SMR)SMR=,(二)暴露与疾病的关联分析首先将观察结果列成如表然后进行分析。,队列研究资料的整理表,1. 相对危险度(re
15、lative risk,RR) 该指标是反映暴露与发病或死亡关联强度的指标,也叫危险比(risk ratio,RR), 其本质是率比(rate ratio,RR), 为暴露组的率与未暴露组的率之比。 RR=Ie/Io=(a/n1)/( c/n0),相对危险度(RR)无单位,比值范围在0至之间。RR=1,表明暴露与疾病无联系;RR1时,表明两者存在正联系。比值越大,联系越强。实际上,0与只是理论上存在的值,恰恰等于1也不多见。极强的联系既无须用流行病学研究去检测,极弱的联系也不大可能用非实验性的流行病学观察法检测出来。,2. 归因危险度(attributable risk,AR)也叫特异危险度、
16、超额危险度(excess risk),其本质为率差(rate difference,RD),为暴露组的率与未暴露组的率之差。说明由于暴露增加或减少的率的大小。如果暴露去除,则可使发病率减少多少 。 AR=Ie-Io=a/n1-c/n0,RR与AR均为表示联系强度的指标,彼此密切相关,但它们的意义有所不同。RR说明暴露对于个体增加发生危险的倍数,而AR是对人群来说,暴露增加的超额危险的比例。,3.归因危险度百分比:也叫病因分值EF,是指暴露人群中的发病或死亡归因于暴露的部分占全部发病或死亡的百分比。 AR%= 100AR%= 100,4.人群归因危险度(population attributab
17、le risk,PAR)(1)PAR:又称病因分值(etiologic fraction, EF)表示在全人群中,由于暴露而导致的发病率的增加。 PAR=ItIoIt:全人群发病率。,(2)人群归因危险度百分比 PAR=(It-Io)/It100%表示全人群中由暴露所引起的发病在全部发病中的比例。 人群归因危险度的大小取决于危险因子(病因)的相对危险度和人群暴露比例 。,率差与相对危险度都说明暴露的生物学效应,但不能说明其对一个人群的危险程度或消除这种因素后可能使发病率或死亡率降低的程度,或即暴露的社会效应。说明这种效应的指标是人群归因危险度。,5.剂量反应关系的分析分析方法是先列出不同暴露水
18、平下的发病率,然后以最低暴露水平组为对照,计算各暴露水平的相对危险度和率差。必要时,作率的趋势性检验。,队列研究常发生的偏倚及其防止常发生的偏倚1.选择偏倚(selection bias) 由于最初选定的研究对象有人不能参加;进行历史性队列研究时,有些人的档案丢失或记录不全;研究对象为志愿者,他们往往是具有某些特征或习惯的;某些早期病人在研究开始时未能发现;或暴露与疾病的定义不严格,执行不当等。,失访偏倚: 在研究过程中,某些选定的研究对象因为种种原因脱离了观察,研究者无法继续随访他们,这种现象叫失访(loss to follow up),因此而造成对研究结果的影响成为失访偏倚。 失访所产生的
19、偏倚的大小主要取决于失访率的大小和失访者的特征以及暴露组与非暴露组两组失访情况的差异。 对研究结果产生偏倚影响最大的是“高危人群”的失访。,2.信息偏倚(information bias) 主要为错分偏倚(misclassification bias) 包括暴露错分和疾病错分以及暴露与疾病的联合错分。 若这种错分偏倚以同样的程度发生于观察的各组,则结果可能不会对各组之间的相对关系产生太大影响,但相对危险度的估计趋向于1,即会低估相对危险度,这种情况叫做非特异性错分。若这种错分发生于一组而不发生于另一组,则对相对危险度的估计的影响不确定,这种情况叫做特异性错分。危险度的估计值完全被歪曲。,3.混
20、杂偏倚(confounding bias)当我们研究某个因素与某种疾病的关联时,由于某个既与疾病有制约关系,又与所研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系。这种现象或影响叫混杂(confounding),其所带来的偏倚叫混杂偏倚(confounding bias),该外来因素叫混杂因素(confounding factor)。,偏倚的控制 1.选择偏倚严格按规定的标准选择研究对象;查明愿意加入和不愿意加入研究的两组人的差异;尽可能提高研究对象的依从性,在选择研究对象时选择那些符合条件并且依从性好的研究对象;对于失访可能的影响应当做进一步估计;从各种途径了解
21、失访者的最后结局,与被随访到的人群的结局进行比较,以推测失访的影响。,2.信息偏倚提高设计水平和调查质量,做好质控明确各项标准,严格按规定执行定期抽取一定比例的样本复查3. 混杂偏倚限制配比分层分析多因素分析,队列研究的优缺点,优点1.可以直接获得暴露组与非暴露组的发病率或死亡率,因而可以直接估计相对危险度;2.由于原因发生在前,结局发生在后,故检验病因假说的能力较强;3.有助于了解疾病的自然史并且可以获得一种暴露与多种疾病结局的关系;,4.样本量大,结果比较稳定;5.可以了解基线率,因而能够发展和实施控制、预防和健康促进规划;6.可以发现需要干预、治疗和控制的新病例的资料;7.所收集的资料完
22、整可靠,不存在回忆偏倚。,缺点1.不适于发病率很低的疾病的病因研究;2.由于长期的研究与随访,因为死亡、退出、搬迁等造成的失访难以避免;3.研究费时间、费人力、花费高;4.随着时间推移,未知的变量引入人群可能导致结局受影响;5.研究的设计要求高,实施难度大。,举例: 前瞻性队列研究:,二十世纪上半叶英国发现肺癌的死亡率与支气管炎、肺结核以及其他癌症不同,呈迅速上升趋势,而且与烟草的消耗量有平行关系,这种分布状况使卫生工作者考虑到肺癌与吸烟之间是否存在联系。所以,Doll与Hill在1948年开始进行了病例对照研究,发现肺癌患者中吸烟的比例明显高于对照组,吸烟有可能是肺癌的病因。在此基础上,他们
23、从1951年开始,又进行了队列研究以证实此病因假设。他们选择英国医生作为研究对象,发函调查了59600名医生的一般情况与吸烟状况,来自40701名医生的调查表可供分析。,按吸烟与否分成暴露组与非暴露组,然后进行随访,详细记录发病与死亡情况,并对收集到的资料进行多方核对。此研究持续了几十年,从1964年报告的资料表明,35岁及以上年龄组,每年不吸烟者肺癌死亡率为0.07,而每日吸烟114支者肺癌死亡率为0.57,为不吸烟者的8.1倍;1524支者为1.39 ,为不吸烟者的19.9倍;25支及以上者为2.27,为不吸烟者的32.4倍。可见吸烟者患肺癌的危险性远远高于不吸烟者,且呈明显的剂量效应关系
24、。,回顾性队列研究1.苯胺类染料引起膀胱癌的研究:从上世纪末起即有人怀疑苯胺类染料可能引起染料厂工人的膀胱癌。Case等从1950年开始对英国21家化工厂的工人进行了调查。目的是查明制造或使用苯胺、联苯胺、1-萘胺或2-萘胺能否在从业人员中引起膀胱癌。他们调查得到1921年起到1952年2月1日止曾在这些工厂至少工作过6个月的人员名单,共4622名。在此期间曾在染化行业工作过的人中间发生膀胱癌444例,其中属于上述21厂名单内且死于膀胱癌者有127例。,根据19211949年英国男子膀胱癌死亡率算出预期死亡数(E)(从业人员中女性很少,未作分析),与实际死亡数(O)比较,接触2-苯胺者为O/E
25、=26/0.3,1-萘胺=6/0.7,联苯胺=10/0.72。SMR分别为8666.7,857.1,1388.9。提示这3种染料有致膀胱癌作用。以后,英国和一些国家禁止生产2-萘胺与联苯胺,并被国际癌症研究中心(LARC)列入人类致癌物名单(1982),1-萘胺对人类致癌的证据尚不充分。,2.胸部X线透视与妇女乳腺癌的关系:本世纪30年代至50年代初,医学界盛行用人工气胸术(将空气注射入胸膜腔)治疗肺结核。气胸通常须维持23年,隔一定时间就须注入空气补充,而每次补充前都须用X线胸透观察肺萎陷程度,因此病人的胸部长期多次受到相当剂量的X线照射。,为评估胸部X线透视与以后发生乳腺癌的关系,Boic
26、e JD等(1977)选择19301954年间曾在美国马萨诸塞州的几个肺病疗养院中住院治疗肺结核的女性作研究对象,进行回顾性队列研究。包括接受过气胸疗法的1047名,其他疗法的717名,年龄1340岁。调查时,505人已死,113人失访,两组失访率相近(5.2与8.2)。两组乳腺癌的发生情况如表,气胸组的SMR=10041/23.3=176,气胸组的发病率比其他疗法组高出近1倍(RR=1.9)。观察数与期望数的差异X2=12.7,pX20.05(4),p0.05,按0.05水准,拒绝H0,接受H1 。说明不同暴露水平组冠心病的发病率不相等。(2)将队列研究中累积发病率资料按暴露水平分组,组成如
27、下表所示的25有序列联表。,H0:RR0=RR1=RR2=RR3=RR4H1:RR0X20.05(1),p10.05(单侧)u= =40.7820u=40.7820u0.05,p1,说明该职业人群发生肺癌的危险超过一般人群。,(2)计算总体SMR可信区间( , )(4.84,5.79)(3)研究结果说明石棉粉尘可以引起肺癌和胃肠道肿瘤,但发生肺癌的危险更大,说明接触粉尘与发生肺癌有一定的特异性。,5.接触石棉粉尘的剂量与肺癌发病危险之间的数量关系为病因推断提供了更为有力和准确的证据。Mount-Sinai将石棉暴露程度石棉粉尘含量指数(反映粉尘浓度和暴露时间的综合数量指标)分级来研究暴露剂量与
28、肺癌发病危险之间的剂量反应关系。,问题:请对肺癌的SMR与粉尘含量指数进行SMR线性趋势X2检验。本例胃肠道肿瘤的SMR与粉尘含量指数的线性趋势检验结果:X2=1.65,对该结果与肺癌SMR的线性趋势检验结果予以解释。,提示:H0:石棉含量指数等级与肺癌死亡率之间不存在剂量反应关系H1:石棉含量指数等级与肺癌死亡率之间存在剂量反应关系,随着石棉含量指数的增高,肺癌的死亡率增加0.05(单侧)v1 X2=10.06本例X2=10.06X20.05(1),p0.05。故拒绝H0,接受H1。认为石棉含量指数等级与肺癌死亡率之间存在剂量反应关系,即随着石棉含量指数的增高,肺癌的死亡率增加。题中已知胃肠
29、道肿瘤的SMR与粉尘含量指数的线性趋势检验结果X2=1.65,说明石棉含量指数等级与胃肠道肿瘤发病之间不存在剂量反应关系。,6.某地从1977年1月1日到1986年6月30日对乙型肝炎表面抗原(HBsAg)阳性和阴性两组人群的肝癌发病情况进行了近10年的随访观察,结果发现HBsAg阳性组发生肝癌41例,HBsAg阴性组发生肝癌16例。两组的观察人年数见表。,问题:请计算出空出的人年数。分别计算HBsAg阳性和阴性人群肝癌的发病密度,并计算RR、AR、AR%和PAR%。,提示:HBsAg阳性人群肝癌ID41/11029.537.17/万人年HBsAg阴性人群肝癌ID16/47654.03.36/
30、万人年RR=11.06AR=33.81/万人年AR%91.0以所研究的人群代表全人群估计PAR%It=(41+16)/(11029.5+47654)=9.71/万人年PAR%=(9.71-3.36)/9.7110065.4,7.某工厂人群中,在5年观察期间内的观察总死亡数及观察肺癌死亡数和根据某标准人群年龄别死亡率估计的期望总死亡数及期望肺癌死亡数资料见表。,问题:根据上述资料分别计算标准化死亡比(SMR)及其可信区间。如何正确解释你的结果?,提示:该工厂人群全死亡SMR0.77(95CI为0.610.95),说明该厂人群总死亡率低于标准人群。这在职业流行病学研究中是常见现象,往往是由于健康工人效应造成的。该工厂人群肺癌死亡SMR2.14(95CI为1.273.25),说明该厂人群接触肺癌危险因素的机会高于一般人群。,Thanks!,