1、第三章 研究设计贺文博,主要内容,1. 统计工作基本步骤 2.实验设计,统计工作的基本步骤,统计设计搜集资料整理资料分析资料运用资料,“反应停”事件,上世纪60年代前后,欧美至少15个国家的医生都在使用这种药治疗妇女妊娠反应,很多人吃了药后的确就不吐了,恶心的症状得到了明显的改善,于是它成了“孕妇的理想选择”(当时的广告用语)。于是,“反应停”被大量生产、销售,仅在联邦德国就有近100万人服用过“反应停”,“反应停” 每月的销量达到了1吨的水平。在联邦德国的某些州,患者甚至不需要医生处方就能购买到“反应停”。但随即而来的是,许多出生的婴儿都是短肢畸形,形同海豹,被称为“海豹肢畸形”。1961年
2、,这种症状终于被证实是孕妇服用“反应停”所导致的。于是,该药被禁用,然而,受其影响的婴儿已多达1.2万名。经过媒体的进一步披露,人们才发现,这起丑闻的产生是因为在“反应停”出售之前,有关机构并未仔细检验其可能产生的副作用。记者的发现震惊了世界,引起了公众的极大愤怒,并最终迫使沙立度胺的销售者支付了赔偿。,这个例子说明:已经通过批准投放市场的新药,在若干年内仍需密切检测与研究它的不良反应,实验设计简介,1935年, Fisher 系统介绍研究设计,首次提出研究设计的基本原则。The Design of Experiments.,RA Fisher(18901962),R.A. Fisher:生於
3、伦敦,卒於 澳洲。英国统计与遗传学家,现代统计科学的奠基人之一,并对达尔文演化论作了基础澄清的工作。1925:系统介绍近代统计学方法The Statistical Methods for Research Workers,1.1 研究设计的意义,(1) 合理安排试验因素,提高研究质量。 如规定实验组的条件,配置适当的对照组,选择研究方法等。(2) 控制误差,使研究结果保持较好的稳定性。 如对混杂因素的处理,对不同来源变异的分析,维护必要的均衡性等。(3) 用较少的观察例数,获取尽可能丰富的信息。 如采用定量指标,选择线性或非线性回归分析,为使用高效率设计创造条件等。,调查(survey)实验
4、(experiment),1.2 研究设计的类型,基本原则之一:对照基本原则之二:随机基本原则之三:重复,2. 实验设计的基本原则,研究设计的基本原则,对照(control)随机(randomization)重复(replication),对照的作用对照的种类对照组形式,随机化的作用随机的含义分层随机、分段随机,重复的作用重复的次数,2.1 基本原则之一:对照(control),均衡性(1)对等 除处理因素外,对照组具备与实验组对等的一切非处理因素。(2)同步 对照组与实验组设立之后,在整个研究进程中始终处于同一空间和同一时间。(3)专设 任何一个对照组都是为相应的实验组专门设立的。不得借用文
5、献上的记载或以往的结果或其它研究的资料作为本研究之对照。,意义,(1)消除干扰因素的影响; (2)给一个被比较的标准,使处理因素和非处理因素的差异有一个科学的对比。,对照组的作用,对照组的作用,处理组 处理因素+非处理因素 处理效应+非处理效应对照组 (无) 非处理因素 (无) 非处理效应比较结果 处理因素 处理效应排除“非处理因素”的影响,从而衬托出 “处理因素”的作用。,对照组的作用,处理组 处理因素+非处理因素 处理效应+非处理效应 比较结果,非处理因素 处理因素,非处理效应处理效应,常用对照种类:,(1)空白对照 对照组不施加任何处理因素(2)实验对照 对照组不施加处理因素,但施加某种
6、实验因素。(3)标准对照 不设立专门的对照组,而是用现有标准值/正常值作对照。实验研究一般不用标准对照,因为实验条件不一致。,(4)自身对照 对照与实验在同一受试者身上进行(5)相互对照 各实验组间互为对照,如比较新药与旧药的疗效(6)历史对照 以本人过去的研究/他人研究结果与本次研究结果作对照,2.2 基本原则之二:随机(random),客观性(1) 抽样随机 每一个符合条件的实验对象参加实 验的机会相同,即总体中每个个 体有相同的机会被抽到样本中来;(2) 分组随机 每个实验对象分配到不同处理组的机会相同;(3) 实验顺序随机 每个实验对象接受处理先后的机会相同。,随机与随意,随机:ran
7、dom 机会均等, 客观性随意:as will 随主观意愿,主观性随机化分组,不仅能控制已知的混杂因素(非研究因素),而且还能控制未知的混杂因素。,简单随机随机分组随机排列分层随机,随机的方法,简单随机分组示意,136 643 557 604 384 708 218 061 555 871,136 643 557 604 384 708 218 061 555 871,ABBBABAAAB,(1),(2),(3),(4),(5),(6),(7),(8),(9),(10),A组B组,随机排列示意,(1)(2)(3)(4)(5)(6)(7)(8)(9)(10) ,136 643 557 604 3
8、84 708 218 061 555 871,排列(8)(1)(7)(5)(9)(3)(4)(2)(6)(10) ,2.3 基本原则之三:重复(repeated),可靠性(1) 整个实验的重复。 确保实验的重现性,以提高实验的可靠性;(2) 用多个实验单位进行重复(样本含量)。 避免把个别情况误认为普遍情况,把偶然性或巧合的现象当作必然的规律,通过一定数量的重复,使结论可信;(3) 同一实验单位的重复观察。 保证观察结果的精度。,影响样本含量的因素,数据的种类个体的变异组间的差别指标间的相关程度设计方法各组例数的分配I型错误和II型错误研究的质量,(2)查表,样本例数的计算,(1)公式计算,例
9、:两均数比较时的样本含量估计(两组相等),:I 类误差,常取0.05:II 类误差,常取0.20,0.101- :把握度:标准差,个体变异:两个总体的差值(专业认可),例:降血脂,=20mg/L; =30mg/L;=0.05,1-=90%时 Q1:Q2 N 1:1 78 4:6 82 3:7 92 2:8 122 1:9 216 1:19 406,N78时 Q1:Q2 1- (%) 1:1 90.0 4:6 88.9 3:7 85.0 2:8 75.6 1:9 54.4 1:19 35.6,例: n1 固定, n2 增加时,Power的变化趋势,n1=20 Q1:Q2 PowerQ1:Q2 P
10、ower 1:1 0.5589 1:6 0.7882 1:2 0.6824 1:7 0.7960 1:3 0.7330 1:8 0.8026 1:4 0.7601 1:9 0.8074 1:5 0.7769 1:10 0.8113,=20mg/L; =30mg/L;=0.05,图 n1固定,n2增加时,Power的变化趋势( r = n2:n1 ),power,r,1,2,3,4,5,6,7,8,9,10,.5,.6,.7,.8,.9,试验组和对照组样本含量不等,两组的比例不超过 1:4 4:1,样本含量的影响因素:,数据的种类:定量等级0.2,两两比较: q检验,D C B A 3.3200
11、 3.0975 2.6850 2.4025,结论:,方差分析(ANOVA)及SNK两两比较结果表明,四种饲料喂养大白鼠后的肝重比值不完全相同(F=10.40,P0.05)。,完全随机设计例3,研究中药骨碎补对高脂血症的治疗和预防作用。取家兔44只,随机分成四组,每组11只。每间隔5周测定血清胆固醇一次,共测四次(包括给药前一次),整个实验期为15周。各组处理如下:造型组:每日以0.3g胆固醇灌胃;治疗组:每日以0.3g胆固醇灌胃,于实验开始的第5 周起每日肌注100%骨碎补液1.7ml/kg;预防组:每日以0.3g胆固醇灌胃,于实验开始之日起 即每日肌注100%骨碎补液0.8ml/kg;对照组
12、:每日肌注生理盐水0.8ml/kg。,血清胆固醇含量,mg%,各组平均血清胆固醇含量,mg%,各组各时点平均血清胆固醇含量图示,造型组,治疗组预防组对照组,分析思路:,四组是否具有可比性?造型是否成功?对照组是否稳定?骨碎补对高脂血症的预防和治疗效果如何?预防和治疗的显效时间?预防和治疗的持续时间?,(1) 给药前四组的比较,预防组造型组 治疗组 对照组均数: 90.09 88.36 79.45 75.55方差: 444.25 390.47 333.47 290.69方差分析 F=1.474, P=0.2360服从齐性检验 2=0.489, P=0.9213说明4个组的初始条件一致。,(2)
13、造型是否成功?,以实验时间为X(周)以对应时间点的胆固醇含量之均数为Y造型组的直线回归分析: X: 0 5 1015 Y:88.36324.00484.90 750.50 t = 15.855,P 0.5 说明对照组在实验期内血清胆固醇含量不随时间而改变,是稳定的。,(4) 第5周时四组均数的比较,造型组 治疗组预防组 对照组均数:324.00 323.00140.09 88.09 F=5.45, P0.005 第5周时预防组与造型组的均数间差别有统计学意义,而与对照组差别无统计学意义。说明在第5周时已有预防作用。,(5) 第10周时四组均数的比较,造型组 治疗组 预防组 对照组均数: 484
14、.90 252.55 94.27 77.90 F=9.78, P0.001 第10周时治疗组与造型组的均数间差别有统计学意义,与预防组、对照组差别无统计学意义。说明治疗已起效,预防组有持续效果。,第15周时四组均数的比较,造型组 治疗组 预防组 对照组均数: 750.50 140.90 108.00 73.50F=9.78, P0.001 结论同第10周时。,结论:,对家兔肌注骨碎补液,预防组于用药第5周时已见防止血清胆固醇升高的作用,直至第15周仍保持与对照组接近的水平。治疗组于用药第5周(即实验期第10周)时已见胆固醇下降,至用药第10周(即实验期第15周)时降至与对照组接近的水平。说明骨
15、碎补对家兔具有预防和治疗高血脂症的作用。,正确应用完全随机设计,完全随机设计是最常用的一种设计方法,不受组数的限制;各组样本含量可以相等,也可以不等,但在总样本含量不变的情况下,各组样本含量相等时的设计效率最高;对照组可以不止一个;各组应达到均衡一致;各处理组应同期平行进行;对个体间同质性要求较高。在个体同质性较差时,完全随机设计并不是最佳设计。,(二) 配对设计,paired design是将受试对象按一定条件配成对子,再随机分配每对中的两个受试对象到不同处理组,配对的因素是影响实验效应的主要非处理因素。自身配对异体配对,配对的原则,条件相近,对内同质,正确应用配对设计,当实验对象的同质性欠
16、佳时,采用配对设计可以提高处理组间的可比性和均衡性;配对设计的成败取决于配对的条件,只有当两组观察值间的相关大于0时,配对才是成功的,且能提高检验效能;当采用左右配对设计时,实验因素的效应必须是局部的,不可以通过神经、体液等途径影响对侧;采用自身前后配对设计时,应考虑到环境、气候或疾病的自然进展等引起的效应改变;配对设计的资料结合相关或回归分析,有时能得到更丰富的结论。,例题,高粘综合症患者的血沉较快,某大夫观察A、B两个降粘药物对血沉(mm/h)的影响,结果如下,试作统计分析。,A、B两个降粘药物对血沉(mm/h)的影响,疗前 疗后 差值A药组 38.72.406 30.32.946 8.4
17、2.221 B药组 40.12.514 23.93.381 16.23.425,分析思路:,疗前两组比较,以分析可比性;各组疗前疗后差值分别比较,分别确定各自的变化值;两组疗前疗后差值相互比较,分析两组的效果是否相同?,分析结果:,(1) 疗前两组比较:t=1.2721,P=0.2195; 可以认为两组具有可比性。(2) A组疗前疗后比较:td=11.9594,P=0.0000; 可以认为A药治疗后血沉减慢。 B组疗前疗后比较:td=14.9556,P=0.0000; 可以认为B药治疗后血沉减慢。(3) 两组治疗前后差值相互比较: t=6.0419,P=0.0000; 可以认为B药降低血沉的效
18、果优于A药。,结论:,统计分析结果表明,两组疗前具有可比性(t=1.2721, P=0.2195);无论是A药还是B药,治疗后均使血沉减慢(td=11.9594,P=0.0000;td=14.9556, P=0.0000),B药降低血沉的效果优于A药(t=6.0419, P=0.0000)。,(三) 配伍组设计,randomized block design亦称随机区组设计,是配对设计的扩充。是将几个受试对象按一定条件划分成配伍组/区组,再将每一配伍组的各受试者随机分配到各个处理组中去。总体同质性差,部分同质性好, 区组化 区组控制,区组内随机,随机区组设计,区组内同质、随机,单向区组控制示意
19、,配伍组设计例1,将人的血滤液放置不同时间,测定其血糖浓度。放置时间分4种(0,45,90,135分钟),取八个健康人的血液,各分成4份,按配伍组设计,结果见下表。,配伍组设计的方差分析,两两比较结果:,血滤液的放置时间与血糖浓度的关系,lg (103-Y) = 0.282021+0.006881*Time,lg (103-Y) = 0.282021+0.006881*Time,结论:,人血滤液中的血糖浓度在放置0135分钟期间,随时间的延长而下降,起初下降不明显,而后逐渐加快,成指数下降。,正确应用随机区组设计,配伍组设计是配对设计的扩展,在个体同质性较差时,采用配伍设计可以提高各处理组间的
20、可比性和均衡性;同一区组内的个体应尽可能同质;实际上配伍设计是两因素多水平的试验,由于每种组合只作一次试验,故不能分析交互作用;采用配伍设计时,要尽可能使观察值不缺失,虽然有估计缺失值的方法,但缺失时信息损失较大的。,盲法,偏倚(bias),单盲法:病人不知自己接受何种治疗,双盲法:病人和医护人员都不知患者的分组和接受何种治疗,5. 调查设计,江苏省慢性非传染性疾病基础资料调查,了解我省高血压、冠心病、脑卒中、糖尿病、恶性肿瘤的患病率、死亡率、分布特征及其与经济水平、吸烟、饮酒、膳食营养、体力活动等因素的关系,为采取相应的预防措施提供依据。抽样地区35岁以上常住(五年及以上)居民。1997.1
21、01998.6,随机抽样方法,单纯随机抽样系统抽样分层随机抽样整群抽样,抽样方法,采用多阶段分层随机整群抽样法。苏北 城市点 盐城市城区 =01 农村点 徐州市铜山县=02 农村点 淮阴市金湖县=03苏中 城市点 南京市鼓楼区=04 农村点 扬州市高邮市=05 农村点 南通市海门市=06 农村点 泰州市泰兴市=07苏南 城市点 苏州市平江区=08 城市点 常州市钟楼区=09 农村点 无锡市郊区 =10 农村点 常州市溧阳市=11,城市点,在所抽区中给所有的街道编号,随机抽取3个街道,对每个街道的所有居委会编号,然后随机抽取若干个居委会,对这些居委会所有35岁以上人群进行调查,确保每个街道调查总
22、人数不少于6500人,每个区不少于2万人。若3个街道不足2万人,再抽取下一个顺序号的街道。,农村点,在所抽市(县)中给所有的乡镇编号,随机抽取3个乡镇进行调查。对每个乡镇的所有村编号,然后随机抽取若干个村,对这些村所有35岁以上人群进行调查,确保每个乡镇调查总人数不少于6500人,每个市(县)不少于2万人。若3个乡镇不足 2 万人,再抽取下一个顺序号的乡镇。,多阶段分层随机整群抽样,第一层 第二层 第三层 群苏南 区 街道 居委会苏中 县(市) 乡镇 村苏北,调查内容及调查表格,慢性非传染性疾病基础资料流行病学调查表 针对个人进行调查,调查内容主要包括:一般情况、家庭居住条件、医疗保障情况、主
23、要慢病史、家族史、吸烟、饮酒、饮食、生活起居及体育锻炼、女性月经、生育史及体格检查等。,组织与实施,本次调研工作是由江苏省卫生防疫站慢病调查技术指导组牵头,由省站负责拟定全省调查方案,组织市、县级人员培训,统一发放调查表并收集资料,质量控制和分析总结等。各市、县组织本地区慢病流行病学调查组,拟定本市、县实施方案并组织实施,负责现场调查工作安排、联系与协调等。,质量控制,调查方案和各种调查表格等均经过预试验。实行逐级培训,合格者方可参加本次调研。调查人员要每日对填写的调查表内容进行全面检查,有错即改,有漏即补。全省调查资料按统一标准整理后,建立数据库,并由经过培训的专人对录入资料进行复核。各市(
24、县)调查开始之前,必须把调查方案报送省站慢病调查技术指导组核定。,质量控制,各种测量仪器必须在使用前校准。应答率要求在90%以上,尽可能减少非应答率。调查完成后随机抽5%的人群进行复查。复核检查工作由省、市、县(区)三级人员组成的慢病调查技术指导组成员负责。在调查点已完成调查任务的1周内进行复查,将两次调查表的内容进行复核检查,全部正确率应高于90%,否则应返工。,数据录入,由经过培训的专业人员对各调研点的资料进行核对,并将核对无误的资料用江苏省卫生防疫站设计的统一数据库录入,录入后将原调查表和数据库送至江苏省卫生防疫站慢病调查技术指导组复核。,统计分析,集中统一分析。,不同时点上的普查或抽样调查构成了纵向资料,Thank all of you!,