1、医学研究中统计学内容的报告要求,方积乾中山大学公共卫生学院医学统计与流行病学系,医学论文统计学报告现状,统计学缺陷涉及面:国内80%以上,国外约50%。统计学缺陷: 研究设计(设计水平低下) 统计分析(方法使用错误) 统计推断(推断过于肯定) 统计报告(报告项目不全),统计学报告规范化研究进展,国外:约20多年,包括Guideline,Vancouver Format, CONSORT(consolidated standard of reporting trials), QUOROM (quality of reporting meta-analysis)等。国内:主要介绍和翻译国外规范。本
2、讲座主要内容: CONSORT 我们的清单,CONSORT的历史,1994 ,两组杂志编辑、试验人员和方法学专家独立地发表了关于试验报告的建议 (JAMA)1995 , 共同发展 CONSORT statement (JAMA) 2001, The CONSORT statement: revised recommendations for improving the quality of reports of parallel group randomized trials 同时发表于ANN Intern Med. , JAMA 和 Lancet 三个杂志,作者是The CONSORT Gr
3、oup。许多杂志,The Lancet, British Medical Journal, Journal of the American Medical Association, Annals of Internal Medicine 都正式支持CONSORT.,CONSORT的主要内容,1. CONSORT的自查清单,CONSORT清单的“方法”部分,CONSORT清单的结果部分,CONSORT清单的讨论部分,2. CONSORT的流程图,Item 3a. 参加者合格的标准,“Eligibility criteria”:年龄、性别、临床诊断、病情“Exclusion criteria”:常
4、为保障病人安全。 -以便读者据此判断研究结果可以应用到什么范围。,Item 3a. 参加者合格的标准,在Kenyatta National Hospital 家庭福利中心要求宫内避孕装置IUCD的所有妇女, 有正常月经,年龄在20与44岁之间均可纳入研究。如果发生以下任何一项,不可进入研究:(1)异位妊娠史,(2)前42天内怀孕,(3)子宫平滑肌瘤,(4)现患骨盆炎性疾病PID,(5)宫颈或子宫内膜恶性肿瘤,(6)已知四环素过敏,(7)前14天内用过任何抗生素或曾用长效注射青霉素,(8)弱感染反应,(9)Nairobi以外的居民,随访地址不详,或不愿返回做随访。,Item 3b. 收集数据的地
5、方和位置,必须报告是否多中心,Settings和医务人员的数量-“Settings and locations”影响该试验可推广的范围。 从伦敦的四家综合性医院和Northwick Park Hospital的耳鼻喉科门诊招募志愿者。处方医生熟悉顺势疗法的原则,但没有顺势免疫治疗的经验。,Item 4. 确切描述各组干预的细节以及如何、何时实施,银屑病关节炎患者随机地接受每周两次皮下注射安慰剂或25mg Etanercept (Enbrel),共12周. . . 将Etanercept消毒冻干粉末加入小瓶,每瓶含25 mg Etanercept、40 mg 甘露醇、10 mg 蔗糖和 12 m
6、g tromethamine。 安慰剂同样配制,只是不含Etanercept。每一瓶加1 mL抑菌水供注射。,Item 5. 规定目的和假设,假设比目的要更具体,主要靠统计检验。我们检验的假设是:积极管理未产妇的分娩可以 1. 降低剖腹产率, 2降低产程延长的比率, 3不影响产妇对分娩的满意度。 目的:试验打算回答的问题。 假设:事先规定的需要检验的若干问题,以帮助达到目的。,Item 6a. 明确定义主要和次要结局指标,“primary outcome measure”是事先规定的最重要的结局指标,通常以此为准来计算样本量。 关于银屑病疗效的主要终点是12周内患者达到基线银屑病活性水平75%
7、的百分比。活性水平用PASI(银屑面积和严重指数)度量。附加的分析是:PASI得分变化百分比和目标银屑病损伤的改善。,Item 6a. 明确定义主要和次要结局指标,如多次测定、培训测定者等临床终点委员会 . . .以“盲”的方式评估了所有的临床事件,共同决定终点。病人坐位血压在其休息至少5分钟后由一名培训过的护士用Copal UA-251 or Takeda UA-751电子听诊血压计测量。,Item 7a. 如何确定样本量,样本量计算需要的四要素: 1) 预计所期待的干预组之间具有临床意义的差距 2) 允许犯第I类错误的概率 3) 识别所期待差距的概率(功效,power) 4)(对于结局指标
8、为测量值的情形) 测量值的标准差我们相信. . . 安慰剂组的深度静脉血栓或肺部栓塞或死亡的发生率为4%,ardeparin sodium组为1.5%。基于0.9的功效检出有意义的差异(P 0.05,双侧),每组要求976名患者,为弥补不可评价的病人,我们计划每组进入1000名。,Item 8a. 产生随机序列的方法,处理的分配随机化为什么这么重要? 一,消除分配处理有意或无意的偏倚。二,为实施盲法创造条件。三,使有可能利用概率论来描述各干预组之间的差异有多大可能仅仅是由偶然性造成的。成功的随机化取决于:(1)产生一个不可预见的分配序列;(2)“隐蔽” (allocation concealm
9、ent )这个序列,直到分配完毕(必须建立一个分配处理的系统) 。作者必须提供充分的信息,这样读者才能评价随机分配序列和分组偏倚的可能性。单纯“random allocation,” “randomization,” 或 “random”无法判断随机化是否得当。,Item 8a. 产生随机序列的方法,妇女们有相同的概率被分配到各组。利用计算机随机数发生器产生随机化码来选择blocks,block的长度为4、8、10等,随机地变化. . . 。独立的药剂师按照计算机产生的随机化清单分发活性的或安慰剂的吸入器。,Item 9 谁产生分配序列,谁收病人,谁分配入组,妇女们一个个地被分配到维生素C 和
10、 E组和安慰剂组。如果他们不脱离研究,整个怀孕期间保持相同的处理。由统计学家制作一份计算机发生的随机化清单,交给药房。研究者负责见怀孕妇女,收录到试验中(超声科或产前门诊),每个妇女从药房直接取药。编码在完成招募、数据收集和实验室分析之后才透露给研究者。,必须报告;“盲”?谁“盲”?(病人、医护人员、评价人员) 如何“盲”?(胶囊、片剂)在试验的实施阶段,“盲”对防止偏倚都很重要。 对病人“盲”:防止performance bias. 病人知道接受的是新疗法,会有高期待;病人知道接受的是常规疗法,会觉得受歧视 对病人、医护人员、评价人员“盲”:防止detection bias 或assessm
11、ent bias. “不盲”有利于非对照组。 对数据分析者“盲”:防止为得阳性结果而选择并非事先计划的分析方法。与“分配方案隐蔽”不同,盲法并非总能实现。尤其,外科试验,双盲很难或不可能。但评价者“盲”常常可以做到, 例如,损伤可以拍照后评价。,Item 11a. 病人、干预操作者和结局测评者均“盲”于分组情形,Item 11a. 病人、干预操作者和结局测评者均“盲”于分组情形,在研究期内,所有工作人员和参加者对处理的分配都是“盲”的。只有该研究的统计学家和数据监督委员看到非盲的数据,但他们不和任何参加者接触。,“盲法”成功?何以见得?- 必须报告成功的证据。 “盲法”失败?- 必须报告原因,
12、例如,活性药和安慰剂外形差别等。 可以直接问被“盲”的患者,是否知道接受什么处理。 例:有人报告含锌止咳糖的安慰剂对照试验。另请一批健康志愿者和被试者来识别含锌止咳糖和安慰剂,结果56%接受含锌止咳糖者和26%接受安慰剂接受能正确识别。(副作用和临床疗效可能提供线索。) 原则上,若参加试验者能识别的百分比远高于(0.5)2=0.25,就算“盲法”失败。,Item 11b. 如果“盲”,如何评价“盲”的成功?,Item 11b. 如果“盲”,如何评价“盲”的成功?,为了评价对患者的盲法,在三个时间点用问卷要求患者指出他们相信自己接受的是什么处理(针灸、安慰剂或不清楚). . .如果患者回答了针灸
13、或安慰剂,再问什么使他这么想. . .,Item 12a. 就主要终点做组间比较的统计方法,在计划书上,每一项分析用什么方法都要说明;在报告中,需说明所用方法是原计划规定的。在报告的结果部分进一步解释细节。统计方法很多,常常使用不当:例如,(1)如果在身体不同部位观察多项,而把这些观察视为互相独立,这是一种严重错误。(通常每个个体观察一项)。(2)多项观察资料的分析往往出错。(据报道,在196项风湿性关节炎的试验中123项(63%)错误)。,Item 12a. 就主要终点做组间比较的统计方法,所有数据分析按照事先规定的分析计划进行。百分比用校正的2检验或Fisher精确法。多变量分析用logi
14、stic回归。经历的时间和征候的比较用比例危险回归。平均血清视黄醇浓度的比较用t 检验和协方差分析. . .全部采用双侧检验。,不鼓励亚组分析,因为假阳性率常常很高,容易出虚假结果。 事后的亚组间比较(Post hoc subgroup comparisons)属于看到数据之后才想起来做的分析,往往不能被进一步研究所确认。这类分析不可信。校正分析必须事先在研究计划里规定,并说明理由。例如,(1)关于分层变量的校正。(item 8b) 必须说明选择被校正的变量是计划规定的还是事后根据数据 提议的。(2)关于baseline的校正。(item 16) 如果事先没有规定,事后发现baseline有统
15、计学差异,才来 决定校正,不能算是正式结果,只能算是探索性分析。,Item 12b. 附加分析的方法,诸如亚组分析、校正分析,Item 12b. 附加分析的方法,诸如亚组分析、校正分析,原计划以探索方式评价CHART在亚组中(年龄、性别、表现、阶段、部位和病理)的相对好处。为检验CHART效应差异,用2检验考察交互效应,必要时用2检验考察趋势。,Item 13a. 每个阶段参加者的流程图 (强烈推荐),分组后排除的人并不是随机的。 例如,有些患者因为急性恶化或出现副作用而失访.如果这类排除在两组之间不均衡,就会导致错误结论。知道多少人没有按分配接受干预或没有完成治疗有助于读者判断多大程度低估或
16、高估了疗效。为了详细报告病人流程图及相关的信息,必须:(1) 事先周密计划随访事宜;(2)实施过程中,有专人负责随访;详细记录随机化分组之后每一位病人的信息(case report form).,Item 13a. 每个阶段参加者的流程图 (强烈推荐),必须记录并报告与原计划有出入的所有内容。 包括非计划中的改变:干预、检查、数据收集、分析方法。 必须纪录并报告“与原计划有出入”的本质是什么。 若参加者是随机化后排除的,必须说明理由。 有些改变可在流程图中反映 (item 13a)。,Item 13b. 描述与原计划的出入及其理由,Item 13b. 描述与原计划的出入及其理由,只有一例偏离原
17、计划,研究组有一位妇女,骨盆测量异常,应做选择性剖宫产。然而,主治产科医师认为可尝试分娩;结果, 分娩第一阶段无进展时,做了剖宫产。,“Intention-to-treat” 所有被随机分配者的资料都包含在分析之中,都按照他们原来被分去的组来分析 - 特别重要 !Schulz and associates发现凡是没有报告病人被剔除情形的试验,其它方面也是比较弱的;Ruiz-Canela 等发现凡是报告Intention-to-treat analysis的,研究设计和报告的其它方面也好,诸如,报告样本量计算等。 这个术语的误用:当某些参加者没有坚持按原计划的意向接受干预时,虽然有数据,却将他们
18、剔除掉, 这不是“intention-to-treat analysis”。Intention-to-treat analysis不宜用来考察副作用。,Item 16 每一项分析中各组含有的人数,以及是不是“intention to treat”分析,“on-treatment analysis” 或 “per protocol analysis”:分析仅限于满足计划规定的(合格、干预和结局评价)参加者。 有时两种分析都要报告。,Item 16 每一项分析中各组含有的人数,以及是不是“intention to treat”分析,Item 16 每一项分析中各组含有的人数,以及是不是“inten
19、tion to treat”分析,主要终点的分析是intention-to-treat,包含了随机分配的全部患者. . . 。Alendronate 组有一位患者失访;因此有31例做intention-to-treat分析。有5位患者违背了研究计划. . .从而有26位患者包含在per-protocol分析中。,其它的统计学规范,Statistical Guidelines (Nature)TREND标准(transparent reporting of evaluations with nonrandomized designs) QUOROM标准(quality of reports of
20、 meta-analysis of randomized controlled trials) 报告临床实践指南的标准(COGS) 观察性流行病学的STROBE声明(中华流行病学杂志,2006 )遗传关联性研究的有关报告(中华流行病学杂志,2006 ),Nature Medicine 的一篇社论(2005) Statistically significant,“去年Nature 和 Nature Medicine因为登载的某些文章统计分析欠佳而遭到公众批评。这些批评促使我们密切关注文章中的统计方法学”BMC Medical Research Methodology 2004.5. 发表一篇文章
21、,作者是西班牙Girona大学Emili Garca-Berthou 和Carles Alcaraz: 2001年Nature的181篇论文中, 38%的文章至少有一处统计学错误;The Financial Times 上Robert Matthews的文章: 2000年Nature Medicine论文中, 31%的作者错误地理解P值的含义,甚至有人以可笑的精度报告P值 (例如,P = 0.002387)。,Nature Medicine 的措施,Nature Medicine请了两位哥伦比亚大学的专家对该杂志的文章进行独立的“统计学审计”,尤其,要求评价2003年发表的以人为对象的21篇论
22、文的统计学方法.按公认的统计学标准,运用一个清单评价这些文章,发现: 有的文章几乎没有定量分析; 有的却使用了非常复杂的统计学和数学方法; 大部分文章,用少量统计检验支持作者对资料的解释,而这些检验往往叙述不完整,以致很难评价其是否恰当。,STATISTICAL GUIDELINES(Nature,2006),每篇含统计检验的文章必须说明检验的名称、 n 比较什么?用此检验的理由( 例如,若用只适合正态资料的方法,讨论数据的正态性), 水平、单侧还是双侧?实际的 P 值 (不能只是“有统计学意义”或 “P .05”).若是短篇,细节要在文章或图的说明中报告。数据必须用描述性统计量概括,包括每组
23、的n ,中心的度量 (诸如 均数或中位数), 和变异的度量 (诸如标准差或极差). 对于小样本极差比标准差更适宜。图形中必须用线段表明误差 。必须说明 号之后的数字是标准误 (s.e.m.)还是标准差 (s.d.).,STATISTICAL GUIDELINES (Nature,2006),作者必须说明使用特定检验的理由并解释他们的数据符合检验的假设。 有三种普遍的错误: 多重比较:对同样的数据多次做统计学比较时,作者必须解释他们如何调整水平 以避免扩大第一类错误率,或者他们必须选择适合于多组的统计检验 (诸如 ANOVA 而不是一系列 t-检验). 正态分布:许多统计检验要求数据近似地服从正
24、态分布,作者必须解释他们是如何检验正态性的。如果数据并不满足检验的假设,必须使用非参数方法。 小样本量:当样本量小时,小于 10), 作者必须采用适合于小样本的检验或说明他们采用大样本方法的合理性。,我们的工作,背景:国内医学论文统计学报告缺陷; CONSORT与国内研究实际的距离。方法:全面搜集有关资料;调查流行病、统计 学、编辑、临床研究的40余位专家。结果:国内医学论文统计学报告项目自查清单 (44项)及评价量表意义:指导论文的统计学报告;指导科研设计; 过渡到CONSORT,自查清单(摘要部分),A1 是否随机分组及分组具体方法A2 是否实行盲法及谁对什么“盲”A3 样本总量与分组样本
25、量A4 分析的主要指标A5 关于主要指标的统计学结论A6 关于主要指标差异的临床意义A7 针对主要指标差异的临床结论,自查清单(引言部分),I1 研究类型的陈述(“探索性”或“确证性”,优效性或等效性等)I2 清楚陈述研究目的及研究假设,自查清单(方法部分),M1 目标人群及性质描述(人口、地理、医院性质、是否转诊、诊断)M2 明确的诊断标准M3 入选标准与排除标准M4 如何确定样本量及理由M5 如何确定有临床意义的最小差值或比值M6 是否随机分组及分组具体方法M7 是否实行盲法及谁对什么“盲”,M8研究的单位,如人、肿瘤、眼M9效果评价的主要指标M10主要指标的测量方法与精确度M11数据收集
26、的方法M12数据质量保证与安全性措施M13对主要指标比较的统计学方法M14对主要指标作单侧还是双侧检验,自查清单(方法部分),自查清单(结果部分),R1 研究或实验的起止时间R2 随访的起止时间R3 招募对象例数R4 符合入选标准与排除标准数R5 实际进行随机分组数R6完成干预例数R7实际效果评价采取的数据集及各组样本量R8负性反应或不良事件的分析数R9各组人口学和临床特征基线水平的可比性与不同,R10用于分析主要指标的各组例数R11干预前后主要指标差值的均数与置信区间R12 百分率中,分子分母应清楚R13 有无异常值,若有,如何处理R14 主要指标统计检验的实际方法R15 主要指标检验的统计
27、量值R16 主要指标检验的精确P值而非大于或小于某界值R17 对引言中提出的假设做出接受或拒绝的决定R18 负性反应或不良事件的各组人数、次数、性质、程度,自查清单(结果部分),自查清单(讨论部分),D1 对主要指标结果的临床结论或生物医学解释D2 对设计中可能存在偏倚的说明D3 通过利弊的初步比较,得出总的临床性结论,我们的自查清单与CONSORT比较,与CONSORT的思想及项目数是一致的CONSORT较注重随机化的细节及研究对象的流程,而我们的自查清单则将项目分得更细一些。我们的自查清单补充了一些国内常见问题的相关项目: 摘要,(A1-7); 引言, 研究类型的描述(I1); 方法,M4
28、样本量的计算、M5有意义差值、M8样本的单位、M9评价效果的主要指标; 结果,R11差值的均数与标准差、R12百分数、R15具体统计量值; 讨论,D2设计中的偏倚、D3总的临床结论。对于非随机对照的研究或未声明遵守CONSORT声明的杂志,建议参照国内自查清单的标准。,总结,医学论文的统计学报告缺陷严重。遵照CONSORT及国内的自查清单可提高设计水平和统计学报告水平。国内自查清单与CONSORT思想一致,又有自身特色,与国情相适应。 二者皆最适宜RCT,国内清单可用于有对照的临床研究,其它类型论文应查有关文献。设计和统计分析最好预先有统计学家的参与。,参考文献,Glantz A. Biost
29、atistics: How to detect, correct and prevent errors in the medical literature. Circulation, 1980,61(1):1-7.李淑平. 中医药研究中有关统计学问题. 医药情报资料, 1979(2):32-42.胡良平, 刘惠刚. 口腔医学研究中实验设计的概念与作用. 中华口腔医学杂志, 2003, 38(5):396-398.罗志忠,陈晶,王丹那. 论文撰写中常见的统计学问题. 中国地方病学杂志, 2006,25(3):354-355.王晴, 李刚. 医学论文中常见的统计学问题分类简析. 编辑学报, 200
30、6,18(4):270-271.刘清海,方积乾. 医学论文统计学误用的分类研究. 中华医学写作杂志, 2005, 12(20):1711-1717.ICMJE. Uniform Requirements for Manuscripts Submitted to Biomedical Journals. Ann Intern Med, 1988,108(2):258-65.Moher D, Schulz AF, Altman DG. The CONSORT Statement: revised recommendations for improving the quality of report
31、s of parallel-group randomized trials. JAMA,2001,285:1987-1991刘玉秀,姚晨,盛梅. 随机对照试验的统一格式CONSORT声明. 中国临床药理学杂志, 2004, 20(1):76-80.刘清海,方积乾. 医学论文统计学报告指南的综述与思考. 中国科技期刊研究, 2005, 16(4):448-451.,参考文献,刘清海,方积乾. 医学期刊统计学误用现状、趋势与对策. 中国科技期刊研究, 2006,17(4):549-552.Altman DG, Gore SM, Gardner MJ, et al. Statistical guid
32、elines for contributors to medical journals. Br Med J, 1983,286:1489-1493.The standards of Reporting Trial Group. A proposal for structured reporting of randomized controlled trials. JAMA,1994,272:1926-1931. Working Group on Recommendations for Reporting of Clinical Trials in the Biomedical Literatu
33、re. Call for comments on a proposal to improve reporting of clinical trials in the biomedical literature: a position paper. Ann Intern Med, 1994,121:894-895. Begg C, Cho M, Eastwood S, et al. Improving the quality of reporting of randomized controlled trials: The CONSORT Statement. JAMA, 1996,276(8)
34、:637-639.Ioannidis JP, Evans SJ, Gotzsche PC, et al. Better reporting of harms in randomized trials: an extension of the CONSORT statement. Ann Intern Med, 2004, 141(10): 781-788.Downs SH, Black N. The feasibility of creating a checklist for the assessment of the methodological quality both of randomised and non-randomised studies of health care interventions. J Epidemiol Community Health, 1998, 52:377-384.,CONSORT 的网页,http:/www.consort-statement.org 提供有关报告RCT的教材和知识库,包括许多实际试验的例子,也包括这篇文章中的所有例子。读者可提出批评和建议。(Leah Lepage; e-mail, llepageuottawa.ca).,