1、1第十五章 医学科研中常见的统计学错误第一节 科研设计中的常见错误一、抽样设计二、实验设计中的随机原则三、实验设计中的对照原则四、实验设计中的重复原则五、实验设计中的均衡原则第二节 科研数据描述中的常见错误一、统计指标的选取二、统计图表第三节 医学科研统计推断中的错误一、 t 检验二、方差分析三、卡方( 2)检验四、相关与回归分析五、结论表达不当第十五章 医学科研中常见的统计学错误医学科研中,研究者关心的研究对象的特征往往具有变异性;如年龄、性别皆相同的人其身高不尽相同、体重、血型等也都存在类似的现象。同时,由于研究对象往往很多,或者不知到底有多少,或者研究对象不宜全部拿来做研究;所以人们往往
2、借助抽样研究,即从总体中抽取部分个体组成样本,依据对样本的研究结果推断总体的情况。恰恰是这种变异的存在,以及如何用样本准确推断总体的需求,使得统计学有了用武之地和发展的机遇。诚然,合理恰当地选用统计学方法,有助于人们发现变异背后隐藏的真面目,即一般规律。但是,如果采用的统计学方法不当,不但找不到真正的规律,反而可能得出错误的结论,进而影响研究的科学性,甚至会使错误的结论蔓延,造成不良影响。作为医学工作者,尤其是科研工作者,必须了解当前医学科研中常见的统计学错误,以便更好地开展科研和利用科研成果。本章借助科研中统计学误用实例,介绍常见的错用情况,以帮助读者避免类似错误的发生。2第一节 科研设计中
3、的常见错误统计学是一门重要的方法学,是一门研究数据的收集、整理和分析,从而发现变幻莫测的表面现象之后隐含的一般规律的科学。医学科研是研究医学现象中隐含规律的科学,包括基础医学研究、临床医学研究和预防医学研究等,不管哪类医学科研都离不开统计学的支持。要想做好医学科研,必须掌握一定的统计学知识,如总体与样本、小概率原理、资料的类型和分布、科研设计类型、统计分析的主要工作、常用统计方法以及方法的种类和应用条件等,尤其要了解当前医学科研中常见的统计学错误。实验设计原则的正确把握、统计指标和统计方法的正确选用、对假设检验结果的正确理解、弄清不同设计类型的应用场合、弄清统计结论与实际意义的真正关系等,是科
4、学合理应用医学统计学知识做科学研究的基本前提。但实际医学科研中,却存在着这样或那样的诸多统计学错误,如实验设计时违背实验设计应遵循的基本原则、进行资料描述时不能选择适当的统计指标、采用的统计图表不规范、假设检验时不顾资料与设计的类型而随意套用某种假设检验方法、不能正确理解 P 值与差异大小的关系、错误地将统计学结论与医学实际意义混为一团,等等。一、抽样设计抽样研究是常用的医学科研方法之一,但科研设计中常存在着抽样假随机,随意规定样本量的问题;从而破坏了抽样研究应满足的必要前提。常用抽样方法有:单纯随机抽样、系统抽样、整群抽样、分层抽样和多级抽样。二、实验设计中的随机原则随机指的是在选取样本时,
5、应确保总体中任何一个个体都有同等的机会被抽到而进入样本;在分配样本时,应确保样本中任何一个个体都有同等的机会被分入任何一个组中去。遵循随机的原则,目的就是使样本具有极好的代表性,使各组受试对象在重要的非实验因素方面具有很高的均衡性,从而提高实验资料的可比性;常见的错误是以随意代替随机。(一) 误用实例例 1 有些临床医生常常根据患者来院就诊的先后顺序对他们进行分组,如将先来的 10 例患者作为对照组,中间来的 10 例患者作为 A 药组,后来的 10 例患者作为 B 药组。分析:这种分组方法看起来似乎很合理,其实这样分组是违反随机原则的。3这样分入各组的患者可能在病情等某些重要的非处理因素上相
6、差很多;因为在某一段时间内人们可能容易患上某病,其中有一部分人看医生的态度比较积极,稍有不良感觉就会去看医生,但也有一部分人在这方面较为迟钝,病不重到一定的程度都不去看医生。换言之,在某一段时间内,患者来医院的先后顺序中,可能暗含着病情轻重不等的因素;按就诊的先后顺序分组的结果,就很可能造成某些组内重症者居多,而另一些组内轻症者居多的状况。这种违反随机原则的设计,没能很好地降低重要的非实验因素对观测结果的影响,结果的可靠性必然要受到影响。例 2 原文题目:小剂量干扰素加三氮唑核苷治疗流行性乙型脑炎 99 例分析。原作者在一般治疗的基础上加用小剂量干扰素及三氮唑核苷治疗流行性乙型脑炎 99 例,
7、采用同期的、接受一般治疗的 73 例该病患者作为对照。治疗组和对照组的病情,即轻型、普通型、重型和极重型的分布经 2检验差异无统计学意义。两组患者均采用传统降温、镇静、降颅内压、肾上腺皮质激素及抗生素预防感染等对症治疗;在此基础上治疗组选择发病在 5 天以内的患者,加用干扰素和三氮唑核苷静滴,疗程 57 天。两组比较疗效差异有统计学意义,结论:在一般治疗的基础上加用小剂量干扰素和三氮唑核苷治疗流行性乙型脑炎的疗效优于一般治疗的效果。分析:这个研究结果似乎是合理的,因为原作者考虑到了病情严重程度这一重要的非处理因素两组的分布情况,经 2检验差异无统计学意义。其实,除了病情严重程度,这个研究中还设
8、计到一个重要的非研究因素,即治疗的及时性。对于治疗组,要求发病到治疗的时间在 5 天之内;而对照组却没有这样的限制;根据常识,早期治疗对疾病的预后具有重要影响,通常有较高的治愈率和较低的死亡率。所以,在治疗的及时性方面,两组不具可比性;这样得到的结论当然要受到质疑。其实,在制定实验设计方案时,应将所有重要、可控的非处理因素考虑在内;本研究除了病情严重程度外,治疗及时性也是一个重要的非处理因素,应采用随机化方法使各组患者在病情和治疗及时性上尽量达到均衡一致,从而提高组间的可比性。三、实验设计中的对照原则设立对照组的目的是寻找一个参照物,或对比的基础;因为好与坏、高与矮、快与慢、长与短等都是相对而
9、言的。一种药物的疗效如何,要看与谁比较,4是与安慰剂,还是与当前市面上治疗此类疾病疗效最好的某种药物;比较的对象不同,结论是不同的。常见的错误是:缺乏对照、对照设置不当。(一) 误用实例1. 缺乏对照例 1 原文题目:银屑病发病与血型的关系探讨。原作者对 64 例银屑病患者进行血型观察,其中 O 型血 30 例,A 型血 17 例,B 型血 17 例,AB 型血 0 例。没有进行统计分析,就认为银屑病的发病与血型有明显的关系;同时也证实了遗传致病的决定意义。分析:该文没有对照,也没有统计分析,仅凭 64 例病人的血型分布,就下银屑病的发病与血型有关,显然是不妥的。因为,根据常识,正常人群中的血
10、型构成本来就不是非常均衡的;再者,64 名患者的血型构成是否与发病有关,必须经与对照组进行比较,并得到统计学假设检验的支持。如果正常人群的血型分布与银屑病患者的血型分布情况,经检验差异存在统计学意义,则认为血型构成可能与银屑病的发病有关,如果差异无统计学意义,则可以认为银屑病发病与血型构成无关。例 2 原文题目:静脉应用维拉帕米治疗快速型心房颤动的临床观察。原作者选择快速型房颤 38 例(阵发性房颤 8 例,持续性房颤 30 例) ,其中男 22 例,女 16 例,年龄 2478 岁,平均 52.9,心室率 128179 次/分,房颤持续时间2 天至 11 年。基础心脏病分别为:风湿性心脏病
11、11 例、冠心病 10 例、高血压性心脏病 5 例、肺心病 2 例、扩张性心肌病 2 例、甲亢性心脏病 2 例、先天性心脏病(房间隔缺损)2 例、特发性心脏病 4 例。心功能(NYHA)分级:级11 例、级 13 例、级 14 例,无级和/或预激综合征者。用药方法:常规心电监护,维拉帕米注射液 5ml 加入 5葡萄糖 10ml 中,于 5 分钟内注射完毕;如果 15 分钟后心室率减慢不显著,再予以维拉帕米 2.55.0 静注。观察用药后 5、10、15、20、30 分钟的心室率及血压变化。疗效判定标准:显效:用药后心室率减慢30或心室率低于 100 次/分,有效:用药后心室率减慢2030但心室
12、率不低于 100 次/分,无效:用药后心室率减慢20且心室率不低于 100 次/分。结果:至 30 分钟显效 27 例、有效 11 例,总有效率达100;说明该法控制房颤之心室率起效迅速、效果可靠。分析:不知您看了这个案例,有何感觉?我觉得很乱、结论的可靠性难以5保证。为什么呢?我们知道,要考察某种药物的疗效如何,首先必须设立合理的对照组,因为有比较才有鉴别;而本试验未安排对照组。本试验如能设置一可比的对照,严格控制重要的非实验因素,使其在各组间达到均衡一致,给对照以常规的治疗,如洋地黄制剂;这样做出的结果才能较好地反映出实验效应的差别。另外,对于不同心脏病引起的房颤,放在一起研究,似乎不太妥
13、当;因为这样的同质性不理想。如果能适当增加各组样本数量,分开进行比较研究,效果会好许多。2. 对照不当例 1 原文题目:肝炎灵联合丹参注射液治疗慢性乙型肝炎 60 例。原作者将慢性乙型肝炎患者随机分为两组,治疗组 60 例,接受肝炎灵和丹参注射液联合治疗,对照组 44 例,接受肌苷、维生素 C 的治疗;两组在性别、年龄、病程、病情等方面差异均无统计学意义。比较两组肝功能指标恢复正常率,得出结论:两药联合应用治疗慢性乙型肝炎有良好的协同作用。分析:这个研究,如果想得出两药联合应用治疗慢性乙型肝炎是否有协同作用,恐怕要考虑采用析因设计为好;而从药物作用上看,丹参注射液单独应用对慢性乙型肝炎是否没有
14、治疗作用。所以,原作者研究的真正目的可能是将肝炎灵与丹参注射液联合应用治疗慢性乙型肝炎的效果是否比单独使用肝炎灵治疗的效果好。如果是这个目的,该研究的对照就有问题了;因为原文中设置的对照无法显示两药合用是否会比单独用肝炎灵的疗效好的结论。正确的做法是,对照组给予肝炎灵加安慰剂治疗,安慰剂在剂型、外观、剂量等方面与丹参注射液相同。采用双盲的方法进行分组和处理,会很好地消除主观偏性,得到的结果会更为准确可靠。例 2 某人在研究药物治疗铅中毒时的驱铅效果时,设计了如下试验,见表 15-1。对收集的实验资料进行统计分析后,原作者得出的结论为:此药有明显的驱铅作用。分析:本研究虽然设有对照,但原作者没有
15、考虑到这种貌似合理的对照,实际上是很不适当的;因为治疗前后患者所处的环境也发生了变化,即脱离现场,而脱离现场前后本身,也会引起尿铅和血铅的变化。所以,虽然统计分析结果清楚地显示两组之间的差别具有统计学意义,但这并不能有效说明此药具有驱铅作用。如果要考察某种疗法的驱铅效果,必需设有不给予任何治疗的空6白对照;当然,这显然是行不通的,因为这样违背了伦理道德的要求;我们可以尝试做动物实验。而如果患者都必须要接受某种治疗,那么就须采用 2 种和2 种以上的药物。采用具有一个重复测量的两因素设计定量资料的方差分析,或者把治疗前的数据作为协变量的值,采用单因素多水平设计资料的协方差分析。表 15-1 30
16、 名铅中毒工人脱离现场后住院治疗的结果( s)x观测指标 治疗前 治疗后血铅(mg/L) 0.181 0.0290.073 0.019*尿铅(mg/L) 0.116 0.009 0.087 0.010*注:与 治疗前比, * P 0.01例 3 原文题目:高血压病患者肾脏早期损害指标的探讨。原作者探讨高血压患者早期肾脏损害的诊断方法,研究对象为 74 例高血压患者,男性 43 例,女性31 例,平均年龄 61 岁(4073 岁) ;对照组为 53 名体检健康的职工。分析:这个研究设计虽然有对照组,但没有介绍对照组与试验组间的可比性情况。显然,年龄和性别等重要的非试验因素可能会对研究结果带来一定
17、程度的影响;本试验在设计时,就应将年龄和性别等作为选取对照的重要影响因素。四、实验设计中的重复原则实验设计中重复原则指的是“重复实验” ,即在相同的实验条件下,做两次或两次以上的独立实验;这里的“独立” ,是指要用不同的受试对象(个体或样品)做实验,而不是在同一受试对象上做多次实验。重复原则的作用在于它有利于使随机变量的统计规律性充分地显露出来。常见的错误是把重复测量当作重复实验、样本量不足。(一) 误用实例例 1 某人为了说明两台仪器测定结果之间的差别没有统计学意义,选择一名健康者作为受试对象。先用 A、B 两台仪器分别对该名受试者进行 4 次重复测量,1 个月后,再用 A、B 两台仪器分别
18、对该名受试者进行 4 次重复测量;测量的指标有 3 个,其中一个是“二尖瓣前叶 EC 幅度” ,每一个指标共获得 16 个数据。然后采用方差分析和 t 检验进行统计学处理,得出两台仪器测定的结果之间差7异无统计学意义;认为自制的廉价仪器可取代进口的昂贵仪器。分析:用同一台仪器在同一时间对同一个体进行重复测定,这实际上是“重复取样” ,数据的波动反映了测定值技术熟练程度的高低。1 个月前后采用同样的方法对同一个人进行两次测定,这是“重复测量” ,目的往往是考察受试者接受某种处理后,随着时间的推移,受试者体内某些指标的动态变化趋势;本例受试者未接受任何处理,前后的变化仅仅反映了指标的生理变化,没有
19、实际意义。本例中,虽然每个指标均有 16 个原始测定值,但真正的样本大小,及独立受试对象的个数应该是 1,而非 16。本例严重违反了实验设计的“重复原则” 。例 2 为探讨不合格采样及送检导致生化指标波动的原因,原作者分析了化验室检测结果波动的 4 个因素。第一个因素:葡萄糖盐水输液,同侧采血和异侧(正常)采血的生化检测结果差异,用病房病人 2 次结果比较;结果显示:同测采血时,对肌酐、尿酸等 7 项指标具有 30200的波动,其中血糖和氯的波动尤为明显。第二个因素:样本溶血和正常标本生化指标的差异,用病房病人 2 次结果比较;结果显示:样本溶血时,其中 19 项生化检测项目均有波动。第三个因
20、素:时间依赖性项目在抽血后 3 种不同时间送检引起结果的差异,用1 个病人的血样说明血氨在不同时间送检结果不同。第四个因素:抽血管错误,应该用血清管,但用了枸橼酸纳抗凝管后,造成生化结果波动;用 5 例病人两种不同抽血管的化验结果的变化率来说明差异。分析:本例原作者对 4 个因素分别进行的分析,除最后一个因素用了 5 例受试对象外,其他三个似乎只用了 1 个受试对象(前两个因素中关于受试对象的描述很模糊,不知到底是 1 位受试对象的两次检测结果还是两个病人的检测结果) ;由于变异性的存在,这样的结果很难有说服力,且第四个因素虽有 5 例,但未对数据进行统计学处理,结论的可靠性是受怀疑的。五、实
21、验设计中的均衡原则均衡原则是实验设计四个基本原则中最核心的内容,起着统观全局的作用。所谓均衡,是指某因素各水平组中的受试对象所受到的非实验因素的影响是完全平衡的,即这些组间的差别完全是由于该因素采取了不同水平所致,而并非其他因素取值不同所造成的影响。常见错误是设计不当,难以满足均衡的要求。8(一) 误用实例例 1 某研究者为观察联合用药治疗鼠早期矽肺的效果,采用如下方法:石英粉尘 20mg/只建立模型,采用低剂量不同抗矽肺药物分别治疗 60 天和 150 天后宰杀。给药组分别为克矽平、汉防己甲素、羟基磷酸哌嗪、柠檬酸铝单一用药组,克矽平汉防己甲素、汉防己甲素羟基磷酸哌嗪、羟基磷酸哌嗪柠檬酸铝联
22、合用药组。另有生理盐水对照组和石英阳性对照组。分别称量大鼠全肺湿重、干重,测定大鼠全肺胶原蛋白。按单因素 k 水平设计资料进行方差分析,差异有显著意义;进一步用 q 检验进行两两比较。无论是预防性治疗 60 天或是 150天,均以“柠铝羟哌”和“汉甲素羟哌”的疗效最好,明显优于单一给药组的疗效, “克矽平汉甲素”组在 150 天治疗时也优于单一给药组。分析:类似的设计似乎比较常见,尤其多见于中医药的研究;其实这样的设计属于“对照不全” ,因为很多组之间在某些方面是不可比的,其本质则是违反了实验设计的“均衡原则” 。原作者设计本实验的目的是想考察联合用药能否增加疗效,按单因素 k 水平设计资料进
23、行方差分析;这样显然是不妥的。由于各组中并不全是单因素的每个水平,联合用药组涉及到多个因素不同水平的组合;即使在所设计的组中某个联合用药组的疗效好于其他组,但由于对照不全,研究之外的联合用药组疗效是否会更好,则不得而知。仔细分析可以发现,该研究涉及到 5 个实验因素,即克矽平用否、汉甲素用否、羟哌用否、柠铝用否及疗程,每个因素 2 个水平;所以采用 5 个因素的析因设计较为合适,这样既能分析出每个因素的实验效应,又能分析任意几个因素之间的交互作用。如此设计与原设计相比,能较为精确地估计和控制误差,结果更可靠;而且,所需的动物数较少。例 2 某人为研究耐力训练与提高战士体质的关系时,进行如下设计
24、:从某连队选取 20 名战士构成试验组,按训练方案进行耐力训练;以机关同龄的 20 名战士组成对照组,只进行日常活动。观察经 4 周试验后,两组展示进行一定量的运动时血乳酸的变化。得出的结论:按此方案进行训练能降低运动时血乳酸的蓄积,提高战士的耐力。分析:首先,根据这样的设计得出如此结论是不妥当的;因为该实验设计违反了均衡原则,对照组的选择不合理。对照组除训练因素外,其他应尽可能与实验组一致,而机关战士和连队战士由于工作性质的不同,体能的基础可能9存在较大的差别,所以研究开始时两组间就不具备可比性。另外,研究回答的问题缺乏实际意义,因为人们早就知道训练和不训练不一样。可以研究不同训练方案对提高
25、战士体质之间的差异有无统计学意义,以探索最大限度地提高战士体质的最佳方案。第二节 科研数据描述中的常见错误统计描述是统计分析的重要工作之一,是展示数据特征的必要步骤。通常依据资料的性质和类型,选择适宜的统计指标以反映数据的集中水平和变异程度;多数时候还借助统计表、统计图来展示数据的分布情况。正确选择统计指标、合理运用统计图表,是进行恰当统计描述的前提;但实际运用中,统计指标选取不当,统计图表使用不规范的现象却较为普遍。一、统计指标的选取(一) 定量资料的统计指标 1. 选择统计指标的一般方法:对于定量资料,在确定统计指标前,须先考察资料的分布特征,看其是否满足正态分布的要求;从而为选用恰当的统
26、计指标提供参考。如果资料满足正态性,则考虑采用算术均数和标准差,即以 s 表x示样本数据的集中水平和离散程度;如果数据经对数变换后能满足正态性的要求(如等比资料) ,则采用几何均数(G)描述其集中水平;如资料分布不能满足正态性(如传染病的潜伏期) ,通常采取中位数(M)和四分位数间距(Q)作为描述其集中趋势和变异程度的指标。2. 常见的错误: 以 s 描述任何类型资料的特征,尤其是以 s 描述分xx布明显呈偏态的资料;混淆标准差与标准误:标准差和标准误是统计学中非常重要的两个概念,虽然二者在本质上是相同的,均是描述资料离散程度的大小,但描述的对象不同,含义自然也不同,标准差描述一组个体观测值的
27、波动情况,而标准误则反映从同一总体中采用同样的抽样方法,固定样本量多次随机抽取的样本均数的波动情况。均数 标准差( s) ,反映在相同实验条件x下,观测值在均数附近的波动情况;而均数 标准误( s ) ,反映在相同条x件下的重复研究中, 与的接近程度。x3. 误用实例例 1 某研究者在猪活体脑片钙离子荧光强度的测定及对停循环后脑缺血损伤10的评价一文中,对资料进行了如下表达,见表 15-2。表 15-2 猪小脑病理定量( s)x组别猪数(只)空泡变性轻度嗜酸性变性中度嗜酸性变性重度嗜酸性变性实验组 8 11 2019 273 120 0对照组 8 2 8 21 25 31 26 32 18分析
28、:均数 标准差( s)用于描述呈正态分布资料的特征,包括平均x水平和变异程度;要运用 s 须先考察资料的分布能否满足正态性。表中的数据明显不符合正态分布的要求,因为如果符合正态分布,均数通常比标准差要大;而表中多数的标准差反而比均数大,有的甚至达 4 倍。从理论上说,均数不会比标准差小,考虑到抽样误差的影响,标准差可能会大于均数,但通常不会是均数的若干倍;所以,这个资料显然属偏态分布,用 s 进行描述自然是x不适合的。正确的描述指标应是 M(Q) ,即中位数与四分位数间距组合。例 2 某人在表达正常人与四组患有不同疾病的患者血清 PC测定结果时,编制出如下一张统计表,见表 15-3。分析:这是
29、一个典型的混淆标准差与标准误的例子,也可能是作者为了让资料的离散度看起来小一点,而采取的一种“补救措施” ,即以标准误取代标准差。其实,均数 标准差( s)与均数 标准误( s )的含义是不同的。xx另外,用 s 表达定量资料的结果,同样要求资料满足正态分布。其实我们x很容易将数据的标准差算出来,见表 15-3 最后一列;不难看出,本例资料显示的血清 PC值是呈明显偏态分布的。表 15-3 正常人与 4 组不同疾病患者血清 PC的测定结果组别 例数 s (ug/L)xP 值* 标准差 正常人 100 85.0 17.5 175急性病毒性肝炎 22 131.1 30.2 0.01 142慢性迁延性肝炎 18 94.9 26.5 0.05 112