1、医学科技论文中统计学应用释疑,讲座人:郭秀花(教授、博士生导师) 单 位:首都医科大学公共卫生学院时 间:2014.10.28地 点:解放军总医院,医学科研是一项艰苦的创造性劳动,同样决定于人们的专业知识、技能和态度。,科学研究(scientific research):简称科研,是推动社会进步,促进经济发展不可缺少的一种实践活动。,许多课题在申报指南中都明确要求:课题队伍中要有流行病学、医学统计学专家参与。许多杂志也要求资料要经统计学专业审阅把关(设计、统计分析)。,女士品茶又名统计,改变了世界(台湾译),中国统计出版社。 关于现代科学如何逐步被统计思想所影响的科普读物。,医学论文中的统计学
2、问题,60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%-72%。1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。,表1 国内统计学知识误用情况 内 容 误用率(%) 统计设计:对照组设置不合 理或无对照组 22.6 应该用随机化分 组而未使用的 91.4 统计描述: 平均数 34.3 构成比 53.2 率 38.0 统计表 67.9 统计图 64.0 统计推断: t 检验 50.0 F检验 48.6 2检验 44.4 直线相关与回归 33.0,2001年西班牙的Girona大学的Emili Garcia-Berthou和Carles
3、 Alcaraz查阅了Nature上发表的181篇论文,发现38的文章至少有一处有统计学错误。2005年Nature Medicine 发表过一篇社论,题目为:“Statistically significant”,一开头就说“Nature 和Nature Medicine因为登载的某些文章统计分析欠佳而遭到公众批评 ”。,Checklist of statistical adequacy,1.“材料与方法”部分统计学应用释疑,统计设计方法; 资料的表达; 指出所采用的统计分析方法和所使用的软件及版本。,1.1 给出设计方法,描述研究对象(人或动物等)的来源、选 择方法、基本情况、有无随机分组
4、(随机抽样),必要时给出样本量估计的依据等。 随机化分组:应说明具体的随机化方法; 非随机化分组:给出影响因素的均衡性分析;临床试验 :特别说明诊断标准、疗效评价 标准、病例入选标准、病例剔除标准、有无失访(失访比例)、有无“知情同意”及评价疗效有无盲法等。,统计研究设计具体任务,估计研究对象的数量(样本大小估计)跟据研究目的确定对照的类型保证随机化和双盲原则的贯彻跟据研究目的确定主要和次要考核指标如何收集和汇总数据以保证数据质量如何进行统计分析,Fisher在他的著作中多次强调,统计学家与科学研究者的合作应该在实验设计阶段,而不是在需要数据处理的时候。他精辟地指出:,To call in t
5、he statistician after the experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say what the experiment died of.,Born: 17 Feb 1890 Died: 29 July 1962,主要问题:缺少对照组或对照组不恰当;没有做到随机化;样本缺乏代表性;设计类型错误。,案例1: “中药止血粉治疗溃疡病出血 ”用中药止血粉结合其他治疗措施,治疗36例溃疡病出血,结果35例恢复,大便潜
6、血试验平均6.1天转阴。作者认为以中药止血粉为主治疗溃疡病出血效果好。,案例2: 用盐酸可乐定注射液治疗期高血压病,甲组103例,用药剂量为0.15mg,有效率87.4;乙组15例,用药剂量为0.3mg,有效率100%, P0.05。 结论:乙组优于甲组,建议推广使用0.3mg。,两组例数相差太大,不具可比性。 应扩大乙组例数,案例3,某医院2001年1月至2005年12月在关节镜引导下应用GSH治疗股骨远端骨折49例,与同期切开复位GSH钉固定32例比较,取得满意疗效。该81例股骨远端骨折患者根据入院顺序分组,分别采用切开复位GSH钉固定和关节镜引导下GSH钉治疗。,资料中按照入院顺序进行分
7、组,不能保证分组的效果,因为患者来医院就诊在患病严重程度、患病时间等重要的非处理因素方面不一定是均衡的,可能带有某种程度上的“聚集性”,即某一段时间上来的患者多数为重病患者,另一段时间上来的多数为轻病患者;若规定第一个来就诊者分入实验组,第二个来就诊者分入对照组,这样交叉进行分组,最后也可能两组患者在某些重要非实验因素方面相差悬殊,组间缺乏均衡性。,释疑:,中国首医,案例4 某研究者欲说明心理辅导的重要性,在校外旅游地区选取40人,其中20作用心理辅导,另20人未作;在校内有20人采用心理辅导。设计上有无问题?,案例5,为了考察阿仑膦酸防治牙槽骨吸收的效果,有人设计了如下的实验:取3-4个月龄
8、的SD大鼠45只,将45只大鼠随机分入六个组,其中第一组至第五组均为8只大鼠,第六组为5只大鼠。,全部大鼠均在第1周和第12周重复测体重,均在第12周结束实验时测三项生化指标、测量股骨和下颌骨的骨密度、测三项骨生物力学指标。各组含义见下页。试分析该项实验研究中存在的主要错误。,组别 形成各组实验的条件,1. 给大鼠去势、结扎、用药 2. 给大鼠结扎、用药 3. 给大鼠去势、结扎、不用药 4. 给大鼠结扎、不用药 5. 给大鼠去势、不用药 6. 空白对照(即假手术)组,本实验设计的“标准型”,结扎与否 去势与否 用药与否:用 不用结扎 去势 A组 B组 不去势 C组 D组 不结扎 去势 X1 E
9、组 不去势 X2 F组 由于原作者少设计了两组,导致一个非平衡的多因素设计的出现,组间可比性差,结论可靠性差!,案例6,A组:pCIA-P股四头肌注射;B组:pCIA-P颌下腺周围区域皮下注射;C组:pCIA-P颊粘膜下注射;D组:pCI股四头肌注射;E组:生理盐水股四头肌注射。,基本情况梳理,实验涉及以下两个因素:其一,作用物不同。pCIA-P、pCI、生理盐水;其二,作用部位不同。“股四头肌”、“颌下腺周围区域皮下”、“颊粘膜下”。,问题的原型和标准型,作用物 部位:A B CpCIA-P X X XpCI X X X生理盐水 X X X,1.2 资料的表达,近似服从正态分布:偏态分布:最
10、小值、最大值、中位数和四分位数间距。,问题: 用烦琐的语言叙述资料 表中数字的单位没有放到纵标目上;线条过多。 资料类型与所选用的统计图不匹配;坐标轴上所标的刻度值违背数学原则。 使用均数标准差(误)的形式表达一切定量资料。,案例7 在“三种结核分枝杆菌耐药基金检测的临床应用和评价”一文中,作者给出资料:初治肺结核病人结核分枝杆菌对药物耐药频率自高往低排列是:RFP(8/14),INH(7/14),SM(6/14),PZA(4/14),EB(3/14),K(2/14),O(1/14),PAS(1/14)和左旋氧氟沙星(1/14)。其中RFP高耐3例、低耐5例,INH高耐2例、低耐5例,SN高耐
11、2例、低耐4例,PZA低耐3例、高耐1例,EB高耐1例、低耐2例,K低耐2例,氧氟沙星、PAS和左旋氧氟沙星低耐各1例。,复治肺结核病人结核分枝杆菌对药物耐药频率自高往低排列是:INH(68/86),RFP(65/86),EB(59/86),SM(59/86),K(45/86),PZA(44/86),PAS(36/86),O(18/86)和左旋氧氟沙星(16/86)。其中INH高耐47例、低耐21例,RFP高耐53例、低耐12例,EB高耐28例、低耐31例,SM高耐38例、低耐21例,K高耐18例、低耐27例,PZA高耐32例、低耐12例,PAS高耐16例、低耐20例,氧氟沙星高耐3例、低耐1
12、5例,左旋氧氟沙星高耐2例、低耐14例。,表3 两种疗法治疗情况统计表,案例8,案例9,在“白细胞介素-12基因in vivo 疫苗治疗恶性淋巴瘤的实验研究”一文中,作者绘制了一个线图,见图。,肿瘤体积(cm3),图1 6只小鼠在不同天数的肿瘤体积(cm3),图2 6只小鼠在不同天数的肿瘤体积(cm3),肿瘤体积(cm3),某研究者为了解北京儿童医院5岁以下住院的腹泻患儿,星状病毒感染的临床和流行病学特点,部分结果如图3所示。,案例10,图3 星状病毒和轮状病毒感染患儿同龄累积百分比(%),坐标轴刻度值不符合数学原则,1.3 指明统计方法,应给出所采用的统计学方法、所使用的统计软件的名称及版本
13、。,有的未指明; 有的虽指明但方法不正确或与文中采用的方法不符合。,2.“结果”部分统计方法的正确应用,2.1 资料的描述分析,定性资料有时需绘制统计表或图、计算相对数等。 运用相对数时还可能存在分母过小,将构成比与百分率混用等问题。,案例11,作者在“原发性网膜、肠系膜间质瘤的临床病理及免疫组织化学研究”,对结果进行如下描述:8例间质瘤C-kit均呈阳性表达,阳性表达率为100%;7例间质瘤CD34阳性表达,阳性表达率为87.5%;8例网膜、肠系膜间质瘤中6例为SMA阳性,阳性率为75%。,例数较少(小于20)的资料计算率,可改为:8例间质瘤C-kit均呈阳性表达(占8/8),8例间质瘤CD
14、34有7例阳性表达(占7/8),8例网膜、肠系膜间质瘤中6例为SMA阳性(占6/8)。,释疑:,原作者在文中指出:“600例烧伤患儿,210例早期有休克症状,其中3岁以下者110例,占52%,3岁以上者100例,占48%,年龄越小,休克发生率越高。”,误用“比”代“率”,案例12600例小儿烧伤休克期治疗分析,案例13术后病人探视需求的调查分析,原作者对外科术后101例病人的探视需求进行了调查,绘制了表6。,误用“率”代“比”,2.2 统计方法的选取,2.2.1 正确方法定性资料可分为计数资料和等级资料。具体统计分析按照7种情况进行: 四格表 配对四格表 RC无序列联表 RC单项有序列联表 R
15、C双项有序且属性不同列联表 RC双项有序且属性相同列联表 高维列联表。,t检验和方差分析的适用范围与前提条件,在对均数作假设检验时,方差分析方法的选择取决于定量指标的定性影响因素的个数(设为K)和因素的水平数(设为M)。(1)当K=1,M3时,应选t检验;(2)当K=1,M3时,应选单因素设计的方差分析方法;(3)当K2时,应根据多因素设计类型选择相应的方差分析方法,如配伍组设计、析因设计、交叉设计、重复测量设计等等。,2.2.2 杂志中常出现的问题,万能工具: 2检验 定性资料 检验 定量资料检验代替方差分析参数检验代替非参数检验单因素代替多因素方差分析。多重回归分析中自变量的赋值错误多重回
16、归分析中用所得的P值解释影响因素的作用大小 另外,在许多文章中作者未指明文中使用的统计方法是什么,直接给出P值。,2.2.2 杂志中常出现的问题,定性资料的假设检验方面,案例14 作者采用地高辛精标记探针原位杂交技术,检测C-myc癌基因和p53抑癌基因在子宫平滑肌肿瘤中的表达和定位,探讨其与交界性子宫平滑肌瘤发生和发展的关系,及交界性子宫平滑肌瘤与子宫良、恶性平滑肌瘤的内在联系,资料见表13。,原作者得3组阳性率两两比较,P0.01,释疑:,注:*对应的理论数小于5,表14资料因理论数小于5的个数较多,若平滑肌肉瘤组不能增加例数或交界性肌瘤与平滑肌肉瘤也不便合并时,就不应采用2检验,可选用F
17、isher精确概率计算法和对数线性模型的其中方法之一。本例采用Fisher确切概率法计算得:检测C-myc癌基因时,3组阳性率间P=0.00547,有差异;检测p53抑癌基因时,3组阳性率间P=0.00454,有差异。,案例15 原作者对近20余年来在该院住院治疗的晚期卵巢上皮性癌患者进行分析,了解预后变化及影响预后的因素,资料见表15。,原作者的统计分析及结论是:经2检验,两组间临床分期、病理分级、组织学类型无差异,P均0.05。,本例对于临床分期、病理分级分别采用Ridit分析进行计算,临床分期的结果是:R1=0.5101,U1=-0.3198;R2=0.4933,U2=0.2611,两组
18、均与标准组无差异,结论与原作者相同。病理分级的结果是:R1=0.4546,U1=1.2537;R2=0.5303,U2=-1.0236,两组均与标准组差异无统计学意义。 也可以采用秩和检验。,释疑:,实例16 为探讨病人的年龄、双侧卵巢基础状态及血清基础二醇水平与促超排卵后卵巢反应之间的关系。对于基础状态卵泡大小与卵巢反应类型的关系,原作者先采用单因素方差分析得结论:基础状态卵泡直径在卵巢低、中、高反应型之间差异有显著性(P0.05),然后进一步将基础卵泡直径分层得表6。,表6 基础状态最大卵泡直径与卵巢反应类型的关系 卵泡直径 卵巢反应类型 (mm) 低反应型 中反应型 高反应型 0 0 1
19、 0 2 0 29 13 4 5 25 4 6 0 15 1 8 0 7 0 10 2 0 0 统计处理后结论是:基础状态最大卵泡直径4mm时,卵巢低反应型的发生率明显增加,差异有显著性(P0.001)。,释疑:属于双向有序且属性不同的列联表资料可选取等级相关分析、典型相关分析和线性趋势检验的其中方法之一。本例采用Spearman秩相关分析,结果是:rs =-0.33014,P=0.0007,相关有极显著性的统计学意义,且为负相关,说明年龄与卵巢反应高低程度成反比。,案例17 作者回顾分析了1989-1995年间某院手术治疗的子宫内膜癌290例的临床病理资料,就其临床分期和手术病理分期进行比较
20、,其中选取手术前后组织学分级的资料,见表7。,表7 手术前后组织学分级的比较(例数)手术前 总 手术后组织学分级 分级改变 改变率 组织学 例 分级 数 G1 G2 G3 降低(%) 升高(%) (%) G1 135 112 23 0 0 23 17.0 G2 60 9 41 10 9 10 31.7 G3 20 0 9 11 9 0 45.0 合计 215 121 73 21 18 33 23.7 注:54例缺术前组织学分级,21例缺术后组织学分级,均未计,原作者结论是:组织学分级,术前为G1者135例,术后为121例;术前为G2者60例,术后为73例;术前为G3者20例,术后为21例;总的
21、误差率为23.7%。,释疑:属于双向有序且属性相同的列联表资料可选一致性检验(也称Kappa检验)和特殊模型分析的其中方法之一。本例采用Kappa一致性统计量计算得:Kappa=0.563,U=10.413,P=0.0000,说明手术前后组织学分级的比较具有一致性。,案例17,探讨纤维内镜检查吞咽状况(fibreoptic endoscopic evaluation of swallowing,FEES)在吞咽功能评估中的应用价值。对52例临床筛选有吞咽障碍的神经系统疾病患者2日内行FEES和X线造影录像(videofluoroscopy)吞咽功能检查,结果进行对比分析。假定X线检查为金标准。
22、试评价两种方法的一致性。,表13 FEES和X线造影吞咽检查评估结果,采用 检验, =42.5934 ,P0.0001。认为两种方法具有较好的一致性,对于该资料,若要分析两种方法是否具有一致性,应该使用Kappa检验。 Kappa检验分析结果为:kappa=0.4515,z=5.5893,P0.0001,说明两种方法具有一致性。,释疑:,案例18 在“乳癌相关肽及肠三叶因子在应激胃粘膜损伤的早期修复作用”一文中,作者在探讨三叶肽对胃粘膜损伤的早期修复作用时,将30只大鼠随机分正常对照组(6只)和实验组(24只),实验组又随机按0、2、4、8h等4个时间点分为4组(每组各6只),实验数据以 表示
23、。,定量资料的假设检验方面,原作者对各个指标原作者多次采用t检验,表14 三叶肽对胃粘膜损伤的早期修复情况,统计分析方法应为完全随机设计资料的单因素方差分析。选择适当的两两比较方法。,案例19,在“还原型辅酶I(NADH)拮抗阿霉素心肌线粒体毒性的机制”一文中,作者在研究NADH诘抗Dox心肌线粒体毒性的作用机制时,将30只大鼠随机分为4组,:对照组(6只);Dox处理组(8只);NADH处理组(8只);NADH/Dox处理组(8只)。测定的定量指标有“S3值”、“S4值”、“RCI值”和“ODP/O值”。文中提到运用的统计方法有t检验和单因素方差分析。,注:与对照组比较,(1)P0.01,(
24、2)P0.05;与Dox组比较,(3)P0.01,(4)P0.05 0.05,选用参数检验还是非参数检验?,实例,患 者 编 号 1 2 3 4 5 6 7 胰岛素含量(u/ml) 24 17 18 12 15 121 10 血糖含量(mg) 142 170 194 213 214 238 249 某研究者对7例糖尿病患者给某种药物后, 测量其血中胰岛素和血糖的含量。该研究者采 用的是直线相关分析,得:r0.3140,P0.05 ,结论为胰岛素含量和血糖的含量之间无直线相 关关系。,未考虑可疑值的剔除,直线相关与回归分析,实例,某作者欲分析年龄与淋巴细胞转 化率的关系,n=252, r=-0.
25、20,回归 方程 y=76.0-0.4x。P0.01,结论是 淋巴细胞转化率与年龄密切相关。,应结合r2的数值大小来评价r的假设检验结果。,案例20,多重回归分析方面,在某项研究中,使用多重Logistic回归模型分析雌激素受体ER、孕激素受体PR、雌激素诱导蛋白pS2、抑癌基因P53和原癌基因c-erbB-2的阳性表达情况与乳腺癌的关系。原文中的表述如下:“Logistic回归分析,P53的参数检验结果P=0.7713,而其他4个指标P值均小于0.05,显示ER、PR、pS2、C-erB-2对结果作用比较显著,而P53作用较小”。,案例21,释疑:,通过假设检验得到的P值只能说明自变量对于响
26、应变量的影响是否有统计学意义,无法说明自变量对响应变量的作用大小。 原文中根据对P53的回归系数进行检验的P=0.7713,就说P53作用较小;而ER、PR、pS2、C-erB-2这四个指标所对应的P值均小于0.05,显示它们对结果的作用比较显著,显然,这在概念上是有误的。,要说明各自变量对于响应变量的影响大小,首先是应看其P值是否小于0.05,其次应该根据标准回归系数的绝对值大小来比较各个有统计学意义的因素对于结果的作用大小。,策略,84,分析阶段分层分析 标准化多因素分析,如何控制混杂因素?,某研究者探讨成人过敏性鼻炎的环境危险因素,采用11配对的病例-对照研究设计,选择某医院耳鼻喉科确诊
27、的100例过敏性鼻炎患者为病例;同时选择该院耳鼻喉科确诊的非过敏性鼻炎患者,与病例11相匹配为对照。以成人过敏性鼻炎的可疑危险因素作为分析变量进行单因素的条件Logistic回归分析,变量赋值见表19。,案例22,释疑:,资料的研究目的是探讨成人过敏性鼻炎的环境危险因素,应变量为是否患过敏性鼻炎,为二值变量,自变量都是定性变量,其中有二值的定性变量、多值有序的定性变量和多值名义的定性变量。 对于二值变量,通常将其量化(通常赋0和1两种值)后代入回归方程;对于多值名义变量,则需要产生哑变量,然后将哑变量引入回归模型进行分析,如果该变量有k个水平的话,则应该产生k1个哑变量,此时,回归方程中将有k
28、1个回归系数与之对应;如果自变量是多值有序变量,有两种处理方式,可以量化后按连续变量处理,也可以像多值名义变量那样产生哑变量。,2.3 结果的叙述形式,给出具体方法的名称、精确的统计量值和相应的P值。,经统计学*方法检验,统计量值为:P=,当P值与检验水准(一般取0.05)很接近或与专业经验结论不吻合时,不要轻易地下结论,而应从各个环节上找原因。 另外,给出P值是循证医学最重要的“证据”之一,一些meta分析方法必须根据精确的P值对同类研究结果进行综合。 如果提供精确P值实在有困难,应给出实际的 值、值或F值,以便他人在meta分析时转换为精确的P值。,医学论文中在结果的叙述形式中常见的错误是
29、:有的作者不给出具体方法的名称、精确的统计量值和相应的P值,或给的不全面。 另外,当统计结果P值很接近0.05,如:P=0.052或P=0.049时,就认为P=0.053无统计学意义,P=0.049有统计学意义,其实P=0.052、P=0.049都是小概率事件。,3.“讨论”部分统计学应用释疑,许多论文作者把P值理解为处理无效的概率,其值大小视为实际效果的“显著”,即:将P0.05说成“差异显著”、将P0.01说成“差异非常显著”;或采用A组明显地高于(或低于)B组、x变量与y变量明显(显著)有关系等语言进行论述,其实英文“significance”并不含“显著”之意。,3.1 假设检验结果的
30、解释,实例 有人误认为“r0.7”就代表两 变量之间呈高度相关关系。 “r=0.945”就表明两变量之间呈 高度相关吗?,df=n-2=2r0.05(2)=0.950因为r=0.9450.05。,3.2 发表偏倚,有的作者只追求阳性结果的论文,若不能得到阳性结果就去修改数据,这是很严重的错误,违背了科学的严谨性、严肃性。,统计学符号的正确使用,(1)样本的算术平均数用英文小写x(中位数仍用(M);(2)标准差用英文小写s;(3)标准误用英文小写 ;(4)t检验用英文小写t;(5)F检验用英文大写F;(6)卡方检验用希文大写 ;(7)相关系数用英文小写r;(8)自由度用希文小写;(9)概率用英文大写P(P值前应具体检验值,如t值、 、q值等)。 以上符号均用斜体。,要多看书、多请教,对于复杂方法,可通过合作来提高层次、避免错误!,一看、二问、三知道!,98,谢谢大家!,