1、统计表和统计图,童新元 中国人民解放军总医院,统计描述(二),统计描述,统计描述是指用统计指标和公式、统计表、统计图等方法对数据的特征及其分布规律进行检测与描述。统计描述的方法有三种:统计量(指标和公式)统计表统计图,概率正态分布密度函数,若随机变量x的概率密度函数为: 式中为总体均数,为总体标准差 x满足正态分布,记为x N(,2),正态分布的性质,正态分布形状像钟称为钟型曲线.正态分布曲线在横轴上方均数处()达到最高。正态分布曲线以均数为中心,左右两侧对称。正态分布曲线以横轴为其渐近线。,正态分布有两个参数和均数是位置参数,当恒定时, 越大,则曲线沿横轴越向右移动, 越小,则曲线沿横轴越向
2、左移动;标准差是变异度参数,当 恒定时,越大,表示数据越分散,越小,表示数据越密集。,曲线下的面积,正态分布曲线下的面积有一定的规律。正态分布曲线下横轴上的总面积为1。变量x落在某个区间的概率等于正态分布曲线下该区间的面积。,正态分布的应用,计算正常值范围 (参考值范围)95%参考值范围: 均数加减1.96倍的标准差例如: 医院临床检验报告中参考值范围: 红细胞计数:4.3-5.9 1012/L 白细胞计数:3.5-10 1012/L 。,1、 集中趋势度量平均数是一类描述定量数据的平均水平或集中趋势的统计指标。算术均数几何均数中位数众数,定量数据的常用统计指标,案例: “平均工资问题”,某单
3、位10个员工工资情况(人民币元)问题:单位员工平均工资多少?,2、变异(variation),同一总体中不同个体之间的差异称为变异(variation),亦称为数据的离散度。极差四分位数间距方差标准差变异系数,大象与蚂蚁体重问题,一群大象与一群蚂蚁的个体体重差异哪个大?怎样研究和分析?,个体差异的计算,根据百度百科数据:亚洲象一般高约2.3 3.5米,重48吨蚂蚁一般长约0.5 3厘米, 重25 60毫克变异系数 计算: CV象=(8-4)/(1.96*2*(8+4)/2)*100%=17% CV蚁=(60-25)/(1.96*2*(60+25)/2)*100%=21% 自然界和人类社会很普遍
4、规律。,贫富不均问题,经济学问题 是发达国家居民内部收入分配差异大还是贫穷落后国家居民内部收入分配差异大?怎样研究和分析?世界各国普遍采用基尼系数(Gini coefficient)计算。基尼系数是意大利经济学家基尼于1912年提出的,定量测定收入分配差异程度,国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。,基尼指数的计算方法,假定一定数量的人口按收入由低到高顺序排队,分为人数相等的n组,从第1组到第i组人口累计收入占全部人口总收入的比重为wi,则:,基尼指数的意义,基尼指数经济含义是:在全部居民收入中,用于进行不平均分配的那部分收入占总收入的百分比。基尼系数在1和0之间。按照
5、联合国有关组织规定基尼系数:低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。发达国家大约在0.25-0.35左右,非洲国家大致维持在0.5左右。,卫生经济学,公元前3世纪,古希腊思想家亚里士多德曾谈到农民和医生之间在生产和交换中的关系。17世纪,英国经济学家W.配第在献给英明人士(1691)一书中指出:花在工人身上的医疗保健费用会带来经济上的收益。1940年,H.E.西格里斯特发表了医疗经济学绪论一文,认为医疗经济学应该阐明阻碍现代医学应用的各种社会经济条件,分析贫困与疾病给国民经济带来的巨大损失,
6、解决医疗价格与患者的经济负担能力之间的矛盾。 卫生经济学作为一门学科是在20世纪5060年代形成和发展起来的。,不同分布数据的统计描述*,正态分布的定量数据,常用均数与标准差共同描述资料的集中和离散程度。 MeanSD, Mean(SD) 非正态的定量数据,常用中位数与四分位距共同描述资料的集中和离散程度。 Median(Q),定性数据通常是按研究对象的类别性质清点数目,故亦称为计数数据。百分率(发病率、死亡率、治愈率)构成比 ( 疾病构成、性别构成)相对比 ( RR, OR, 同比,环比),定性数据的统计指标,某院妇产科156例子宫脱垂患者产次分布 产次 例数 百分比(%) 0 1 0.64
7、 1 36 23.08 2 30 19.23 3 23 14.74 4 18 11.54 5及以上 28 17.95 不详 20 12.82 合计 156 100,作者在论文中分析结论: 患者多大第一,第二次产后发病, 以第一产后发病者最高. -摘自某中华杂志,案例:某中华杂志中的统计问题,非典中的典型统计错误,2003年北京地区发生非典SARS,有科研人撰文并在网上报道:第一阶段医护人员感染率为33%,并解释说:就是在感染“非典”的100人中,有33人是医护人员。,是否有错误?其后果是什么?,怎样绘制统计表和统计图,引例1:世界各国教育经费数据,中国人均公共教育支出为42美元,美国为2684
8、美元,是中国的64倍。如果考虑到人口的因素,以人均GDP来比较,中国人均公共教育支出仅为人均GDP收入的0.82%,美国为6.10%,是中国的7倍。日本为4.28%,是中国5倍。韩国为3.01%,是中国4倍。巴西为2.29%,是中国3倍。俄罗斯为1.87%,是中国的2倍。 -中国教育报 2009年11月30日,世界各国教育经费数据比较, 国家 教育经费占人均GDP比例(%) 美国 6.10 日本 4.28 俄罗斯 1.87 中国 0.82 世界 4.4*,名人格言,一幅好图胜过千言万语。 -萨尔金德 美国 教育心理学家,教育经费数据,1993年,中共中央、国务院发布中国教育改革和发展纲要提出,
9、国家财政性教育经费支出占GDP比例要达到4%。2012年中央财政教育支出安排3781.32亿元,国家财政性教育经费支出将占国内生产总值(GDP) 4%以上。2012年中国国内生产总值519322亿元。,中国的教育经费问题,引例2:世界各国医疗经费数据,钟南山援引世界卫生组织的数据指出,中国医疗卫生投入占的比值约为4.6。不仅远低于主要发达国家8以上的比例,也低于很多中低收入国家。考虑到中国现阶段的发展国情,医疗卫生经总费占5比较合适。 -国际在线消息 2011年3月美国医疗卫生费用占GDP17%,英国占7%,美国人均7500美元,英国人均3800美元。,中国医疗经费数据,2012年,中央财政医
10、疗卫生支出安排2035.05亿元。其中,将新型农村合作医疗和城镇居民基本医疗保险的财政补助标准增加到每人每年240元。,世界各国医疗经费数据对比,国务院关于促进健康服务业发展的若干意见,(一)大力发展医疗服务。(二)加快发展健康养老服务。(三)积极发展健康保险。(四)全面发展中医药医疗保健服务。(五)支持发展多样化健康服务。(六)培育健康服务业相关支撑产业。(七)健全人力资源保障机制。(八)夯实健康服务业发展基础。 国务院 2013年9月28日,引例3:中国三公消费数据,2012年中国三公消费3.9万亿。3.9万亿相当于13亿中国人每人发3000元的红包;相当全国两亿中小学生免费上学9年;相当
11、于吃掉一万艘航母! -香港凤凰卫视执行台长杨锦麟,2012年教育医疗和三公经费数据比较, 行业 中央财政支出(亿元)教育 3781.32医疗卫生 2035.05三公消费 39000.00,坚决反对“四风”,我们必须看到,面对世情、国情、党情的深刻变化,精神懈怠危险、能力不足危险、脱离群众危险、消极腐败危险更加尖锐地摆在全党面前,党内脱离群众的现象大量存在,集中表现在形式主义、官僚主义、享乐主义和奢靡之风这“四风”上。我们要对作风之弊、行为之垢来一次大排查、大检修、大扫除。-习近平 中共中央总书记、国家主席、中央军委主席在党的群众路线教育实践活动工作会议上讲话。2013年6月18日,统计学定义,
12、统计学是: 统计学是一门关于收集、分析、解释和表达数据的科学 。 -Webster国际大辞典统计学就是个“P”。统计学就是数字计算。统计学就是对数据“统计统计”。,现代统计学的新观念,统计是一个系统搜集数据并基于这些数据做决策的过程. -鲁尼恩行为统计学,统计表和图的作用,人脑对图形的加工记忆力是文字的1000倍。统计表和图描写数据直观明了广泛应用于医学论文,课题总结,交流汇报,论文答辩等工作中。正确的绘制统计表和统计图非常重要。,一、统计表,统计表是用表格的形式表达统计数据。,医学研究实例,某研究者采用对照药,A药和B药治疗急性冠周炎,病例数分别为29例,32例和100例。治疗结果如下:采用
13、对照治愈人数25例,未愈4例,治愈率86%;采用A药治愈人数18例,未愈14例,治愈率56%;采用B药治愈人数70例,未愈30例,治愈率70%。试列表描述。,统计表可以代替冗长的文字叙述,简洁明了,便于理解和比较。,一、三线表,只包括一个分组变量的统计表常只有三条线,统计学称为三线表。三线统计表的结构如下 图所示。,二、列表主要内容,包括五个方面: 标题 概括地指明表的内容,必要时应注明资料产生的时间、地点。标题前应包括表格的编号。标题位于统计表的最上部。,标目,分为纵标目与横标目。横标目又称主辞,列于表的左方,标示相应行的内容; 纵标目又称宾辞,列于表的上方,标示相应列的内容;反映主要研究事
14、物的标目宜安排在表的左侧。使得从左至右可以形成一句完整的叙述语句。 例如, 表中可读成“对照组治愈25例,未 愈4例,治愈率为86%。”, 线条表格的顶部、底部用较粗的横线,纵标目下边用较细的横线,共三条线。表格中不允许使用竖线、斜线。,数值表中的数字一律使用阿拉伯数字。同列数据应取相同的小数位。表内不应空格。零值应用“0”表示。不详的数据可用“”填充。不存在的数据应以“”号标明。,备注一般不列入表内,表中可用“*”等符号标出,注在表下。,复合表,一张表只包括一个中心内容(分组变量)称为简单统计表。在一个统计表中包含两个以上分组变量,称为复合表。如A、B两药物在甲、乙两医院的疗效数据比较,见下
15、表2。,表2 A、B两药物在甲、乙两医院的疗效药 甲医院 乙医院物 有效 无效 合计有效 无效合计 A 401050 42 8 50 B 35 15 50 33 17 50,列表原则,重点突出 简单明了 主谓分明 层次清楚,常见的统计列表问题,某研究者用甲、乙两种培养基培养20份标本,结果在甲培养基培养的13份阳性标本中,乙培养基培养的10份阳性标本;在甲培养基培养的7份阴性标本中,乙培养基培养的2份阳性标本;试列表描述实验结果。课堂练习:P181,表2 甲乙两种培养结果, 分组 + - 合计 甲 13 7 20 乙 12 8 20 * 经统计学检验 P0.05此列表描述实验结果,合理吗?,甲
16、、乙两种培养基培养20份标本结果,乙 + - 合计 甲 + 10 3 13 - 2 5 7 合计 12 8 20,商业用表与统计学用表的区别,注意事项,不同的医学期刊对统计表的要求略有不同,必要时可参考有关期刊的具体要求。如果表中的宾辞很多时,制表时宾辞可与主辞交换位置。,运动与健康研究分析结果,表3 运动与健康研究中基线的特征指标 生存 死亡 (n=20000) (n=600)年龄,岁(SD) 42(10) 52(11)身高,cm(SD) 178(15) 180(19)体重,kg (SD) 24(4) 26(3)收缩压,mmHg(SD) 121(14) 130(19),表4 运动与健康研究中
17、基线的特征 指标 生存 死亡 运动量(%) 低 20.1 41.6 中 42.0 39.1 高 37.9 19.3* 冠心病家族史 25.4 33.8* 吸烟 26.3 36.9* 异常心电图 6.9 26.3* 注:*表示两组比较 P0.05,二、统计图,统计图是运用点的位置、线段的升降、直条的长短或面积的大小等来表示事物某特征的数量大小或变化趋势。通过统计图可以对数据进行概括、对比或做直观的表达。采用统计图描述数据简洁直观,一目了然。研究报告会、论文答辩、论文发表时广泛采用统计图对数据进行统计描述。,例 某医院的职员人数如下表,试用图来说明。 某医院的专业人员人数 专业类别 护理 医疗 管
18、理 人数 300 150 50,制作统计图要求,一是正确二是简洁,CHISS 的图形模块和操作,CHISS可以方便快捷制作各种统计图,如直方图,条形图,圆图,散点图, 线图等。 CHISS提供了二维和三维图,可达到用户需要的理想图示效果。,CHISS统计图的实现,进入CHISS系统后,屏幕上出现的是数据窗口,点击按钮图形。进入图形模块。点击 图形统计图常用统计图 选图增加,常用统计图及CHISS实现,条形图(bar)直方图(histogram)圆图(pie)散点图(scatter)线图(line),(一)条图,条图用等宽直条的长度来表达参与比较的指标大小。指标可以是绝对数、也可以是相对数或平均
19、数。,单式条图表5 世界主要国家、地区SARS发病人数 地 区 发病人数 中国内地 5163 香港 1703 台湾 264 新加坡 205 其它地区 364 合计 7699,复式条图例甲乙校的职称情况如下,试作适当的图形说明。职称甲校 乙校初级7001330中级600 800高级160 360,注意事项,条图的数值轴(常用纵轴)尺度必须从零点起标示,否则可能对指标间的大小关系形成误导。各直条宜按某一个指标的大小排列,便于比较。需要分离的直条之间的间隔要安排适当,以求全图紧凑、协调、美观。,直方图(histogram),直方图主要用于描述连续性定量指标的分布规律。常以横轴表示被观察指标,纵轴表示
20、频数或频率。,例5-4 某市随机抽取正常成年男子120名,其红细胞计数值(10/L)如下表。试制作图描述该批样本红细胞计数的分布。,注意事项绘制直方图也应注意纵轴要从零点起标示。横轴一般以取相等组距为宜。如果需要取不相等的组距,应按公式“矩形高=组段频数(率)/组距”来调整矩形的高度。,圆图,圆图是用同一圆形中扇形的弧度长短表示观察对象全体中各部分所占的比重。,例 某学校在校学生学历情况如下表,试作适当的图形说明医院学历的情况。 表 某学校在校学生学历情况 学历人数 构成比(%) 本科6400 73.68 硕士1770 20.38 博士 516 5.94,某学校在校学生学历构成比,散点图,散点
21、图(scatter graph)在直角坐标系中,用各点的密集程度反映两个变量间的关系。,例 为讨论父子身高间的相关程度,南方某地在应届中学毕业生花名册中随机抽取20名男生, 分别测量他们和他们父亲的身高, 得如下样本资料。试作图分析。,线图,在直角坐标系中,将各散点用连线连接起来就是线图(line graph) 。主要用于反映事物的变化趋势等。,注意事项,在直角坐标系中,线图是用线段的升降表达一事物的数量随另一事物的数量变化的趋势,或某事物的数量随时间变化的过程。普通线图的纵、横坐标均为算术尺度,且不一定从0开始。,回归直线图,回归直线图(regression line graph)是用回归直
22、线反映两个变量间的线性趋势。,误差限图,误差限图(error-bar) 是在用条图或线图表示均数的基础上,在图中附上标准差的范围,以反映数据的散布情况。 误差限图也可用来表示率标准误或均数标准误的范围,以说明率或均数的抽样误差大小。,1 条图加误差,2 线图加误差,统计图的制作,统计图包括四个部分:图形:根据资料的性质与分析目的选择恰当的图形。为美观考虑,统计图的轮廓以高:宽=5:7为宜。标题:用于说明资料的内容、地点、时间。标题要简明扼要,一般位于图的正下方。,坐标轴:纵轴、横轴应有标目,标明尺度并注明单位。横轴的方向应自左至右;纵轴的方向应自下而上。表示量的数轴应标注合适的原点、尺度、单位。图例:用不同线条或颜色表示不同事物时,应附图例说明,图例位于图形与标题之间。,上机练习,P42 例4-6-例4-10,名人格言,生活就像旅行,思想是导游者,没有导游者,一切都会停止,目标会丧失,力量也会化为乌有。 - 歌德 德国(1749-1832),谢谢,