1、Excel在描述性流行病学中的应用,内容提要,描述性流行病学的内容及常用指标利用Excel进行描述性分析数据管理函数应用统计分析,描述性流行病学的内容,描述性流行病学利用已有的资料或专门调查的资料,按不同地区、不同时间及不同人群特征分组,把疾病或健康状况的分布情况真实地描绘出来。,如何进行描述性分析,描述性分析的目的:三间分布表格绝对数相对数发病率死亡率图折线图条形图饼图,利用excel进行描述性分析,数据排序数据筛选分类汇总数据透视常用的图形简介,数据排序,排序方法:选定数据区域中的任意单元格打开“数据”菜单选择“排序”命令项在“排序”对话框中设定“关键字”和“升序/降序”项单击“确定”。若
2、排序时,Excel提示“此操作要求合并单元格都具有相同大小”,说明数据区域中存在合并单元格,且合并单元格大小各不相同。,数据筛选,选中数据表中任意一个单元格,执行“数据筛选”命令,此时,每一项列标题右侧均出现一个下拉按钮,筛选出发病数大于或等于50的地区单击“发病数”右侧的下拉按钮,在随后弹出的快捷菜单中选“数字筛选”选项单击相应按钮,在随后出现的对话框中,选“大于或等于”选项,然后在右上数据框中输入数值“50”,点击“确定”,分类汇总,快速地以某一字段为分类项,对数据列表中其他字段的数据进行各种统计计算。以手足口病报告卡为例,计算每个地区的报卡数。(.xls .csv)记录限制:Excel2
3、003版本支持65536行记录;Excel2007及以上版本支持1048576行记录;,点击菜单“数据”-“分类汇总”,单击二级数据按钮,点开加号 后,显示每条记录的详细情况如何将汇总结果复制进新的工作表?,拖动光标,选中待复制区域按键调出定位对话框,单击“定位条件”按钮在“定位条件”对话框中,选择“可见单元格”,单击“确定”按钮-,数据透视,将一维表整理成二维表了解手足口病在不同地区的性别分布情况,点击菜单命令“插入数据透视表”,弹出“创建数据透视表”对话框,采用默认的数据区域,并将数据透视表放置于“新工作表”中(默认设置)。,自动生成一个空的数据透视表。,从“数据透视表字段列表”中,把“报
4、告地区”拖到 “行标签”位置;把“性别”拖到 “列标签”位置;把“疾病病种”拖到 “数值”位置。,数据透视在excel2003中的操作,将一维表整理成二维表了解手足口病在不同地区的性别分布情况,点击菜单命令“数据数据透视表和数据透视图”,打开“数据透视表和数据透视图向导”对话框,选择“Microsoft Excel数据列表或数据库”及下面的“数据透视表”单选项。,在“选定区域”输入全部数据所在的单元格区域,或者点击输入框右侧的“压缩对话”按钮,在工作表中用鼠标选定数据区域。,在对话框中选定“新建工作表”单选项,以便将创建的数据透视表放到一个新的工作表中,再点击“完成”按钮,这样就可以建立一个空
5、的数据透视表。,从“数据透视表字段列表”中,把“报告地区”拖到数据透视表左侧“将行字段拖至此处”位置;把“性别”拖到数据透视表上侧“将列字段拖至此处”位置;把“疾病病种”拖到数据透视表主体“请将数据项拖至此处”位置。,函数应用,时间函数逻辑函数数学函数文本函数,函数公式结构,函数公式以“=”开始“=”后接函数名称、左括号、以半角逗号分隔的参数和右括号,时间函数,年龄的计算=int(现在日期-出生日期)/365.25)=datedif(出生日期,现在日期,”日期格式”)datedif函数 =datedif(f2,g2,”y”)返回相应值函数:返回指定日期时间的某项特定值,如单独返回日期中的月份等
6、:year函数、month函数、day函数、hour函数,逻辑函数,交集、并集:进行逻辑判断的基本运算函数,分别代表了逻辑运算中的与、或运算:and函数、or函数 (一般与其它函数联合使用)=and(logical_test1,logical_test2,)=or(logical_test1,logical_test2,)选择性返回函数( IF函数):执行真假值判断,根据逻辑计算的真假值,返回不同结果,可以使用其进行对数值和公式进行条件检测=if(logical_test,value_if_ture,value_if_false)=if(A15岁的男性儿童1.计算年龄2.利用if和and函数标
7、记:建立新变量“标记结果”,将“年龄5岁的男性儿童”标记为1,其它病例标记为03.筛选出“标记结果”=1的记录,计算年龄(建议使用datedif函数)=INT(G2-F2)/365.25)标记结果=IF(AND(H22,C2=男),1,0)注意:文本字段需以双引号引用,所有符号均在英文半角状态下键入,数学函数,运算符:+ - * / 比较算符:=减负运算:-(将文本型数值转为数值型),文本函数,截取字符串:=left(text,num_chars)=right(text,num_chars)=mid(text,start_num, num_chars)地区编码和身份证号码的解读,疾病控制信息系
8、统地区编码规则:32012501省代码+市代码+区县代码+乡镇代码例:筛选出江苏南京(地区编码前四位为3201)的手足口病例=if(left(地区编码,4)=”3201”,1,0),身份证号码解读,以18位身份证号为例:320112198001036512省份代码+地市代码+区县代码+出生年月日+随机编码(倒数第二位表示性别)提取出生日期1.=mid(A1,7,8) 得到文本型数值198001032.利用text函数将文本型数值19800103转换为日期型 =text(A2,”#-00-00”)如何提取性别信息?(利用mid、mod、if),连接函数concatenate=concatenat
9、e(text1,text2,text3),文本函数,疫情分析常用图表,疫情分析常用图表,Thank You!,利用excel进行简单的统计分析(自学),统计分析中的资料类型,统计分析中的三类资料定量资料(计量资料):各观察单位间只有量的差别;数据间有连续性定性资料(计数资料):各观察单位间或者相同,或者存在质的差别;有质的差别者之间无连续性等级资料:各等级间只有顺序,而无数值大小,故等级之间不可度量,统计分析,定量资料(计量资料)统计描述t检验(t-test)方差分析(ANOVA)等级资料秩和检验(无法通过现有模块实现)定性资料(计数资料)列联表的整理(透视表)卡方检验(无法通过现有模块实现)
10、线性相关与一元线性回归,统计描述,中位数=MEDIAN(A1:A101)均数=AVERAGE(A2:A101)标准差=STDEV(A2:A101)方差=VAR(A1:A101)最大值=MAX(A6:A105)最小值=MIN(A2:A101)百分位数 =PERCENTILE(A2:A101,0.25)可信区间,t-test,配对设计t检验成组设计t检验方差不齐时的成组t检验,成组设计,又称完全随机设计特点:对于同一条记录,组间相互独立例:分别测得14例老年人煤饼病人及11例正常人的尿中17 酮类固醇排出量(mg/dl)如下,试比较两组的均数有无差别 病人:2.905.415.484.604.03
11、5.104.974.244.362.722.37 2.097.105.92健康人:5.188.793.146.463.726.645.604.577.714.994.01,成组设计t检验应用前提,独立性(组间数据相互独立)正态性(指标服从正态分布)方差齐性(组间方差齐),两样本的方差齐性检验,工具-统计分析-F 检验 双样本方差通过对两样本的F-检验,对两个总体方差进行比较。,Levene方差齐性检验P值,该值大于0.1说明两组方差齐,成组t检验,双侧检验与单侧检验:取决于研究目的!,配对设计,特点:对于同一条记录,组间相关例:10例矽肺患者经某药治疗,其血红蛋白(g/dl)如下:,配对t检验,单因素方差分析,应用范围:完全随机设计、数值变量资料、独立性、正态性、方差齐性例:三组小鼠的FDP酶活力,分析方法的选择,线性相关与线性回归,例:测得某地10名3岁儿童体重和体表面积如下,试对该资料进行分析。分析策略:定性分析(相关):确定儿童体重与体表面积是否相关定量分析(回归):确定两者间的数量关系,线性相关,相关系数,其绝对值越接近于1,说明两者之间相关性越强!,线性回归,若“标志”项勾选,选择区域时,注意将变量名选择进去!,R Square:决定系数,越接近于1,说明采用相关分析的意义越大。y = 0.2385x + 2.5212散点图+趋势线演示,Thank You!,