1、流行病学和医学统计学基本知识,健康管理师培训,冯嘉丽,南方医科大学培训中心,健康管理,对个体和群体的健康进行全面监测、分析、评估,提供健康咨询和指导以及对健康危险因素进行干预的全过程。,特 点,管理学健康维护疾病预防临床治疗康复,基本步骤,健康信息、收集资料健康风险评估一般健康状况分析评估、疾病风险预测健康干预、咨询、指导干预效果评估,一、流行病学二、统计学基础,冯嘉丽制作,流 行 病 学,Epidemiology,研究对象,传染病慢性病及所有疾病,人群健康状况、公共卫生问题,定 义,研究人群中疾病与健康状况的分布及其影响因素,并研究防制疾病及促进健康的策略和措施的科学。,基本含义,从群体的角
2、度研究疾病和健康状况从研究各种疾病与健康的分布的现象入手,探讨分布的规律,研究影响分布的因素运用流行病学的理论与方法,研究控制疾病流行,促进群体健康的策略与措施,研究方法,观察法,实验法,数理法,描述流行病学,分析流行病学,横断面调查监测生态学研究,病例对照研究队列研究,实验流行病学,临床试验现场试验社区干预项目,理论流行病学,产生假设,检验假设,验证假设,三、,常用指标,一、相对数指标,比(ratio) :两个变量的数值之商 特点:表示分子和分母间的数量关系;不管分子和分母所来自的总体如何; 分子和分母是两个彼此分离的互相不重叠或 包含的量;分子和分母本身可以是绝对数、比例、比。,2比例(p
3、roportion):表示同一事物局部与总体之间数量上的比值。构成比例:是自身构成的部分与全体的比值。代表随机抽样,抽取到某种成分的概率。发生(频率)比例:在其内发生某变化的部分与全体的比值。反映在一定时间内,发生某种变化者占全体的比例。无量纲,取值范围在0,1。,构成比例,常用来表示疾病或死亡的顺位、位次或所占比重,有100台电视机,连续开放1000小时,有8台坏了,这100台电视机1000小时的损坏比例等于8%。,发生频率比例,3率(rate): 在某一确定人群中某事件发生的频率。 有量纲,可以取任何值,不一定在0,1当观察期间为一个单位时段,变量的变化远远小于变量的值时,率与发生比例在数
4、值上近似相等。,发病指标,发病率(incidence rate),罹患率(attack rate),患病率(prevalence rate),感染率 (infection rate),病残率 (disability rate),(一)发病率,表示在一定期间内,一定人群中某病新病例出现的频率。,K= 100%, 1000/千,或 10000/万,应 用,用作描述疾病分布反映疾病发生比率它的变化意味着病因因素的变化可按病种、年龄、性别、职业等特征 分别统计计算获得发病专率,注意事项,分子:一定期间内的新发病人数。分母:指可能会发生该病的人群。发病率一般根据病例报告来计算,若病例报告制度不健全,病例
5、报告漏报情况严重时或诊断的标准不一致时,其准确性将受到影响。比较不同地区的发病资料时,应考虑年龄或性别结构不同,注意可比性,常用发病的标化率进行比较。,(二)患病率,某特定时间内总人口中某病新旧病例所占的比例。 按观察时间: 期间患病率 时点患病率,K= 100%, 1000/千,或 10000/万 ,若未加任何说明,一般是指时点患病率,当某地某病的发病率和该病的病程在相当长时间内保持稳定时,患病率、发病率和病程三者的关系是: P 患病率 I 发病率 D 病程,表示病程较长的慢性病的发生或流行为医疗设施规划,估计医院床位周转,卫生设施及人力的需要量,医疗质量的评估和医疗费用的投入等提供科学依据
6、。注意:研究发病的病因时,应选用发病率而不选用患病率。,应 用,死亡指标,死亡率 (mortality rate),病死率 (fatality rate),生存率 (survival rate),累积死亡率 (cumulative mortality rate),表示在一定期间内,在一定人群中,死于某病(或死于所有原因)的频率。 测量人群死亡危险最常用的指标。,K= 100%, 1000/千,或 10000/万 ,死亡率,用于衡量某一时期,一个地区人群死亡危险性大小的指标。,注意事项,分母中同年平均人口数可用斜面两种办法代替:该年7月1日人口数年初人口数加年终人口数之和除以2,注意事项,粗死亡
7、率:死于所有原因的死亡率是一种未经过调整的率。比较不同地区或年代的疾病死亡率时,不宜直接用粗死亡率来比较。各地区人口的年龄或性别构成可能不同,使得不同地区或人群间的死亡率可能不具有可比性,常需将死亡率进行标化后才可以比较。,表示一定时期内(通常为年),患某病的全部病人中因该病死亡者的比例。,K= 100%, 1000/千,或 10000/万 ,病死率,应 用,表示某确诊疾病的死亡概率可反映该疾病的严重程度反映医疗水平和诊断能力通常多用于急性传染病,较少用于慢性病,生存率,指接受某种治疗的病人或患某病的人中,经若干年随访(通常为1、3、 5 年)后,尚存活的病人数所占的比例。,应 用,研究疾病对
8、生命的危害程度评价某些病程较长疾病的远期疗效在某些慢性病、传染病,如结核病、癌 症、冠心病等的研究中常应用,累积死亡率,在一定时间内死亡人数占某确定人群中的比例。,注意事项,计算某病的发病率或死亡率时,从理论上讲应以所有可能患某种疾病的人数作为分母才能正确地反映发病或死亡的强度。但在实际计算时有一定困难。分子应有确切的定义或标准并应当坚持始终计算疾病的频率时,通常是以年为时间单位,但也可根据研究者的需要另外规定时间单位,关联强度的流行病学指标,相对危险度特异危险度人群特异危险度人群特异危险度百分比,相对危险度(危险比/率比)RR,意义:暴露组发病或死亡的危险是非暴露组的多少倍RR值越大,暴露的
9、效应越大,暴露与结局关联强度越大,Ie:暴露组率Io:非暴露组率,概念:暴露组发病(或死亡)率与非暴露组发病(或死亡)率的比值。,意 义,RR=1,表示暴露与疾病危险无关联RR1,说明疾病的危险度增加,正相关,暴露越多,疾病越多,可能是致病因素。RR1,说明疾病的危险度减少,负相关,暴露越多,疾病越少,具有保护意义。,特异危险度(归因危险度/率差) AR,意义暴露与非暴露人群比较,所增加的疾病发生数量,表示单独由某因素所致的发病(或死亡)危险 AR值越大,暴露因素消除后所减少的疾病数量越大,或,概念:暴露组发病(或死亡)率与非暴露组发病(或死亡)率之差。,意义:吸烟对于每个受害者,患肺癌的危险
10、性比患心血管病的危险大得多;对于整个人群,吸烟引起心血管的死亡率却比肺癌的高。RR 吸烟对肺癌的病因学意义较大AR 戒烟对心血管疾病的预防作用较大, 即公共卫生意义较大,RR与AR的区别,(1/10万人年),人群归因危险度 PAR,意义暴露人群与一般人群比较,所增加的疾病发生率的大小PAR值越大,暴露因素消除后所减少的疾病数量越大,PAR= ItI0,It:全人群发病率Io:非暴露组发病率,概念:指总人群发病率中归因于暴露的部分。,人群归因危险度百分比PAR%,意义 PAR占总人群全部发病(或死亡)的百分比,或,Pe:总人群的暴露比例,概念:人群中因暴露于某因素所致某病占人群中某病发病的百分比
11、。,流行病学研究方法分类,按设计类型分类,描述流行病学,分析流行病学,横断面调查疾病监测生态学研究筛检,病例对照研究队列研究,实验流行病学,随机化临床实验现场试验社区干预实验,理论流行病学流行病学模型,描述流行病学,收集资料(现有资料、专门目的调查所得资料),计算相应统计指标和疾病率,比较不同时间、地区、人群中的分布情况,探索病因、评价防治措施及其效果,研究特定时点或期间内对特定人群某种疾病或健康状况进行的调查研究。调查人群:社区居民、企业员工、社区卫生服务中心的患者又称横断面研究、患病率研究,第一节、现况研究,现况调查,描述疾病的患病率或健康状况的分布提供疾病致病因素的线索确定高危人群对疾病
12、监测、预防接种效果及其他资料的质量评价,第二节现况调查,目 的,方法及种类,面访信访电话访问自填式问卷调查:个人基本情况、个人与家族病史、行为及生活方式体格检查和实验室检查敏感问题的调查方法,常用抽样调查,结果有较强推广意义有来自同一群体的自然形成的同期对照组,结果具有可比性可同时观察多种因素,第二节现况调查,优 点,难以确定先因后果的时相关系不能获得发病率资料研究对象可能处于临床前期而被误定为正常人,第二节现况调查,缺 点,研究实例,P234,练习,某社区卫生服务中心想了解社区居民慢性病患病及相关因素的现状,为制定社区慢性病管理及慢性病健康教育措施提供依据。,方式:抽样调查步骤:确定研究对象
13、,估计样本量,调查方法:问卷包括:人口学特征、慢性病患病的情况、慢性病相关危险因素情况以及慢性病相关知识分析指标:患病率(病种、性别、年龄组);暴露率(各危险因素、性别、年龄组、暴露率与患病的关系);知晓率(相关知识、性别、年龄组),分析流行病学,描述性研究,分析疾病和健康状态与可能的致病因素之间的关系,筛选致病因素,形成和检验病因假说,队列研究,对一定范围内未患有的人群按是否暴露于某因素(或具备某种特征)进行分组,随访一定的时间,比较两组的发病率或死亡率,以研究某因素或某特征是否与某疾病发生或死亡存在着关系。,目标人群 未患某研究 疾病,代表性样本,No,Yes,No,暴露组,非暴露组,时间
14、顺序,是否暴露某个危险因子,结局(疾病),队列研究的结构模式图,Yes,时间顺序,过去,现在,将来,历史性队列,双向性队列,前瞻性队列,回顾性收集已有的历史资料,回顾性收集已有的历史资料,继续前瞻性收集资料,前瞻性收集资料,队列研究类型示意图,观察法 设立对照 由因到果,符合时间顺序 确证暴露和结局因果关系追踪两组间的发病或死亡率差异,特 点,队列研究,优点:从原因(病因)到结果(疾病)可直接进行因果推断可进行一因多果研究缺点:所需人数较多,时间较长,易产生失访偏倚,研究实例,P236,探讨超重/肥胖与糖尿病的关系,确定暴露因素超重:24体重指数28肥胖:体重指数28,结局随访观察中将出现的预
15、期结果事件,即研究者希望追踪观察的时间糖尿病,确定研究现场一个或多个社区代表性:研究人群能够反映目标人群的情况可行性:人力、物力的耗费,研究现场的工作基础,研究对象的依从性,确定研究人群超重组、肥胖组对照组(体重正常组)要求:三组人群 ?糖尿病除了体重外,其他各种影响因素或人群特征都应尽可能地相同,即具有可比性,估算样本量资料收集与随访:随访的方法、内容、时间间隔、观察终点及随访者基线资料和随访资料:问卷调查、体格检查和实验室检查随访周期:每年1次,分析指标超重组、肥胖组和对照组的可比性及资料的可靠性分析计算两组的糖尿病的发病率、病死率和年发病率等指标计算超重或肥胖与糖尿病的关联强度,评估研究
16、过程中可能存在的各种偏倚失访偏倚信息偏倚混杂偏倚,病例对照研究,在疾病发生之后,以现在患有该病的病人为一组(病例组),以未有该病但其它条件如性别、年龄与病人相同的人为另一组(对照组),通过询问,化验比较或复查病史,按其既往各种可疑致病因素或验证病因假说。,图1 病例对照研究原理示意图,调查方向:收集回顾性资料,比较 人数 暴露 疾病,病例,对照,+,+,a,c,b,d,特 点,观察性研究 设立对照 由果推因 不能证实暴露与疾病的因果关系 只能推测判断暴露与疾病是否有关联,病例对照研究,优点:回顾性,需要人力、物力较小所需样本量不大,资料易于收集缺点:易于产生偏倚,研究实例,P237,将来自同一
17、总体的研究人群随机分为实验组和对照组,研究者对实验组人群施加某种干预措施后,随访并比较两组人群的发病(死亡)情况或健康状况有无差别及差别大小,从而判断干预措施效果的一种前瞻性、实验性研究方法。,实验性研究,实验流行病学,特点:前瞻性必须施加一种或多种干预处理研究对象来自同一个总体的抽样人群分组按照随机分配原则必须有平行的实验组和对照组,两者具有可比性,分 类,按研究场所划分现场试验临床试验按设计类型划分个体试验社区试验,临床试验研究的结构示意图,临床试验(clinical trial),研究对象(病人),实验组(干预组),无效,无效,有效,对照组,有效,现场试验研究的结构示意图,研究对象(未患
18、病者),实验组(干预组),无效,无效,有效,对照组,有效,个体试验,基本单位:个人管理对象:未患病人群、高危人群、患病人群,某社区卫生服务中心想了解非药物的生活方式干预在糖尿病防治中的效果,确定研究对象糖尿病患者估计样本量随机分组干预组:综合干预组(常规治疗+健康教育+个体针对性指导)发放糖尿病健康知识材料、糖尿病专题讲座、组织患者交流讨论饮食、运动、用药指导、自我监测指导对照组:常规治疗组,确定干预时间随访收集资料资料分析:两组基线资料的均衡性分析干预的有效性分析:两组各自干预前后的对比分析干预组的效果?对照组的效果两组变化情况的对比分析,社区干预试验,对象:社区尽可能相似的两个社区某学校的
19、班级或某个年龄组的人群基线调查随机选择干预组和对照组干预结束后对两个社区进行随访调查干预效果:比较两个社区的疾病和危险因素的暴露水平的差异,诊断试验,筛检试验与诊断试验的区别,指 标,客观指标:如体温计测定的体温主观指标:如疼痛半客观指标:根据诊断者的主观感知判断 (如肿物的硬度、大小),受试者工作特性曲线(receiver operator characteristic curve, ROC),是用真阳性率和假阳性率作图得出的曲线,它可表示灵敏度和特异度之间的关系,糖尿病血糖试验的ROC曲线(李立明 2002),ROC曲线常用来决定最佳临界点,通常最接近左上角那一点,可定为最佳临界点,ROC
20、曲线也可用来比较两种和两种以上诊断试验的诊断价值,从而帮助临床医师作出最佳选择。,评价指标,(一)真实性(validity) 测量值与实际值相符合的程度,亦称效度。包括灵敏度与假阴性率特异度与假阳性率似然比正确诊断指数,(二)可靠性(reliability),又称信度,指某一筛检方法在相同条件下重复测量同一受试者时,所获结果的一致性。 变异系数 符合率 诊断试验的一致性分析,(三)收益,阳性预测值(positive predictive value):是指试验阳性者患目标疾病的可能性阴性预测值(negative predictive value): 是指试验阴性者不患目标疾病的可能性,提高诊断
21、质量的方法:,选择患病率高的人群采用联合试 串联:全部筛检试验结果均为阳性者才定为阳性。该法可以提高特异度。 并联:只要有任何一项筛检试验结果为阳性就可定为阳性。该法可以提高灵敏度。,医学统计学,定 义,运用数理统计的基本原理和方法对预防医学和公共卫生领域中的科学研究进行设计,以及研究资料的收集、整理和分析的一门应用科学。,统计设计,调查设计实验设计,A、实验设计:研究对象接受了某种干预(或处理)后获得的数据例:某研究者为了解螺旋藻的保健功能对患有糖尿病的小鼠作降血糖实验,按初始血糖浓度将20只小鼠随机分为两组,一组为空白对照,另一组给螺旋藻,然后观察血糖是否有变化。,B、调查设计:为了对某个
22、特定人群的现状作调查而进行的研究设计例:2005年某地区小学生营养膳食调查,统计分析,统计描述,统计指标,统计图表,统计分布,平均数指标,变异指标,相对数指标,统计表,统计图,正态分布,t 分布,F 分布,2分布,统计分析,统计推断,参数估计,点估计,区间估计,假设检验:比较它们的样本均数或样本率,2,统计资料的类型 常指单个反应变量的数据类型。 计量资料 计数资料 等级资料 计量、计数和等级资料间可相互转化。,why,计数资料是先将观察单位按某种属性或类别分成若干组,再清点各组观察单位个数所得到的资料。 如:检验结果-用阳性或阴性反应表示,又如 型,按A、B、AB、O四型分型。,计数资料每个
23、观察单位之间没有量的差别,但各组之间具有质的不同,不同性质的观察单位不能归入一组。对这类资料通常是先计算百分比或率等相对数,需要时做百分比或率之间的比较,也可做两事物之间相关的相关分析。,计量资料是用仪器、工具或其它定量方法对每个观察单位的某项标志进行测量,并把测量结果用数值大小表示出来的资料,一般带有度量衡或其它单位。如检查一批应征青年体重,需要磅秤测量,通常以公斤为单位,测得许多大小不一的体重值。其它如身长(cm)、血压mmHg)、脉搏(次分)、红细胞(万/mm3)转氨酶(单位)等,都属于计量资料。,每个观察单位的观测值之间有量的区别,但同一批观察单位必须是同质的。对这类资料通常先计算平均
24、数与标准差等指标,需要时做各均数之间的比较或各变量之间的分析。,等级资料或半定量资料还有一些资料,也是将观察单位按某种属性或某个标志分组,然后清点各组观察单位个数得来的,但所分各组之间具有等级顺序。这些资料既具有计数资料的特点,又兼有半定量的性质,称为等级资料或半定量资料。,例如对一批急性病毒性肝炎患者作麝香草酚絮状试验,将试验结果按-、+、+、+、+分组,显然各组之间既有等级顺序,又有程序与量的差别。又如某病住院病人的治疗结果,按治愈、好转、无效、死亡分组,同样各组之间具有顺序与程度之别。分析等级资料常用的统计指标有比和率,常用的统计方法有秩和检验、参照单位分析等。,统计工作的步骤 设计(d
25、esign) 收集资料(collection of data) 整理资料(Sorting data) 分析资料(analysis of data),1. 设计(design) 资料收集、整理、分析全过程的设想和安排。(制定周密的研究计划) 选题:目的、意义、假说; 确定观察对象和观察单位:普查、抽样调查; 收集资料指标和方法:报表、专项调查; 分析指标和方法; 质控:误差、偏倚控制; 经费预算; 组织; 预期成果;,2. 收集资料 ( collection of data ) 统计报表; 资料来源 经常性工作记录; 专题调查或实验。 完整、准确和及时 资料要求 有足够数量,即 n 够大 代表性
26、及可比性,3. 整理资料 ( Sorting data ) 资料核查、录入、分组、汇总。4. 分析资料 ( analysis of data ) 计算相关指标,阐明事物的内在联系和规律。 统计描述 ( descriptive statistics ) 统计推断 ( inferential statistics ),医学统计学的重要概念总体 (population) 根据研究目的确定的同质观察单位的全体。 (同质的所有观察单位某种变量值的集合) 例:调查某地2004年20岁健康男大学生的身高 了解某市某年三级甲等医院的病床数,样本与随机抽样(1)样本 (sample) 从总体中随机抽取有代表性的
27、一部分个体,其测量值(观察值)的集合。(2)随机抽样(random sampling) 总体中每个体都有均等机会被抽取,抽到谁具有一定的偶然性。包括:单纯随机抽样、整群抽样、系统抽样、分层抽样等例:要了解某地2004年所有20岁健康男大学生的 身高。,我们从总体中抽取一部分观察单位加以实际观察或调查研究,根据对这一部分观察单位的观察研究结果,再去推论和估计总体情况。观察样本的目的在于推论总体,这就是样本与总体的辩证关系。为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量。,变量与变量值 (
28、1)变量(variable ):观察单位(或个体) 的某种属性或标志。(2)变量值(value of variable):对变量进 行测量或观察的值。即测量值或观察值。例1:调查某市某年三级甲等医院的病床数例2:调查某地成年人的高血压患病情况(年龄、 性别、职业、文化程度、体重、血压等),同质与变异(1)同质(homogeneity) :研究对象具有相同的背景、条件、属性。 (2)变异(variation):同一性质的事物,其个体观察值(变量值)之间的差异。 生物因素及其他综合因素、偶然性个体差异同质单位的各个体指标的差异例1:调查某地2004年所有20岁健康男大学生的 身高例2:研究某种新药
29、治疗胃溃疡的效果,参数与统计量(1) 参数(parameter):总体指标。 凡是来自总体的指标均称之。(2) 统计量:样本指标。 从总体中随机抽取的样本所算得的指标值。例:某地2002年全部正常成年男子的平均红细胞数,从该总体中随机抽取的144名正常成年男子的平均红细胞数,误差(error):测量值与真值,样本指标与总体指标之差。,系统误差,随机误差,随机测量误差,抽样误差,(1) 系统误差(systematic error) 由于测量系统失准所导致的误差。a.操作方法不正确或对调查问卷理解有误b.医生掌握疗效标准偏高或偏低c.周围环境的改变:室温、作用时间等d.仪器不准或试剂不合格例:测血
30、压特点:有倾向性。 通过校正、培训等可避免,但不 能用统计方法解决。,(2) 随机测量误差 (random error) 偶然机遇所致,无方向性。 无法避免,只要将误差控制在允许范围内,数据仍可用。,(3) 抽样误差(sampling error) 在抽样研究中,即使消除了系统误差,控制了随机测量误差,样本统计指标和总体参数间仍会存在差别。 由抽样引起,是个体变异造成,无倾向性。 无法避免,但有规律可循,用统计方法估计或增大样本使其减少。,例:假定已知某年某地所有13岁女大学生身高的总体均数是155.4cm,总体标准差是5.3cm。在此有限总体中多次重复抽样,每次均抽取100例组成一个样本,可
31、算出每一个样本的平均身高。得到的样本均数可能是153.6、153.1、154.9,158.7等。,概率与频率(1) 概率(probability) 某随机事件发生的可能性大小的数值。随机事件的概率在0与1之间,即P1。P越接近1,表明事件发生可能性越大,P越接近0,表明事件发生可能性越小。P 0.05或P 0.01称为小概率事件,表示在一次实验或观察中某事件发生的可能性很小,可以视为很可能不发生。,(2) 频率(frequency) 一次试验结果计算得到的样本率。例:某药治疗200个病人,其治愈率为80%; 经过多次试验和许多人的治疗,其治愈率稳 定在80%。,统计描述,连续型定量变量的频数分
32、布表 1. 求全距 ( 极差,range) R = 最大值最小值 2. 定组数、组距、组段 i = R / k k为组段数(815组) 3. 列表归纳 第一组下限含最小值(略小于最小值), 末组上限含最大值(略大于最大值), 组中值=(相邻两组下限之和)/ 2, 列出各组频数, 计算各组频率、累积频数、累积频率。,举例 1. 计量资料的频数分布表 例1 某市1995年对110名7岁男孩测量身高(cm)资料。 R = 134.5 - 110.2 = 24.3(cm) i = 24.3 / 10 2(cm) 注意:分组可等距或不等距。,表1 110名7岁男孩身高频数组段 组中值 频数 频率 累积频
33、数 累积频率 X f f % f ( f ) %110 111 1 0.91 1 0.91112 113 3 2.73 4 3.64114 115 9 8.18 13 11.82116 117 9 8.18 22 20.00118 119 15 13.64 37 33.64120 121 18 16.36 55 50.00122 123 21 19.09 76 69.09124 125 14 12.73 90 81.82126 127 10 9.09 100 90.91128 129 4 3.64 104 94.55130 131 3 2.73 107 97.27132 133 2 1.82
34、109 99.09134-136 135 1 0.91 110 100.00合计 110 100.00 ,直方图 (histogram) (本图为近似对称分布) 111 113 115 117 119 121 123 125 127 129 131 133 135 身高(cm) 图1 某市110名7岁男骇身高的频数分布,0,5,10,15,20,人,数,定量变量的特征数 集中趋势(central tendency) 离散趋势(tendency of dispersion)(一) 描述集中趋势的统计指标 算术均数(均数) 常用 (样本) 、 (总体) 指标 几何均数G 中位数M,常用指标 1.
35、均数 ( mean) 算术均数 (arithmetic mean) 条件:观察值呈正态分布或近似正态分布 (对称或近似对称分布)的资料 公式:直接法 加权法 x0为组中值 特性:,2. 几何均数 G (geometric mean) 条件:观察值呈倍数(等比级数) 或对数正态分布的资料。 公式:直接法 加权法 注意: 观察值不能有0; 数据不能同时有正值与负值。 同一资料的G ,3. 中位数 M (median) 概念:一组观察值按大小顺序排列,位次居 中的数值。 条件:任何分布资料。常用于偏态分布、未 知分布、一端或两端无界分布的资料。 公式: 直接法 (n为奇数) (n为偶数),离散趋势
36、概念:描述一组观察值的离散程度。 极差 R 四分位间距 Q (QR) 方差 S2 标准差 S (最常用) 变异系数 CV,常用指标,1. 极差 R (全距, range) R = xmax xmin 缺点:不稳定(易受极大值、极小值影响;即 使不变,R的抽样误差也较大。) 浪费信息大(只考虑两端点值,与 n 无关) 适用: 任何分布资料(末端无确切值数据除外) 2. 四分位数间距Q (inter-quartile range) Q = Q U Q L = P75 P25 = 中间一半观察值的极差 特点:较全距稳定;浪费信息较全距少。 适用:偏态分布;未知分布;末端无界资料。,3. 方差 (va
37、riance) 均方差(mean square deviation) 总体方差 样本方差 直接法: 加权法:,4. 标准差 (standard deviation, SD) 总体标准差 样本标准差 条件:资料呈正态分布或对称分布。 特点:单位与均数同; S 0; 常用 描述计量资料。,5. 变异系数 CV (coefficient of variation) 离散系数 (coefficient of dispersion) 特点:CV为无量纲 应用:量纲不同的多组变异度的比较; 均数相差悬殊的多组变异度的比较。 方差、标准差、变异系数均能综合反映全部观察值的变异程度。,6. 频数表百分位数法
38、M = P50 找中位数所在组段,即累积频率刚大于50%的组按下式计算中位数 式中: x 表示第几百分位数; lx 表示该组段的下限; i 表示该组段的组距; fx 表示该组段的频数; fL 表示该组段对上一组段的累积频数; n 表示样本例数。 用上式可计算任意百分位数。,分类资料统计描述,绝对数 调查或实验搜集来的原始资料,经过汇总之后得到的小计或总计数值称为绝对数(即总量指标)。如发病人次数、医院收容人数、治愈人数等。总量指标反映一定条件下某种事物的规模或水平,是计划或总结工作的依据,同时,又是计算相对数与平均数的基础,但是绝对数往往不便于比较,因此在实际工作中还必须计算相对数与平均数。,