1、1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample) 。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。2.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中) ,从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。3.变异:在自然状态下,个体间
2、测量结果的差异称为变异(variation) 。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。4.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data) 。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm) 、体重(kg)、红细胞计数(1012/L)、脉搏(次/分) 、血压(KPa)等计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data) 。计数资料
3、亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的 A、B、AB、O 四种血型的人数等。等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data) 。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、+、+等。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。等级资料与计量
4、资料不同:每个观察单位未确切定量,故亦称为半计量资料。5概率:概率(probability)又称几率,是度量某一随机事件 A 发生可能性大小的一个数值,记为 P(A) ,P(A)越大,说明 A 事件发生的可能性越大。0P(A)1。频率:在相同的条件下,独立重复做 n 次试验,事件 A 出现了 m 次,则比值 m/n 称为随机事件 A 在 n 次试验中出现的频率(freqency)。当试验重复很多次时 P(A)= m/n。2.概率是描述随机事件发生可能性大小的数值,常用 P 表示。随机事件概率的大小在 0 与 1 之间,P 越接近 1,表示某事件发生的可能性越大;P 越接近 0,表示某事件发生的
5、可能性越小。习惯上将 P0.05 的事件,称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为不发生。6. 随机误差:随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。7系统误差:系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准
6、偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。8随机变量:随机变量(random variable)是指取指不能事先确定的观察结果。随机量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。9参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。10统计量:统计量(statistic)是指
7、样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。11.频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数) 。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡 0,1,2个病人的天数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。12.算术均数(arithmetic mean)描述一组数据在数量上的平均水平。总体均数用 表示,样本均数用X 表示。13.几何均数(geometric mean)用以描述对数
8、正态分布或数据呈倍数变化资料的水平。记为 G。14.中位数(median)Md 将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。15.极差(range)亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。16.百分位数(percentile)是将 n 个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。17.四分位数间距(inter-quartile range)是由第 3 四分位数和第 1 四分位数相减计算而得,常与中位数一起使用,描
9、述偏态分布资料的分布特征,较极差稳定。18.方差(variance):方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。19.标准差(standard deviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。20.变异系数(coefficient of variation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用 CV 表示。计算:标准差/均数*100% 21.统计推断:通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断(statistical inference) 。22
10、.抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差(sampling error) 。23.标准误及 X s :通常将样本统计量的标准差称为标准误。许多样本均数的标准差 X s 称为均数的标准误(standard error of mean,SEM ) ,它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。24.可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI) 。它的确切含义是:可信区间包含总体参数的可能性是 1- ,而不是总体参数落在该范围
11、的可能性为 1- 。25.参数估计:指用样本指标值(统计量)估计总体指标值(参数) 。参数估计有两种方法:点估计和区间估计。26.假设检验中 P 的含义:指从 H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。27.I 型和 II 型错误:I 型错误( type I error ) ,指拒绝了实际上成立的 H0,这类“弃真”的错误称为 I 型错误,其概率大小用 表示;II 型错误(type II error) ,指接受了实际上不成立的 H0,这类“存伪”的误称为 II 型错误,其概率大小用 表示。28.检验效能:1- 称为检验效能(power of test)
12、 ,它是指当两总体确有差别,按规定的检验水准 a 所能发现该差异的能力。29.检验水准:是预先规定的,当假设检验结果拒绝 H0,接受 H1,下“有差别”的结论时犯错误的概率称为检验水准(level of a test) ,记为 。 30.率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:发生某现象的观察单位数/可能发生某现象的观察单位总数*100%,表示方式有:百分率(%) 、千分率()等。31.构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布。计算公式为:某一组成部分的观察单位数/同一事物各组成部分的观察单位总数*100%,表
13、示方式有:百分数等。32.比(ratio)又称相对比,是 A、B 两个有关指标之比,说明 A 是 B 的若干倍或百分之几。计算公式为:A/B ,表示方式有:倍数或分数等。 33.非参数统计:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics) ,或称为不拘分布(distribution-free statistics)的统计分析方法,又称为无分布型式假定(assump
14、tion free statistics)的统计分析方法。34.参数统计:通常要求样本来自总体分布型是已知的(如正态分布) ,在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计(parametric statistics)35.秩次:变量值按照从小到大顺序所编的秩序号称为秩次(rank) 。36.秩和:各组秩次的合计称为秩和(rank sum) ,是非参数检验的基本统计量。37.直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(s
15、imple regression) 。38.回归系数(regression coefficient )即直线的斜率(slope),在直线回归方程中用 b 表示,b 的统计意义为 X 每增(减)一个单位时,Y 平均改变 b 个单位。39.相关系数 r:用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。 卫生统计学中的概念资料的类型、总体和样本、参数和统计量、概率和频率。(一)资料的类型1.定量资料亦称计量资料,其变量值是定量的,表现为数值大小,一般有度量衡单位,如调查某年某地7岁女童的生长发育状况,以人为观察单位,女童的身高(cm) 、体重(kg) 、血红蛋白(gL)等均属定量
16、资料。2.定性资料亦称分类资料,其观察值是定性的,表现为互不相容的类别或属性,分为两种情况:(1)无序分类资料:包括:二项分类。如调查吸毒者的 HIV 感染情况,结果分为阳性与阴性两类,表现为互不相容的两类属性。多项分类。如人类的 AB0血型,以人为观察单位,结果分为 A 型、B 型、AB 型与 O 型,表现为互不相容的多个类别。(2)有序分类资料:各类之间有程度的差别,给人以“半定量”的概念,亦称等级资料。如测定某人群某血清学反应,以人为观察单位,结果可分“” 、 “”、 “+”、 “+”4级;又如观察某药治疗十二指肠溃疡的疗效,以每个患者为观察单位,治疗效果分为痊愈、显效、好转、无效4级。
17、(二)总体和样本总体就是所有同质观察单位某种观察值(即变量值)的集合。样本是总体中随机抽取部分观察单位的观测值的集合。(三)参数和统计量总体的数值特征称为参数,用希腊字母表示。根据样本算得的某些数值特征称为统计量,用英文字母表示。在抽样研究中,由个体变异产生,随机抽样引起的样本统计量与总体参数之间的差别称为抽样误差。(四)概率和频率概率是描述随机事件发生可能性大小的数值,常用 P 表示。随机事件概率的大小在0与1之间,P 越接近1,表示某事件发生的可能性越大;P 越接近0,表示某事件发生的可能性越小。习惯上将 P0.05的事件,称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为不发生。在现实中,随机事件的概率往往是未知的,因此,当观测单位足够多时,常用样本中事件的实际发生率来估计总体概率,这种实际发生率称为频率。设在相同条件下,独立重复进行 n 次试验,事件 A 出现 t次,则事件 A 出现的频率为 tn.如治疗200例患者,120名患者治愈,治愈率为60,这就是一个频率。当观测单位较少时,用频率估计概率是不可靠的。