1、 统计学原理与工业统计 课程讲稿授课题目(教学章、节或主题):第 8 章 抽样调查 授课方式(请打) 理论课 讨论课 实验课 习题课 其他课时安排 6教学要求(分掌握、熟悉、了解三个层次):抽样调查的意义;抽样误差的概念、抽样平均误差。区间估计及抽样调查的组织方式。教学重点、难点及关键知识点:抽样调查的意义和作用。方法及手段:理论结合实际。教学基本内容(教学过程) 改进设想第八章 抽样调查第一节 抽样调查的意义和作用一、抽样调查的意义1、含义:抽样调查是按照随机原则从总体中抽取一部分单位进行观察,并据此对总体做出数量上的推断。例如,对一批产品进行质量检查时,从全部产品中随机抽取部分产品进行检测
2、,计算其合格率并推算出全部产品的合格率。测全部播种面积的产量,抽取一部分调查其产量,推断全部播种面积的产量。2、特点:(1)遵循随机原则。抽样调查是按照随机原则抽取样本单位的,这是它与重点调查、典型调查的主要区别之一。所谓随机原则就是总体中各样本单位的抽选不受主观因素的影响,每个单位被抽中的机会是均等的。只有遵循随机原则,才能使所选的样本结构能与总体结构相同,或者说使样本的分布与总体的分布相一致,样本的代表性才会越大,对总体的估计推断才能更准确。(2)由部分单位的指标数值推算总体的指标数值。抽样调查的目的在于用样本的实际资料对总体的数量特征做出估计推断,这也是它与普查、典型调查和重点调查的显著
3、区别。例如,普查可以认识总体的特征,但它是全面调查应用范围受到一定的限制。并非所有经济现象都可以进行全面调查,如要了解城乡居民的收入情况,很难挨家挨户进行全面调查。作为非全面调查的典型调查和重点调查不能对总体的数量特征做出估计和推断。只有抽样调查既是一种非全面调查,又能对总体的数量特征做出估计推断。统计学原理与工业统计 课程讲稿(3)抽样调查的误差可以事先计算并加以控制。抽样调查是建立在大数定律和中心极限定理的基础上的,在以样本指标对相应的总体指标进行估计推断时,存在着一定的误差。但是,这种误差范围可以事先根据有关资料加以计算,可以采取必要的组织措施来控制误差的范围,保证抽样调查的结果达到一定
4、的可靠程度。3、说明(1)抽样调查与典型调查不同。典型调查是抽取典型单位进行调查,典型单位是按人的主观意志挑选的;而抽样调查是按随机原则抽取部分单位。(2)抽样调查与重点调查不同。重点调查是为了了解现象的基本情况;而抽样调查是要从样本推断出总体。二、抽样调查的优点1.费用较低。由于抽样调查的调查单位数是调查对象中的一部分,占调查对象的比例很小,因而可以节约大量的人力、物力和开支。2.调查的速度快,时效性好。由于抽样调查的单位数比较少,可以更迅速地取得资料,及时满足调查的需要。3.资料更加准确。由于抽样调查的调查单位少,所需人员少,便于调查人员专业化;同时,便于对实地调查工作进行监督检查,能及时
5、发现问题,减少差错,使调查工作中的登记误差大大减少。三、抽样调查的应用范围随着我国市场经济的发展,抽样调查的应用范围更加扩大,主要包括以下几个方面:1.理论上可以进行全面调查,而实际上难以做到的,可以采用抽样调查取得数据资料。例如全国城市居民生活水平的调查,从理论上讲可以进行全面调查,但实际上很难进行,只能进行抽样调查。2.对某些不可能进行全面调查,而又要了解其整体情况的社会经济现象,则需要采用抽样调查的方式。例如,在调查城市环境时,需要了解空气中有毒气体的比例、尘埃的含量、噪声等情况,这时我们不可能对城市地区所有的空气都进行调查,也不能每时每刻在城市的各个角落进行噪声监控,只能进行抽样调查。
6、3.某些调查具有破坏性,只能进行抽样调查。工业生产中产品质量的控制与检验,大都具有破坏性,只能采用抽样调查的方式,用样本的数据对被调查对象的数据特征做出估计和推断。4.对全面调查资料的质量进行检查和修正。全面调查的登记误差,在调查范围很大且调查对象的单位数很多的情况下,是很难确切知道的,只能通过抽样调查来确定。虽然抽样调查应用范围比较广,但并不是所有的资料都可以采用抽样调查方式取得。例如,要了解某地区工业企业的数量,就不能采用抽样调查的方式,而应逐一进行登记。统计学原理与工业统计 课程讲稿四、几个基本概念1、总体与样本总体就是要调查研究现象的全体,它是由许多性质相同的调查单位组成的。总体的单位
7、数通常用 N 来表示。样本就是由总体中抽选出来的部分单位组成的整体。样本的单位数称为样本容量,一般用 n 来表示。通常,样本单位数达到或超过 30 称为大样本,而在30 以下称为小样本。对于同一个问题来说,总体是唯一的,而从一个总体中抽出的样本可以有多个,并且每次抽中的样本不是确定的,也不是唯一的,而是可变的。2、总体指标:根据总体各单位标志值或标志特征计算的、反映总体某种属性特征的综合指标为总体指标。对于变量总体而言,常用的总体指标包括总体平均数 与总体标准差 。X(1)总体平均数 XNX或 F(2)总体准差 NX2)(或 FX2)((3)总体成数及总体成数的标准差对于属性总体而言,由于各单
8、位的标志不能用数量来表示,因而需要计算比重指标,称之为总体成数 P。总体成数就是总体中具有某种特点的单位所占的比重。如果用 N 表示总体单位数, N1 表示总体中具有某种特点的单位数,N 2表示总体中不具有某种特点的单位数,则总体成数的计算方法为: 1总体成数的标准差为: )1(P例如,某电子管厂在生产的 1 万只显像管中,检验有 300 只不合格,求显像管的合格率? %971030统计学原理与工业统计 课程讲稿3、样本指标样本指标是抽样总体的统计指标。和总体指标相对应,常用的样本指标有样本平均数、样本标准差和样本成数。(1)样本平均数 :是抽样总体各单位标志值的平均数。即:xnx或 fx(2
9、)样本标准差 S: 是指样本中根据各单位标志值计算的标准差。 nxS2)(或 fxS2)((3)样本成数 p: 是指样本中具有某一相同标志表现的单位数占样本容量的比重。样本中某一相同标志表现的单位数记为 n1,则有:p1(4)样本成数的标准差: )1(pS小结:项目 总体 样本总体单位数 N n平均数 XF xfx成数 P1 np1标准差 NX2)(F2)( xS2)(f2)(方差 22S统计学原理与工业统计 课程讲稿4、重复抽样与不重复抽样从抽样的方法上看,抽样调查包括重复抽样与不重复抽样两种方法。(1)重复抽样:重复抽样也称回置抽样,它是指从总体 N 个单位中要抽取一个容量为 n 的样本,
10、每次从总体中随机抽取一个总体单位,经调查登记后再放回总体,参加下一次抽选,直到抽选出第 n 个样本单位。由于每次在抽取样本单位时总体单位数都保持不变,因此,每一个总体单位被抽中的可能性是相同的,被抽中的概率为 1/N。(2)不重复抽样:不重复抽样也称不回置抽样,它是指从总体 N 个单位中要抽取一个容量为 n 的样本,每次从总体中随机抽取一个总体单位,经调查登记后不再放回总体中,而是从余下的总体单位中随机抽取下一个总体单位进行调查,直到抽选出第 n 个样本单位。在这种抽样方法中,第一个单位被抽中的机会为 1/N,第二个单位被抽中的机会为 1/(N-1),以此类推,总体中每个单位被抽中的机会是不相
11、等的。在实际调查中,大多采用不重复抽样。当总体单位数很大,样本单位数相对较小时,重复抽样与不重复抽样的误差相差无几。第二节 抽样误差与抽样估计一、抽样误差1、含义:由于样本不能完全代表总体所产生的误差,就是抽样指标和总体指标之间的绝对离差。这种误差有样本平均数与总体平均数的差,样本成数与总体成数的差。2、统计调查中的误差(1)登记性误差是指在调查和整理资料的过程中,由于主客观原因引起登记或计算错误而造成的误差,是所有统计调查都可能发生的误差。(2)系统性误差是指在抽样时违背了随机性原则而造成的误差。登记性误差和系统性误差都可以采取一定的措施加以避免。(3)抽样误差是一种代表性误差,但并不是所有
12、的代表性误差都是抽样误差。抽样误差是指在没有登记性误差的前提下,又遵循了随机原则而产生的样本指标与被它估计的总体相应指标的差数。这种误差是不可以避免、难于消除的,但可以采取一定的方法加以控制。抽样误差的大小主要受以下因素的影响:总体各单位标志值的差异程度。在其它因素相同的条件下,总体各单位标志值差异程度越大,抽样误差也越大。样本的单位数。在其它因素相同的条件下,样本单位数越多,抽样误差就越小。抽样的方法。一般地,不重复抽样的误差要小于重复抽样的误差。抽样调查的组织方式。由于不同的抽样组织方式的误差计算方法不同,因而抽样误差也不同,按有关标志排队的等距抽样误差一般小于其他形式的抽样误差。统计学原
13、理与工业统计 课程讲稿二、抽样平均误差1、抽样平均误差的含义从同一个总体 N 个单位中随机抽取 n 个单位组成样本可以有不同的取法,因而有很多个样本,并且各样本指标是随机变量,它们与总体指标之间存在着误差。抽样平均误差就是全部可能的样本指标与总体指标离差平方和的平均数的平方根,实际是抽样平均数或抽样成数的标准差。抽样平均数的标准差反映抽样平均数与总体平均数的平均误差程度,抽样成数的标准差反映抽样成数与总体成数的平均误差程度。如果抽样平均误差越大,则抽样误差的离散程度就越大,样本的代表性就越弱;反之,抽样平均误差越小,则抽样误差的离散程度就越小,样本的代表性就越强。根据抽样平均误差的概念计算抽样
14、平均误差时,由于总体平均数和总体成数是未知的,因此,无法采用标准差的形式计算抽样平均误差,但可以采用其他的方法计算抽样平均误差。2、抽样平均误差的计算(1)重复抽样的抽样平均误差1)抽样平均数的平均误差在重复抽样的条件下,抽样平均数的平均误差与总体的变异程度及样本容量两因素有关,即: nx式中, 为抽样平均数的平均误差, 为总体数量标志的标准差,n 为样本容x量。例如,随机抽区某大学 100 名学生调查体重,经过称量和计算后,学生的平均体重 58 公斤,同时由过去的资料知道该校学生的体重总体标准差为 100 公斤,求平均体重的平均误差。 )(10公 斤nx2)抽样成数的平均误差在重复抽样的情况
15、下,成数的抽样平均误差的计算公式为: npp)1(式中, 为抽样成数的平均误差,p(1-p) 为总体是非标志的标准差。例如,某大学随机抽取 400 名学生,发现戴眼镜的有 160 人,计算戴眼镜学生所占比重的平均误差。40n%4016p统计学原理与工业统计 课程讲稿%45.20.)1(npp(2)不重复抽样的平均误差1)抽样平均数的平均误差在不重复抽样的情况下,平均数的抽样平均误差计算公式为: 12Nnx当总体单位数 N 很大时,N-1N,上式又可以写为: nx2可以看出,抽样平均数的平均误差与总体的标准差成正比,与样本单位数的平方根成反比。公式中总体标准差 通常是未知的,一般可以用历史资料来
16、估计或者用样本标准差 S 来代替 。2)抽样成数的平均误差在不重复抽样的情况下,成数抽样的平均误差为: 1)(Nnpp当 N 很大时,上式可以写成: np)(可以看出,在其他条件相同的情况下,不重复抽样的抽样平均误差小于重复抽样的抽样平均误差。在实际工作中,总体单位数一般很大,样本单位数相对较小,n/N 接近于 0,按重复抽样计算公式与不重复抽样计算公式计算的抽样平均误差相差甚微。因此,当按不重复抽样的方法抽取样本时,抽样平均误差的计算也常按重复抽样的公式计算。例如,某进出口公司出口一种名茶,从 2 000 包中随机抽取 100 包进行检验,资料如下,试计算这批茶叶平均重量的误差及每包重量在
17、149 克以上的茶叶所占比重的误差。表 7-1每包重量(克) 包数(包)148149 10149150 20150151 50151152 20合计 100计算时所需有关资料见表 7-2。平均每包重量为: )(3.150 克fx统计学原理与工业统计 课程讲稿标准差为: )(871.06)(2克fxS表 7-2组中值 x 包数 f xf x2)(xfx2)(148.5 10 1 485 -1.8 3.24 32.4149.5 20 2 990 -0.8 0.64 12.8150.5 50 7 525 0.2 0.04 2.0151.5 20 3 030 1.2 1.44 28.8合计 100 1
18、5 030 76.0在重复抽样时,平均重量的抽样误差为: )(087.1.克nSx在不重复抽样时,平均重量的抽样误差为: )(5. 2.2 克Nx每包重量在 149 克以上的茶叶所占比重为: %90150p在重复抽样时,抽样成数的平均误差为: 30).(.)(np在不重复抽样时,抽样成数的平均误差为: %92.1 210)9.(.)1( Nnpp三、抽样估计抽样估计就是根据样本指标的数值估计和推断总体指标的数值。它有两种估计方法:点估计和区间估计。1、点估计。又称定值估计,是用实际样本指标的数值代替总体指标的数值,即总体平均数的点估计值就是样本平均数,总体成数的点估计值就是样本成数。例如,某中
19、学对 200 名学生进行调查,平均身高 1.62 米,戴眼镜的比例为35%。按点估计,则认为该校全体学生的平均身高为 1.62 米,戴眼镜的比例为35%可以看出,点估计的方法比较简单,一般不考虑抽样误差和估计的可靠程度,只适用于对推断准确性与可靠程度要求不高的情况。2、区间估计。区间估计就是根据估计可靠程度的要求,利用样本指标确定一个范围,使估计的总体指标包括在其中。它要完成两个方面的估计:统计学原理与工业统计 课程讲稿第一,根据样本指标和误差范围,估计出一个可能包括总体指标的区间;第二,确定出所估计的区间内包括总体指标的把握程度有多大。区间估计的要点如下:(1)确定总体指标所在的范围。 xX
20、xPpp由抽样平均误差估计总体指标的范围称为置信区间,即为( ),x( )。区间估计表明的是一个可能的范围,但不是一个绝对可靠的范围。p总体指标真实值落在这个范围的可靠程度即概率为 68.27%,该概率用 F(t)表示,F (t)越接近于 1,说明可靠程度越高。数理统计证明,总体指标落在估计范围的可能性为 68.27%表明:如果抽取 10 个样本,可以计算 10 个置信区间,其中约有 7 个置信区间可使总体指标真实值在其范围内,有 3 个置信区间使总体指标的真实值不在其内。(2)要提高推断的可靠程度即提高概率,必须扩大误差的范围。数理统计证明,在样本单位数足够多的条件下,抽样平均数的分布接近于
21、正态分布,即以总体平均数为中心,两边完全为对称分布。此时,抽样误差的概率与概率度的关系如表 7-3 所示。概率和置信区间的关系是:以 F(t)的概率进行估计,总体平均数的置信区间是( ),总体成数的置信区间是( )。t 是估计值的误差范围,称xt p作极限误差,它是样本指标与总体指标之间抽样误差的可能范围,以 表示,也称允许误差。平均数的极限误差可表示为 ,成数的极限误差可表示为xt。t 为概率度,是测量估计可靠程度的一个参数,是极限误差与抽样平p均误差相比的倍数。表 7-3概率 F(t) 概率度 t0.6827 10.7995 1.280.9500 1.960.9545 20.9973 3以表 7-1 的资料为例,估计茶叶的平均重量及每包重量在 149 克以上茶叶所占比重的可能范围,要求可靠程度为 95.45%。在 95.45%的概率下,t=2,则平均重量的允许误差为: )(17.085.2克xt平均重量(克) 的可能范围为:150.3-0.17 150.3+0.17X150.13 150.47