1、抽样调查实践过程注意事项浅谈【摘要】抽样调查是一门实际应用型的科目,需要一定的实践才能深刻体会其整个过程,当然在实践过程中有很多细节及关键部分是值得我们注意的,本文旨在对抽样调查过程须注意的事项和解决方法进行一个小结。 【关键词】抽样方法 估计精度 样本量 抽样调查是根据部分实际调查结果来推断总体的数字特征的一种统计调查方法,属于非全面调查的范畴。它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据以代表总体,推断总体。 与其它调查一样,抽样调查也会遇到调查的误差和偏误问题。通常抽样调查的误差有两种:一种是工作误差,一种是代表性误差。
2、但是,抽样调查可以通过抽样设计,通过计算并采用一系列科学的方法,把代表性误差控制在允许的范围之内;另外,由于调查单位少,代表性强,所需调查人员少,工作误差比全面调查要小。特别是在总体包括的调查单位较多的情况下,抽样调查结果的准确性一般高于全面调查。因此,抽样调查的结果是非常可靠的。 抽样调查数据之所以能用来代表和推算总体,主要是因为抽样调查本身具有其它非全面调查所不具备的特点,主要是: (1)调查样本是按随机的原则抽取的,在总体中每一个单位被抽取的机会是均等的,因此,能够保证被抽中的单位在总体中的均匀分布,不致出现倾向性误差,代表性强。 (2)是以抽取的全部样本单位作为一个“代表团” ,用整个
3、“代表团”来代表总体。而不是用随意挑选的个别单位代表总体。 (3)所抽选的调查样本数量,是根据调查误差的要求,经过科学的计算确定的,在调查样本的数量上有可靠的保证。 (4)抽样调查的误差,是在调查前就可以根据调查样本数量和总体中各单位之间的差异程度进行计算,并控制在允许范围以内,调查结果的准确程度较高。 一、抽样方法的选择 (一)提高估计精度 总体是由大量具有相同性质的个体所组成的一个集合体,在共性的基础上,个体之间又存在许多方面的差异。总体内在差异性是指调查总体中所研究的指标或变量在每个不同个体上的差异程度。这种差异体现为各个体的标志值或变量值与它们的平均数不相等,存在着离差。有些个体的离差
4、相对大些,有些个体的离差相对小些。很显然,如果每个个体的离差都较小,那么从这样的总体中抽取少量样本所计算的样本均值就会很接近总体均值,即能够保证调查估计值有较高精度;总体指标无变异时,只需抽取一个个体作样本即可取得完全可靠的估计值,但各个体的变量值与总体均值之间的离差都比较大,即总体内在的变异程度增大时,就必须抽取较大样本量,才能保证调查估计值有较高精度。 抽样包括,概率抽样和非概率抽样,其中概率抽样包括;1.简单随机抽样,简单随机抽样是一种广为使用的概率抽样方法。是最完全的概率抽样。如前面提到的,随机抽样就是总体中每个单位在抽选时有相等的被抽中的机会。2.系统抽样,在定量抽样调查中,等距抽样
5、常常代替简单随机抽样。由于该抽样方法简单实用,所以应用普遍。等距抽样得到的样本几乎与简单随机抽样得到的样本是相同的。等距抽样方式相对于简单随机抽样方式最主要的优势就是经济性。等距抽样方式比简单随机抽样更为简单,花的时间更少,并且花费也少。使用等距抽样方式最大的缺陷在于总体单位的排列上。3.分层抽样,定量调查中的分层抽样是一种卓越的概率抽样方式,在 CMRC 公司以往的调查中经常被使用。4.整群抽样,以上各种抽样类型全部是按单位抽取的,即按样本单位数,一个单位、一个单位地抽取。在整群抽样中,样本是一组单位、一组单位地抽取。在整群抽样下,我们假定群中单位与总体一样存在异质性。如果一群中单位的特征非
6、常相似,如果由于共同环境使群内差异小而群与群之间差异大。一般来说,要解决这个问题可以扩大群数,然后从各个群中抽取少量单位数,以保证样本的代表性。5.多阶段抽样,将抽样分为好几个步骤,每一步用上面提到的抽样方法进行抽样。非概率抽样包括;偶遇抽样,判断抽样,定额抽样,滚雪球抽样。 (二)多阶段抽样的情况后几个阶段尽量简单,前两阶段尽量科学 对于规模较大的抽样,我们为了使抽样方便,我们往往会选取多阶段抽样与其他抽样相结合的复杂抽样方法,抽样调查采用严格的概率抽样,特别是当抽样单元大小不等为提高抽样效率而采用不等概率抽样时,技术性很强,因此抽样方法对抽样工作人员的专业素质要求很高。尽管在大规模抽样调查
7、前需对工作人员的专业素质进行培训,但多阶段最后阶段要求较高。对多阶段抽样的误差起决定作用的是前两个阶段,越往后误差的影响较小。对于多阶断抽样的前两阶段需要更进一步考虑,适合的、科学的控制整体的误差尽量小,后两个阶段尽量选择更专业的人员。 (三)置信度 置信水平表示区间估计的把握程度,置信区间的跨度是置信水平的正函数,即要求的把握程度越大,势必得到一个较宽的置信区间,这就相应降低了估计的准确程度。 根据置信度与显著性水平的关系, 若置信度选取太小, 显著性水平较大, 就是说, 判断失误的几率就较大, 这时, 往往因舍去“ 误差较小的数据过多” , 把本来不属于错误的测定误判为错误而舍去, 故易犯
8、“ 拒真” 的错误。 如置信度选取太大时, 判断失误的机会小了, 但是往往因实用意义不大, 并且因“ 保留误差大的失误数据过多”这时往往把本来不属于正确的测定误判为正确而保留, 故易犯“存伪”的错误。在分析工作中, 处理分析数据的结果, 应首先控制犯“ 拒真”错误的判断为最小, 其次, 再设法使“ 存伪” 的错误判断降到最低。我们在分析工作中, 一般取 95%的置信度, 基本上综合考虑了以上这两方面的因素。以上是在分析方法可靠的情况下进行的讨论。若分析方法不能满足实际生产的误差要求,那就不只是置信度的选取问题了, 则必须首先考虑改进分析方法的问题。 二、样本量的确定 (一)估计精度 调查估计值
9、的精度要求与样本量大小密切相关。不难发现,样本容量越大它所包含的个体越多,那么它所包含的能体现总体特征的各种信息就越多,对抽样估计就越有帮助,抽样估计精度也就会越高。特别地,当样本容量和总体容量相等时,样本所包含的信息就是总体本身的全部信息,抽样调查就成了全面调查抽样估计就成了全面统计,所得的结果自然就完全准确,即估计精度 100%。相反,若样本容量比较小,它所包含的个体比较少,那么样本中的个体种类就可能不完整,样本的分布形状就会与总体有较大不同。这时,样本对总体的代表性就可能很低,从而使抽样估计有较大的误差。可见样本容量成了调节或控制抽样估计精度高低的最直接、最有效的手段。但在抽样调查中,有
10、时为取得令人满意的抽样调查结果,通常需要在抽样前根据调查目的或决策的重要性确定一个适宜的精度,再根据这个精度要求来抽取样本量,从这个角度看,样本量的确定要服从于抽样精度。过高的精度不但没有必要,反而导致费用的增加,过小的精度不能满足调查目的的需要,可见抽样精度这时是确定样本量的一个最重要的因素。在不考虑其他因素时,要求的抽样估计精度越高,抽取的样本量要越多;要求的抽样估计精度越低,抽取的样本量要越少。定出一个适宜的精度要求,一般应考虑用户对调查结果的使用以及数据分析对估计的要求。例如,用户能接受多大的风险,如果用户将根据调查结果进行重大决策或者作有较大风险的决策,就需要估计值有较高精度,反之较
11、低精度就可满足用户需要。 (二)置信度 抽样估计中我们希望在估计精度一定的情况下抽取适当样本量所得的样本指标值都能够落在所允许的误差范围内,但这并非都能实现的事情。由于抽样指标值随着样本的变动而变动,它本身是个随机变量,因而抽样指标和总体指标的误差仍然是个随机变量,并不能保证误差不超过估计精度所规定范围的条件是必然的,以概率论和大数定律作为理论依据,该事件只能给以一定程度的概率保证,即概率保证程度。可见抽样估计精度是一定概率保证程度基础上的精度。在不考虑其它因素影响,样本量一定的情况下,抽样估计精度要求越高,即允许的误差范围越小,抽样指标值落入范围内的概率越小,概率保证程度越小。同样在不考虑其
12、它因素影响,抽样估计精度一定的情况下,概率保证程度越高,即要求抽样指标值落入允许误差范围的概率越高,那么只有要求随机变量抽样指标值和总体指标的误差越小,满足这一条件的途径和解释抽样估计精度和样本量关系原理一样只有抽取的样本量越大越好;反之,可以少些。特别地,当样本容量和总体容量相等时,样本所包含的信息就是总体本身的全部信息,抽样调查就成了全面调查,抽样估计就成了全面统计,所得的结果自然就完全准确,即估计精度达到 100%的同时概率保证程度达到 100%。 (三)经费因素 任何一项调查所确定的样本量,必须能够在预定的时间内完成,并且有足够经费支持才是可行的。否则必须调整样本量,以保证调查的顺利完
13、成。样本容量过大,会使调查费用显著增加,人力及管理费用加大,从而也难以体现抽样调查的优越性。当调查经费很少时,就难以去搜集辅助信息,样本布点就不能很均匀分散,样本容量就不会太大。因此,在讨论样本量确定问题时,调查费用是一个不可忽略的内容。 注:本成果受北京市财政和北京市教委人才培养项目资助。 注:首都经济贸易大学 2012 年度产学研联合培养研究生基地项目。 参考文献: 1.冯士雍.抽样调查应用与理论中的若干前沿问题M.统计与信息论坛.2007. 2刘太平.浅谈抽样调查的准确性M. 南昌高专学报.2003. 3时涛. 抽样调查中样本量的科学确定M.泰山医学院学报.2010. 4侯志强,吴启富.抽样调查样本量的确定M.经济理论研究.2007. 5汤英惠,徐洁.浅谈统计抽样调查中的误差来源M. 管理学家.2009.