1、中国综合社会调查(CGSS)第二期(2010-2019)抽样方案2目 录一、调查背景 .2二、调查目标总体 .2三、抽样设计原则 .2四、抽样设计中的几个问题 .3(一)关于分层 .3(二)各阶段抽样单元 .3(三)样本量的界定及分配 .3五、具体设计 .3(一)必选层的样本抽取 .3(二)抽选层的样本抽取 .3六、最终样本的构成 .3七、样本权数的确定 .3(一)设计权数 .3(二)实际执行情况调整 .3(三)最终权数的确定 .3八、主要估计量 .3(一)各小层内部目标量的估计 .3(二)全国目标量的估计 .3九、估计量的方差估计 .3十、附录:抽选层 100 个样本初级单元 .33中国综合
2、社会调查抽样设计方案(2010)一、调查背景我国是世界上人口最多的国家,随着我国市场经济的发展,社会正在发生巨大的变革,经济发展使得对全国社会多方面信息的需求日益突出。及时、全面、客观地了解我国收入、医疗卫生、教育、失业保障等方面的信息,将为国家宏观调控政策的制定和企业的更好发展提供保障,对于促进城乡社会的协调发展、保持国民经济可持续发展都有着重大的现实意义。中国综合社会调查是一项全国性的大型调查项目,调查总体是全国城镇居民和农村居民。本次调查的总体要求:(1)能够全面了解我国城乡社会发展情况;(2)能够对城市群体和农村群体进行对比分析;(3)能够在地理概念或者区域发展水平方面体现我国社会发展
3、的地域差异性。本方案着重介绍此次调查项目的抽样方案设计以及样本数据的权数调整方法。设计方案充分考虑了全国及不同地域估计的需要,对调查总体进行了科学、细致的分层,在一定程度上提高了估计精度;特别是在城乡样本配比、设立自我代表层、样本数据加权等问题的处理上体现了本方案的科学性、高效性、可操作性等特点。二、调查目标总体此次调查的目标总体为全国 31 个省、自治区、直辖市(不含港澳台)的所有城市、农村家庭户。三、抽样设计原则首先,作为全国性的抽样调查,整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区具有代表性。其次,抽样方案必须保证具有4较高的效率,即在相同的样本量条件下,方案设计应
4、使抽样误差尽可能小,调查精度尽可能高。最后,方案必须具有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理。四、抽样设计中的几个问题(一)关于分层根据本次调查的研究需要,将调查总体分为两大类:一是必选层,该层总体为入选大城市的市辖区家庭户;二是抽选层,该层总体为除去必选层市辖区以外全国所有家庭户。1、必选层根据调查需要及以往调查经验,本次调查对那些发展处于国内领先水平的大城市将特殊对待,将该类城市市辖区家庭户作为单独一层进行设计,作为必选层。对于大城市的界定,着眼于直辖市、省会城市和副省级城市共 36 座城市,从经济水平、教育水平及城市开放性程度等角度出发,选取 GDP、拥有教师
5、总数、外国直接投资(FDI)实际使用外资金额这三个总量指标进行考察,采用因子分析方法确定排名前五的城市进入必选层。需要特别说明的是:该层的调查对象为这些城市的市辖区居民,该层最终调查单元均划为城市家庭户。2、抽选层抽选层的调查总体由必选层以外的城市、农村家庭户组成。为了便于在后期数据分析中采用平衡半样本进行方差估计,对初级抽样单元的分层划分打破省级地域限制,进一步增加分层的层数。将抽选层划分为区层和县层(包含县级市和县) ,采用人口密度、非农业人口比重和人均地区生产总值三个指标,在区层和县层中分别进行因子分析,得到区层和县层内各个区县的综合因子得分;在对综合因子得分进行排名的基础上将区层进一步
6、分为 19 层,县层划进一步分为 31 层,抽选层共计细分划分为 50 个层。(二)各阶段抽样单元本次调查采用分层三阶段概率抽样,视所在层情况,各阶段抽样单元略有5不同,详见表 1。表 1 各阶段抽样单元第一阶段抽样单元 第二阶段抽样单元 第三阶段抽样单元必选层 街道 居委会 家庭户抽选层 区、县级市、县 居委会、村委会 家庭户这样设计的原因在于:对于必选层,选择街道作为初级抽样单元可以细化抽样框,使得样本点相对分散,有利于总体信息的采集,避免由于抽样框过粗而导致样本有偏。对于抽选层,全国区、县级市、县的数量较多,以其作为初级抽样单元比较合适。(三)样本量的界定及分配1、目标样本量目标样本量是
7、指在一定精度要求下,实现调查目标所必需的样本量。根据以往调查经验,本次调查设定目标样本量为 12000 户,其中必选层 2000 户,抽选层 10000 户。后续部分涉及的样本量分配均立足于目标样本量。2、各阶段样本量分配由于必选层与抽选层设计的各阶段抽样单元略有不同,因此,分别介绍两者各阶段样本量的分配。对于必选层,该层总样本量为 2000 户,计划抽取 40 个初级抽样单元(街道) ,每个初级抽样单元(PSU)抽取 2 个二级抽样单元(居委会) ,每个二级抽样单元(SSU)中抽取 25 个家庭户。对于抽选层,该层总样本量为 10000 户,计划抽取 100 个 PSU(区、县级市、县) ,
8、每个 PSU 中抽取 4 个 SSU(居委会、村委会) ,每个居委会(村委会)中抽取 25 个家庭户。最终,本方案共需抽取 140 个 PSU,480 个 SSU。3、样本城乡分配为了能切实反映全国范围城乡社会的真实情况,并在后续研究中能够对城乡进行对比研究,需要保证样本在城乡分配上与实际情况一致。首先明确本方案中的城乡样本概念,本方案设计基于这样的假设:居委会的家庭户为城市居6民,村委会的家庭户为农村居民。统计资料显示,目前我国城市常住人口数与农村常住人口数基本持平,由于城市居民主体的各方面差异相对明显,方差较大,因此将样本量的城乡分配比例确定为 64。根据第一阶段样本量的分配结果,必选层中
9、共抽取 80 个居委会,共计2000 户,因此抽选层内城乡家庭户数需分别为 5200 和 4800 户才能满足 6:4的要求。由于抽选层每个 PSU 下抽取 4 个 SSU(居委会或村委会) ,每个 SSU内最终抽样单元的目标样本量均为 25,因此对城乡样本比例的控制,主要是使得抽选层居委会与村委会下的城乡样本比例达到 5200:4800,也即抽选层中的居委会与村委会样本个数比约为 208:192。为了实现样本二级单元 208:192 的目的,需要根据样本初级单元的城市化水平(非农业人口比重)分配样本居委会和村委会的数量。这里采用分别在区层和县层样本初级单元内,根据各个区县的城市化水平(用非农
10、人口比重表示)进行分段,形成若干个区间,然后根据不同的区间对样本区县中的居委会、村委会个数进行分配的方法来实现样本居委会和村委会的比例要求。4、接触样本量如果回答率达到 100%,则调查时需要的接触样本量即为有效样本量,但现实中无回答现象不可避免。要克服这个困难,可以采取替换样本的方法,但样本替换在实际操作中存在缺陷,因此本方案采取利用膨胀系数扩大样本量的方法,对第三阶段样本量进行放大。根据往年调查经验,发达城市的市辖区居民由于种种原因,回答率在 50% 左右,即膨胀系数在 2 左右,因此在必选层每个二级单元抽取 50 户家庭,该层接触样本量扩大至 4000;抽选层的居民群体回答率高于必选层,
11、但其内部还有差异,大体上城市居民的回答率在 65% 左右,农村居民的回答率高于城市居民,大致在 85%左右,因此,对于抽选层,在每个居委会抽取 38 户,在每个村委会内抽取 30 户。五、具体设计(一)必选层的样本抽取71、必选层入样城市的确定首先对全国 36 座城市(包括直辖市、省会城市、副省级城市)市辖区的GDP、拥有教师总数、外国直接投资(FDI)实际使用外资金额这三项指标进行因子分析,最终确定 5 个城市进入必选层。这里给出进行因子分析之后,综合得分排名前五的城市名单(见表 2) 。表 2 36 座城市中前 5 座城市排名 城市名称1 上海2 北京3 广州4 深圳5 天津2、初级单元的
12、抽取根据最新的全国行政规划,这 5 座城市市辖区总数为 67 个,如果以 67 个市辖区为初级阶段抽样框,初级单元个数有限,可能会导致样本在分布上过于集中,影响样本对该层总体的代表性,为了使样本点分布较为分散,将初级抽样单元细化为街道,由此,必选层的抽样框为入选城市市辖区的街道,且该层人口规模均只采用城市人口。以必选层入选城市市辖区的街道作为抽样框,以各街道的城市人口规模为辅助信息,采取与人口规模成比例的 PPS 抽样抽取 40 个街道作为该层的PSU,这里:最终抽样单元为家庭户,理论上应该以街道的户数作为辅助信息,但目前这方面信息缺乏,因而用街道人口数作近似处理。具体步骤说明如下:设共有 个
13、初级单元(街道) ,第 个初级单元的人口Ni规模为 ( ) ,首先按地理区域将街道进行排序并产生累计人口数iM1,2列,即排序第一位二级抽样单元为 ,对应的累积人口为 ;排序第二位的1M1M单元人口数为 ,对应的累积人口为 ,依次进行,则排序第 的单元2 2i对应的人口数为 ,对应的累积人口为 ( ) ,需要注意的是:i 1ij,iN8这里的 是指排序后单元对应序号。接下来,对第一个单元赋以 共 个i 1M代码;对第二个单元赋以 共 个代码,对第 个单元赋112Mi以 共 个代码,人口总数为 。11iijjjji 01Nii若已知初级单元样本量为 ,则首先可以确定抽样间隔 ,理论上 ,nk0k
14、n实际中一般取最接近于 的整数。接下来从 范围内随机地产生一个整数0M1作为抽样起点,则代码为 所对应的单元即为被抽中的初r,()rkrnk级单元,且第 个抽样单元被抽中的概率为 。i 0iiMZ3、二级单元的抽取在确定初级抽样单元(街道)后,二级单元抽样框为样本街道内所有居委会名单,同时收集各个居委会人口数。二级单元的抽取方法:在入选街道内,采用与各居委会人口规模成比例的系统 PPS 抽样抽取 2 个居委会。具体抽取过程同初级单元部分。4、最终单元的抽取最终单元的抽取在每个入选的居委会中进行,在每个居委会内,按家庭户的门牌号进行排序,采取等概率系统抽样抽出 50 户家庭作为最终调查单元。这里
15、,实际接触样本量在调查时视回答率状况分批投放,以达到既满足目标样本量,同时各二级样本单元(居委会)下最终样本(家庭户)数量差异不至于悬殊。必选层样本抽取情况见表 3。表 3 必选层样本抽取情况区域 初级单元数 居委会数 目标样本量 实际接触样本量必选层 40 402=80 40225=2000 40250=4000(二)抽选层的样本抽取抽选层的初级抽样单元总体为:除去必选层城市市辖区以外的区、县级市、县,根据中国统计年鉴 2009的行政区划设置信息,除去必选层 67 个区后,9抽选层共有 792 个区和 2003 个县级市和县。1、抽样框的构建为了实现样本分布与总体分布的一致,根据全国分县市人
16、口统计资料2008 年的户籍人口统计,区层和县层的人口规模比约为 7:18,差异较大,为了区县两层样本初级单元分配数量差异,采用与人口规模平方根成比例的分配方法,将抽选层中的 50 个层划分为为 19 个区层和 31 个县层。在区层和县层中,以人口密度、非农业人口比例、人均地区生产总值三个重要指标对区县进行因子分析,首先利用综合因子得分法对区层和县层的区县进行排序,然后根据区县的个数基本等分为 19 层和 31 层。抽选层中区层共有792 个初级单元不能被 19 整除,将余数 13 归入区层的最后一层,结果为前 18个区层每层含 41 个初级单元,第 19 层含 54 个初级单元。县层做法类似
17、,2003个初级单元不能被 31 整除,将余数 19 归入县层的最后一层中,结果为前 30 个县层每层含 64 个初级单元,第 31 层含 83 个初级单元。具体分配结果见附录excel 表。2、初级单元的抽取在上述 50 个小层中,以各个初级单元的综合因子得分排序,各个初级单元的人口数为辅助信息,按照与各初级单元人口数成比例的系统 PPS 抽样方式分别在各小层中抽取 2 个样本区或县。3、二级单元的抽取在每个样本区或县中,抽取 4 个村委会或居委会,二级单元的具体抽取要根据初级单元的类别来确定,这是本方案实现城乡样本配比的关键环节,根据入样初级单元的类别确定应在该初级单元内抽取的居委会、村委
18、会数目。一般说来,城市化水平较高的区(县) ,居委会个数较多、村委会个数较少,因此,城市化水平不同的区县,居委会与村委会抽取个数之间的配比亦不同,经测算,具体的居委会、村委会分配标准见表 4。表 4 初级单元内二级单元的分配标准分配标准 居委会 村委会95%及以上 4 050%95% 3 115%50% 2 21015%以下 1 3在每个入样初级单元内部分别构建居委会、村委会抽样名单,同时收集该居、村委会人口数。根据上表的分配标准,以人口数作为规模辅助信息,按照与人口规模成比例的 PPS 抽取相应个数的居委会、村委会,确保每个初级单元下有 4 个二级单元。4、最终户单元的抽取最终户单元的抽取在
19、每个入选的居委会或村委会中进行,要求每个二级单元内部达到 25 户的目标样本,最终抽选层目标样本量为 10000。但在实际调查中要涉及接触样本量的膨胀问题,正如在样本量界定中提到的,最终接触样本量在每个居委会(村委会)内必须进行扩大,由于城乡居民的回答率不同(大约分别在 65%、85% 左右) ,因此将居委会内的接触样本量扩大至 38 户,每个村委会内的接触样本量扩大至 30 户。具体抽取方法仍采用等概率系统抽样。5、户内调查对象的抽取在入选的户内,列出所有 18 岁及以上人口,随机抽取一人,作为最终的调查对象。六、最终样本的构成本次调查目标样本量为 12000,必选层样本量为 2000,抽选
20、层样本量为10000。在必选层中,抽取 40 个初级单元,每个初级单元内抽取 2 个二级单元,在每个二级单元内目标样本量达到 25 户;在抽选层中,共抽取 100 个初级单元,400 个二级单元,其中居委会 208 个,村委会 192 个。全部目标样本城乡比为64,基本与我国实际情况相吻合。本次调查的最终接触样本量为 17664,其中必选层 4000,抽选层 13664。在必选层中,在初级单元、二级单元个数不变的情况下,将每个二级单元内部的接触样本量增加至 50 户;在抽选层中,初级单元数 100、每个初级单元内二级单元数为 4,在每个入样居委会内将接触样本量扩大至 38 户,在每个入样村委会内部将接触样本量扩大至 30 户,因此,抽选层接触样本量为 13664,其中城市居民样本为 7904,农村居民样本为 5760。