1、第八次中国公民科学素养调查抽样与数据加权QQ:126998647,主要内容,一、追加抽样设计二、权数的计算三、追加后的估计四、几个问题的说明,调查目的 通过追加抽样调查,来了解并推估各省(直辖市、自治区)18-69岁的人口在科学素养方面的有关情况。 调查对象 各个需进行样本追加省(直辖市、自治区)内的18-69岁的公民(不含现役军人、智力障碍者)。,一、追加抽样设计,追加抽样设计原则,以各省级单位为子总体,进行独立的追加抽样设计。 各省的追加抽样设计应与全国的抽样设计保持一致,采用三阶段抽样设计。追加后的省级样本由两部分构成: 落入本省内的全国原有样本 本省独立的追加样本在95%的置信度下,估
2、计省级子总体比例参数,抽样绝对误差不超过3%。,追加抽样设计思路,可以采取以下两种方式对各省级单位进行样本追加: 1、通过增加各省级单位内全国抽样设计落入的末级抽样单元抽取的数量; 2、通过在各省级单位内追加一部分初级抽样单元的数量。,本次追加采用以上两种追加思路。 最终追加的样本量是69360.,二、权数的计算,抽样后如何用样本推断总体? 为了从调查得到的样本数据中得到全国目标量的无偏或近似无偏的估计,需要利用每个样本单元的调查值乘以该单元的权数,因而权数的确定是对目标量进行估计中的一个重要问题。,权数的确定,权数包含初始权数和最终权数。(1)初始权数的确定 初始权数为样本单元入样概率的倒数
3、。表示一个样本单元代表的总体单元数。(2)最终权数的确定 复杂的调查过程中经常会出现样本结构与总体结构不一致的情况。对调查的样本结构进行有效的加权调整。,加权调整的必要性,大规模调查中调查样本与总体经常存在结构性偏差。产生结构性偏差的原因很多,主要原因有:(1)调查前不能进行或来不及事先分层,使得在影响目标量的主要辅助变量上,调查后样本结构与总体结构存在偏差。(2)进行分层多阶段抽样设计时,划分总体的分类指标很多,但由于条件的限制,往往不能完全考虑这些分类指标。比如分层考虑了最主要的指标地区、城乡,没有考虑同样与调查目标量高度相关的年龄、文化程度等因素。,(3)大规模的调查涉及调查单位和人员广
4、泛,层层监督和控制难度加大。(4)大规模抽样调查后期对大量数据的处理会对样本结构产生影响。如调查中无回答产生的问卷失效率较高,剔除失效问卷往往会产生结构性偏差。,例如:,此外还有民族、文化程度、城乡、年龄等因素。,若在与调查目标量高度相关的指标上,调查的样本结构与总体结构有较大的偏差,直接利用调查样本的初始权数进行估计势必影响目标估计量的估计精度。在这种情况下,要想较为准确地推断出总体的有关信息,提高估计的精度,就必须对调查的样本结构进行加权调整。,如何调整权数?,通常采用基于多变量辅助信息、事后分层、非线性口径等校准加权方法对样本结构进行加权调整,以减少样本结构与总体结构的差异性,达到减小抽
5、样方差和偏差,提高估计精度的目的。,三、追加后的估计,为该省全国样本和追加样本的目标参数的总量估计; 为该省全国样本的目标参数的总量估计; 为该省追加样本的目标参数的总量估计。,四、几个问题的说明,1、为什么有些县有样本,而有些县没有落入样本? 由抽样的随机性本身决定。2、为什么不能进行县域的估计? 样本追加方案设计是以省为总体设计,因此追加后的样本仅对省级层面具有代表性,目的是为了进行省级推断。落入各区县的样本对各个区县不具代表性,且样本量过小,进行县域一级的估计会产生较大的误差,与真实情况产生偏离。,3、调查样本量是怎么确定的?为什么有些人群的计算结果不能呈现? 调查样本量是根据抽样技术原理计算得到的,以估计简单随机抽样总体比例P时的样本量为基础。样本量的计算公式为: 式中,r为相对误差限, 为t统计量值。,在95%的置信度下,根据调查结果的普遍情况,以5%作为P的基准值,以50%的相对误差限计算得到n。 同时结合各地分人群样本分布状况,结合可操作性原则最终确定最低样本量为200。样本量低于200的人群估计精度不能保证,相对误差较大,因此得到的结果就不呈现。,谢 谢!,