1、1社会统计学期末复习训练一、单项选择题 (20=210)1.为了解 IT行业从业者收入水平,某研究机构从全市 IT行业从业者随机抽取 800人作为样本进行调查,其中 44%回答他们的月收入在 6000元以上,30%回答他们每月用于娱乐消费在 1000元以上。此处 800人是样本 2.某地区政府想了解全市 332.1万户家庭年均收入水平,从中抽取 3000户家庭进行调查,以推断所有家庭的年均收入水平。这项研究的总体是 332.1 户家庭的年均收入 3.学校后勤集团想了解学校 22000学生的每月生活费用,从中抽取 2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是 220
2、00 名学生的每月生活费用 4.为了解地区的消费,从该地区随机抽取 5000户进行调查,其中 30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在 300元以上。此处 5000户是 样本 5从变量分类看,下列变量属于定序变量的是 产品等级 6下列变量属于数值型变量的是工资收入 7.从含有 N个元素的总体中,抽取 n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为简单随机抽样 8某班级有 60名男生,40 名女生,为了了解学生购书支出,从男生中抽取 12名学生,从女生中抽取 8名学生进行调查。这种调查方法属于分层抽样 9.先将总体按某标
3、志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,这样的抽样方式称为分层抽样10某班级有 100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第 3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93 九名同学进行调查。这种调查方法属于 系统抽样11在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率12在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率 13在频数分布表中,频率是指各组频数与总频数之比 14在频数分布表中,比率是指不同小组的频数之比15如果用一个图形描述
4、比较两个或多个样本或总体的结构性问题时,适合选用环形图 16某地区 2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据 线图17当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图 18在某市随机抽取 10家企业,7 月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这 10家企业 7月份利润额均值为 39.19 19某班级 10名同学期末统计课考试分数分别为76、93、95、80、92、83
5、、88、90、92、72,那么该班考试成绩的中位数是 89 20.某企业职工的月收入水平分为五组:1)1500 元及以下;2)1500-2000 元;3)2000-2500元;4)2500-3000 元;5)3000 元及以上,则 3000元及以上这一组的组中值为 3250元21为了解某行业 12月份利润状况,随机抽取 5家企业,12 月份利润额(单位:万元)分别为 65、23、54、45、39,那么这 5家企业 12月份利润额均值为 45.222某专业共 8名同学,他们的统计课成绩分别为 86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是 88223.某班级学生平均每
6、天上网时间可以分为以下六组:1)1 小时及以下;2)1-2 小时;3)2-3 小时;4)3-4 小时;5)4-5 小时;6)5 小时及以上,则 5小时及以上这一组的组中值近似为 5.5小时24对于左偏分布,平均数、中位数和众数之间的关系是众数中位数平均数25对于右偏分布,平均数、中位数和众数之间的关系是平均数中位数众数26离散系数的主要目的是比较多组数据的离散程度27两组数据的平均数不相等,但是标准差相等。那么 平均数大的,离散程度小28已知某单位平均月收入为 3500元,离散系数为 0.2,那么他们月收入的标准差为 700 29一班学生的平均体重均为 55千克,二班学生的平均体重为 52千克
7、,两个班级学生体重的标准差均为 5千克。那么 二班学生体重的离散程度大30已知某单位平均月收入标准差为 700元,离散系数为 0.2,那么他们月收入的均值为350031. 正态分布中, 值越小,则 离散趋势越小32已知某单位职工平均每月工资为 3000元,标准差为 500元。如果职工的月收入是正态分布,可以判断月收入在 2500元3500 元之间的职工人数大约占总体的 68% 33如果一组数据中某一个数值的标准分值为-1.5,这表明该数值比平均数低 1.5个标准差34某班级学生期末英语考试平均成绩为 75分,标准差为 10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在 65-85
8、之间的学生大约占全班学生的 68%35经验法则表明,当一组数据正太分布时,在平均数加减 2个标准差的范围之内大约有 95%的数据36期中考试中,某班级学生统计学平均成绩为 80分,标准差为 4分。如果学生的成绩是正太分布,可以判断成绩在 72分-88 分之间的学生大约占总体的 95% 37如果一组数据中某个数值的标准分值为 1.8,这表明该数值比平均数高出 1.8个标准差38某班级学生期末统计学考试平均成绩为 82分,标准差为 5分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在 77-87之间的学生大约占全班学生的 68%39经验法则表明,当一组数据正态分布时,在平均数加减 1个标
9、准差的范围之内大约有 68%的数据40用样本统计量的值直接作为总体参数的估计值,这种方法称为点估计41用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为区间估计42某单位对该厂第一加工车间残品率的估计高达 10%,而该车间主任认为该比例( )偏高。如果要检验该说法是否正确,则假设形式应该是 : 0.1; : 0.1 0H143某单位对该厂第一加工车间残品率估计高达 13%,而该车间主任认为该比例( )偏高。如果要检验该说法是否正确,则假设形式应该为 : 0.13; : 0.130144在假设检验中,不拒绝虚无假设意味着没有证据证明虚无假设是错误的45在假设检验中,虚无假设和备择
10、假设有且只有一个成立46在假设检验中,如果所计算出的 P值越大,那么检验的结果 越不显著47在假设检验中,如果所计算出的 P值越小,那么检验的结果 越显著48根据一个具体的样本求出的总体均值 90%的置信区间以 90%的概率包含总体均值49根据一个样本均值求出的 90%的置信区间表明总体均值有 90%的概率会落入该区间内 50根据一个具体的样本求出的总体均值 95%的置信区间以 95%的概率包含总体均值351用于说明回归方程中拟合优度的统计量主要是判定系数52两个定类变量之间的相关分析可以使用 系数 53判断下列哪一个不可能是相关系数 1.254判断下列哪一个不可能是相关系数 1.32 55如
11、果收入与支出之间的线性相关系数为 0.92,那么二者之间存在着高度相关56如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着高度相关57. 某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适 回归58在回归方程中,若回归系数等于 0,这表明自变量 x对因变量 y的影响是不显著的59对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为 0.8,这表明 消费每增加 1元,收入增加 0.8元60在因变量的总离差平方和中,如果回归和所占的比例越大,则两变量之间相关程度越高 61回归平方和(SSR)反映 y的总变
12、差中由于 x与 y之间的线性关系引起的 y的变化部分62对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间相关程度越小 63对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间相关程度越大64在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间相关程度越低65方差分析的目的是研究各分类自变量对数值型因变量的影响是否显著66下面哪一项不是方差分析中的假定各总体的方差等于 067下列哪种情况不适合用方差分析年龄对收入的影响68从两个总体中各选取了 6个观察值,得到组间平方和为 234,组内平方和为 484,则
13、组间方差和组内方差分别为 234,48.4 69从两个总体中共选取了 8个观察值,得到组间平方和为 432,组内平方和为 426,则组间均方和组内均方分别为 432,7170在方差分析中,某一水平下样本数据之间的误差称为组内误差4二、名词解释 1离散变量与连续变量 P10(1)离散变量 如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是 0,1,2,3。离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是 1个、2 个、3 个等,而不能是 1.3个、2.
14、5 个等。 (2)连续变量 如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是 1岁整,也可以是 1.2岁、1.45 岁、2.544 岁等。 2总体与样本 P11总体是构成它的所有个体的集合,个体则是构成总体的最基本的单位。样本就是从总体中按照一定方式抽取的一部分个体的集合。 例如,要从某省所有育龄妇女中抽取 1000人进行调查进行调查,那么,该省所有育龄妇女就是研究总体,其中每一位育龄妇女就是个体,而抽取
15、出的 1000名育龄妇女就构成为了该总体的一个样本。 3抽样单位与抽样框 P11抽样单位就是一次直接的抽样所使用的基本单位。抽样单位有时与构成总体的个体是相同的,有时是不同的。例如对育龄妇女的调查,当直接抽取育龄妇女时,两者是相同的;当我们从总体中一次直接抽取户时,以抽中的户中的育龄妇女作为样本时,抽样单位(户)与个体(育龄妇女)就不相同了。 抽样框是指一次直接抽样时样本中所有抽样单位的名单。例如,从某校中抽取 200名学生进行就业观的调查,那么这所学校的所有学生的名单就是这次抽样的抽样框。但是,当我们先抽取班级,以抽中班级中的所有学生作为样本时,这所学校所有班级的名单就是这次抽样的抽样框。
16、4普查与抽样调查 P125(1)普查 普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。 (2)抽样调查 抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。根据抽取样本的方法不同,抽样调查可以分为:概率抽样和非概率抽样。 5普查 P12普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。6概率抽
17、样 P13概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。 7众数 P681、众数众数是一组数据中出现频数最多的数值,用 Mo表示。例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。8中位数 P732、中位数中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用 Me表示。中位数处于中间位置,前后每部分均包括 50%的数据,而且前面部分小于中位数、后面部分大于中位数。例如,在职工收入水平差异比较大
18、的单位,要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。9均值 P784、均值6均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。因而,我们说均值是集中趋势最主要的测量值。10方差与标准差 P956、方差方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。7
19、 、标准差标准差是方差的平方根,用于测量数值型数据离散趋势。标准差克服了方差面临的夸大离散程度、不容易解释的问题。与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。在实际中,标准差使用更为普遍。11离散系数 P1008、离散系数离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。离散系数是测量数据离散程度的相对指标,通常用 Vs 适用于数值型数据离散程度的测量。12正态分布 P103 1、正态分布连续性随机变量中重要的分布是钟型概率分布,就是正态分布(normal distribution) ,也称为常态分布,是一种连续型随机变量的概率分布。学生的身高、体重、成绩等都是正
20、态分布常见的例子,很高、很矮的都比较少,多数处于正常身高;很胖、很瘦的也较少,多数是正常体重;成绩很高和很低的是少数,多数同学属于中等成绩。713参数与统计量 P127,P128 4、参数与统计量参数是研究者想要了解的总体的某种特征值。通常情况下,我们关心的总体的参数主要有总体平均数() 、标准差() 、比例()等。统计量是根据样本数据计算出来的一个量。样本统计量主要有样本平均数(X) 、样本标准差(S) 、样本比例( P)等。与参数不同,统计量是根据样本数据计算出来的、有关样本的特征值,因而统计量是知道的、可以计算的,是估计总体参数的依据。14抽样分布 P1295、抽样分布抽样分布是指样本统
21、计量的概率分布,它是在重复选取容量为 n 的样本时,由每个样本计算出来的统计量数值的相对频数分布。例如样本均值的分布、样本比例分布等。15. 中心极限定理 P130 1、中心极限定理中心极限定理具体内容为:不论总体分布是否服从正态分布,从均值为 、方差为 2的总体中,抽取容量为 n 的随机样本,当 n 充分大时(通常要求 n30) ,样本均值的抽样分布近似服从均值为 、方差为 2/n 的正态分布。X16区间估计 P134区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能性大小。也就是要在给定 值的前提下,去寻找两
22、个统计量 和 ,使其满足12上述不等式。从而知道 落在区间 内的概率为 ,故也称 为12(,)1(,)的区间估计。17置信水平 P135置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。18. 假设检验 P140假设检验是首先对总体参数建立一个假设,然后根据样本信息区检验这一8假设是否正确。假设检验和参数估计都是建立在抽样分布的基础上。例如,某品牌灯泡的寿命 X 服从正态分布(,125),厂方说它的平均工作寿命是 1800 小时。随机测试 16 次,得到的平均工作温度是 1750 度。样本结果与厂方所说的是否有显著差异?厂方的说法是否可以接受?这就是假设检验
23、要解决的问题。19. 虚无假设与替换假设 P140 P141将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设,通常用 表示。如果虚无假设不成立,我们就拒绝虚无假设,0H需要在另个一假设中进行选择,这就是替换假设,替换假设通常用 表示。1H上面例子中,虚无假设为: :=1800 替换假设为: : 1800a01H20二维表 P152二维表二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。例如,对某单位职工学历进行分析,随机抽取 262 名进行调查,性别、学历二维表如下所示:对某项政策态度的调查结果
24、男 女 合计初中及以下 24 32 56高中 35 40 75专科 34 21 55本科及以上 54 22 76合计 147 115 26221误差减少比例 P158 1、误差减少比例在预测变量 Y 的值时,知道变量 X 的值时所减少的误差( )与总1E2误差 的比值称为误差减少比例(proportional reduction of error) ,简称1EPRE。取值范围为 01, PRE 值越大,说明用变量 X 去预测变量 Y 是能够减少的误差所占的比例越大,即变量 X 与变量 Y 之间的相关性越大。9公式为:PRE= 12E例如,PRE=0.7,说明以变量 X 预测变量 Y 时能减少
25、70%的误差,说明二者之间关系较强。22散点图 P165 散点图散点图是在坐标系中,用 X 轴表示自变量 x,用 Y 轴表示因变量 y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。散点图是描述变量关系的一种直观方法,从散点图中直观的看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。23相关系数 P170 相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的相关关系时我们称之为简单相关系数。总体相关系数用 表
26、示,样本相关系数一般用 r 表示。24最小二乘法 P180 对于变量 x 和 y 的观察值,有多条直线可以描述,其中距离各观测值最近的一条直线对 x 与 y 之间的关系的描述与实际的误差最小。最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来求参数 合 的方法,即01使得: 最 小2102iini xyy25独立样本与配对样本 P207,P203独立样本独立样本(independent sample)是指我们得到的样本总体之间是相互独立的。比如我们要研究一个地区百姓的生活水平,要同时考察家庭的子女数 x,父母的教育水平 y,这就可以看做是独立样本。两个样本容量 和 都小于 30,或
27、其中一个小于 30 的两独立样本为独立小样本。1n2当总体标准差 和 未知时,独立小样本均值之差的检验采用 t 检验。12配对样本配对样本(matched sample)就是一个样本中的数据与另一个样本中10的数据相对应的两个样本。配对样本可以消除由于样本指定的不公平造成的差异。在选择配对样本时,可以将两种同质对象分别接受两种不同的处理。26. 组内均方 P218 组内误差的自由度为全部观察值个数减去因素水平个数,即 nk ,其中 n 为全部观察值个数,k 为因素水平的个数。SSE 的均方记作 MSE,称为组内均方。其计算公式为:MSE= 自 由 度组 内 平 方 和 knSE三、简答题 1举
28、例简要说明社会研究过程。 P4系统、完整的社会研究通常遵循着比较固定的过程,一般包括五个主要过程:提出问题、形成假设、收集数据、分析数据、检验假设。 1、提出问题:是社会研究的第一步,研究者应首先明确要做什么,或者说进行研究的目的是什么。 2、形成假设:研究问题往往是无法直接检验的,而是要把研究问题形成假设才可以进行检验。也就是对两个变量间关系进行尝试性回答。 3、收集数据:是社会研究的关键步骤。 4、分析数据:对收集的原始数据进行系统的审核、整理、归类、统计和分析。 5、检验假设:完成对数据的统计分析后,我们要开始进行最后一步根据对数据的分析来检验我们之前的假设和理论。2按测度水平,变量可分
29、为哪几类?并举例说明。 P7变量分类(按测度水平): (1)定类变量 当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其它特征时,这种变量称为定类变量。定类变量是最低层次的变量。在社会调查中,定类变量有很多,如性别、婚姻状态、民族、地区、职业.等。 性别可以分为男、女两类,我们可以用 1表示男性,用 2表示女性。民族可以分为汉族和少数民族,我们可以用 1表示汉族,用 2表示少数民族。 (2)定序变量 当变量值的含义不仅表示个体的不同类别,还可以区分个体之间大小、程度等序次差异时,这种变量称为定序变量。社会调查中,受教育程度是定序变量,可以分为文盲、小学、初中、高中、大专及以上等;人们对某种制度的态度可以分为非常同意、同意、中立、不同意、非常不同意等。 我们也可以用不同的数值 1、2、3 等表示不同的类别,但是这时候 1、2、3 等是包含大小的比较意义的,例如,用“1”表示文盲,用“2”表示小学,用“3”表示初中,用“4”表示高中,用“5”表示大专及以上。此处,数字 1、2 等不仅仅表示文化