社会统计学题库要点.doc

上传人:坚持 文档编号:2289542 上传时间:2019-05-05 格式:DOC 页数:17 大小:352.50KB
下载 相关 举报
社会统计学题库要点.doc_第1页
第1页 / 共17页
社会统计学题库要点.doc_第2页
第2页 / 共17页
社会统计学题库要点.doc_第3页
第3页 / 共17页
社会统计学题库要点.doc_第4页
第4页 / 共17页
社会统计学题库要点.doc_第5页
第5页 / 共17页
点击查看更多>>
资源描述

1、1.为了解 IT 行业从业者收入水平,某研究机构从全市 IT 行业从业者随机抽取 800 人作为样本进行调查,其中 44%回答他们的月收入在 6000 元以上,30%回答他们每月用于娱乐消费在 1000 元以上。此处 800 人是( A样本2在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为( C. 累积频率 3离散系数的主要目的是( D比较多组数据的离散程度4经验法则表明,当一组数据正态分布时,在平均数加减 1 个标准差的范围之内大约有 B. 68%的数据 5在某市随机抽取 10 家企业,7 月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、2

2、3.9、25.0、26.9、29.0,那么这 10 家企业 7 月份利润额均值为( A. 39.19 6用样本统计量的值直接作为总体参数的估计值,这种方法称为( A点估计 7某单位对该厂第一加工车间残品率的估计高达 10%,而该车间主任认为该比例( )偏高。如果要检验该说法是否正确,则假设形式应该为(A : 0.1; : 中位数众数34两组数据的平均数不相等,但是标准差相等。那么 ( C. 平均数大的,离散程度小35在假设检验中,如果所计算出的 P 值越小,那么检验的结果( A )A. 越显著36如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着 A

3、高度相关37回归平方和(SSR)反映了 y 的总变差中( A由于 x 与 y 之间的线性关系引起的 y 的变化部分38根据一个具体的样本求出的总体均值 90%的置信区间( A以 90%的概率包含总体均值39在假设检验中,虚无假设和备择假设(C有且只有一个成立40在方差分析中,某一水平下样本数据之间的误差称为( A. 组内误差41.学校后勤集团想了解学校 22000 学生的每月生活费用,从中抽取 2200 名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是( A22000 名学生42从变量分类看,下列变量属于定序变量的是( C. 产品等级 43在频数分布表中,比率是指 ( D.

4、不同小组的频数之比44某地区 2001-2010 年人口总量(单位:万人)分别为 98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据( D. 线图45根据一个样本均值求出的 90%的置信区间表明(C总体均值有 90%的概率会落入该区间内 46判断下列哪一个不可能是相关系数( C1.32 47期中考试中,某班级学生统计学平均成绩为 80 分,标准差为 4 分。如果学生的成绩是正太分布,可以判断成绩在 72分-88 分之间的学生大约占总体的( A95% 48. 正态分布中, 值越小,则( A. 离散趋势越小49下面哪一项不是方差分析中的假定

5、(D各总体的方差等于 050对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为 0.8,这表明( A )A. 收入每增加 1 元,消费增加 0.8 元51.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,最后将所有子样本合起来作为总样本,这样的抽样方式称为( D. 分层抽样52在频数分布表中,某一小组中数据个数占总数据个数的比例称为( A频率53某专业共 8 名同学,他们的统计课成绩分别为 86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是 ( D. 8854经验法则表明,当一组数据正太分布

6、时,在平均数加减 2 个标准差的范围之内大约有 ( C. 95%的数据55残差平方和(SSE)反映了 y 的总变差中( B除了 x 对 y 的现有影响之外的其他因素对 y 变差的影响56. 某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适( A. 回归分析 57用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为( B区间估计58在假设检验中,虚无假设和备择假设( C有且只有一个成立59方差分析的目的是( D研究各分类自变量对数值型因变量的影响是否显著60用于说明回归方程中拟合优度的统计量主要是(D. 判定系数61.为了解某地区的消费,从该地区随机抽取 50

7、00 户进行调查,其中 30%回答他们的月消费在 5000 元以上,40%回答他们每月用于通讯、网络的费用在 300 元以上。此处 5000 户是( C. 样本62当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形( A环形图 63如果一组数据中某一个数值的标准分值为 1.8,这表明该数值( D比平均数高出 1.8 个标准差64离散系数的主要目的是( D比较多组数据的离散程度65某班级学生期末统计学考试平均成绩为 82 分,标准差为 5 分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在 77-87 之间的学生大约占全班学生的( A. 68%66已知某单位平均月收入标准差为

8、 700 元,离散系数为 0.2,那么他们月收入的均值为(C350067根据一个具体的样本求出的总体均值 95%的置信区间( A以 95%的概率包含总体均值68在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间( B相关程度越低69从两个总体中共选取了 8 个观察值,得到组间平方和为 432,组内平方和为 426 组间均方和组内均方分别 A432,7170对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间(B相关程度越小 71某班级有 100 名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3

9、 名的学生,后面依次选出第 13、23、33、43、53、63、73、83、93 九名同学进行调查。这种调查方法属于 D. 系统抽样72.某班级学生平均每天上网时间可以分为以下六组:1)1 小时及以下;2)1-2 小时;3)2-3 小时;4)3-4 小时;5)4-5小时;6)5 小时及以上,则 5 小时及以上这一组的组中值近似为( C. 5.5 小时73对于左偏分布,平均数、中位数和众数之间的关系是( C众数中位数平均数74一班学生的平均体重均为 55 千克,二班学生的平均体重为 52 千克,两个班级学生体重的标准差均为 5 千克。那么 ( B )B. 二班学生体重的离散程度大75在假设检验中

10、,如果所计算出的 P 值越大,那么检验的结果( A )A. 越不显著76如果收入与支出之间的线性相关系数为 0.92,而且二者之间具有统计显著性,那么二者之间存在着(A高度相关77为了解某行业 12 月份利润状况,随机抽取 5 家企业,12 月份利润额(单位:万元)分别为 65、23、54、45、39,那么这 5 家企业 12 月份利润额均值为( B. 45.278在假设检验中,不拒绝虚无假设意味着( D没有证据证明虚无假设是错误的79某单位对该厂第一加工车间残品率估计高达 13%,而该车间主任认为该比例( )偏高。如果要检验该说法是否正确,则假设形式应该为( A : 0.13; : =30)

11、,样本均值的抽样分布近似服从均值 u,方差为 a 的平方/n21. 假设检验 P140 答:首先先对总体参数建立一个假设,然后根据样本信息去检验这一假设是否正确。22均值 P78 答:是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数。23. 虚无假设与替换假设 P140 答:我们将需要通过样本信息来推断其正确与否的命题称为虚无假设。 如果虚无假设不成立,我们就拒绝虚无假设,需要在另一个假设中进行选择,这就是替换假设24置信水平 P135 答:就是将构造置信区间的步骤重复多次,置信区间包含总体参数真值的次数所占的比例。25离散系数 P100 答:是一组数据的标准差与该组数据均值

12、之比,称为变量系数。26离散变量与连续变量 P10 答:如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。如果一个变量的变量值是连续不断的,可以取无线多个数值的,这种变量称为连续变量。27众数 P68 答:是一组数据中出现频数最多的数值,用 Mo 表示2调查方法主要包括哪几种?简要说明各种方法的优缺点。答:(一)普查(census): 1.为特定目的专门组织的非经常性全面调查,如人口普查、工业普查等 2.通常是一次性或周期性的 3.一般需要规定统一的标准调查时间 4.数据的规范化程度较高 5.应用范围比较狭窄,只能调查一些最基本、最一般的现象 (二)抽样调查 1. 从总体中随

13、机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 。 2. 具有经济性、时效性强、适应面广、准确性高等特点。 (三)重点调查 1.重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。 2 重点单位:着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。 (四)典型调查 典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。有人也认为它是“目的抽样” ,以若干

14、具有代表性的单位为样本。3. 什么是简单一元线性回归分析?其作用是什么? 答:什么是回归? 回归是由英国著名统计学家 Francis Galton在 19 世纪末期研究孩子及其父母的身高时提出来的。Galton 发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们父母那样高。比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。 Galton 把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他给出的研究两个数值变量之间数量关系的方法称为回归分析。 什么是回归分析? 回归分析是对具有相关关系的变量拟合数学方程,通过一个或一些变量的变化解释另一变

15、量变化的方法。 如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。10条形图和直方图有什么区别? 答:条形图是用宽度相同的条形的高度或长短来表示数据变动的图形;条形图有单式、复式等形式;在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率;绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。 直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。对于定类变量和定序变量的分组,矩形(或长条)的宽度是没有意义的,各矩形之间要留出一定的空隙;对于定距变量(和定比变量)的分组,矩形的宽度表示各组组距,

16、各矩形之间一般不留空隙。在等距分组的条件下,很显然各矩形的面积与其高度成正比。因此,各矩形的面积同样可以用来表示各组的频数或频率,而且看起来更形象直观。如果取各矩形的总面积为 1,各矩形的面积必定等于各组的相对频数。 直方图是用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布。在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram);直方图下的总面积等于 1。直方图下的面积之和等于 1。 直方图与条形图的区别: 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。 直方图是

17、用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。 直方图的各矩形通常是连续排列,条形图则是分开排列。15SPSS 主要有哪些功能? 答:SPSS 是软件英文名称各单词的首字母,原意为 Statistical Package for the Social Sciences,即“社会科学统计软件包” 。但是随 SPSS 产品服务领域的扩大和服务功能的深化,SPSS 公司已于 2000 年正式将其英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案” 。 SPSS 现在

18、的最新版本为 16.0。它是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于 20 世纪 60 年代末研制,同时成立了 SPSS 公司,并于 1975 年在芝加哥组建了 SPSS 总部。 SPSS 最突出的特点就是操作界面极为友好,输出结果美观漂亮,它使用 Windows 的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的 Windows 操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。是非专业统计人员的首选统计软件。 SPSS 采用类似 EXCEL 表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其

19、统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。对于熟悉老版本编程运行方式的用户,SPSS 还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的 SPSS 程序。极大的方便了中、高级用户。17统计表主要由哪几部分构成? 答:主要是由标题(总标题和标目) 、横行和纵栏和数字资料三部分构成。 统计表一般都包括总标题、横标题、纵标题、数字资料、单位、制表日期。总标题是指表的名称,它要能简单扼要地反映出表的主要内容,横标题是指每一横行内数据的意义;纵标题是指每一纵栏内数据的意义;数字资料是指各空格内按要求填写的数字;单位是指表格

20、里数据的计量单位。在数据单位相同时,一般把单位放在表格的左上角。如果各项目的数据单位不同时,可放在表格里注明。制表日期放在表的右上角,表明制表的时间。各种统计表都应有“备考”或“附注”栏,以便必要时填入不属于表内各项的事实或说明。四、计算题 (每题 15 分,共 30 分) 1.某校社会学专业同学统计课成绩如下表所示。社会学专业同学统计课成绩表学号 成绩 学号 成绩 学号 成绩101023 76 101037 75 101052 70101024 91 101038 70 101053 88101025 87 101039 76 101054 93101026 78 101040 90 101

21、055 62101027 85 101041 76 101056 95101028 96 101042 86 101057 95101029 87 101043 97 101058 66101030 86 101044 93 101059 82101031 90 101045 92 101060 79101032 91 101046 82 101061 76101033 80 101047 80 101062 76101034 81 101048 90 101063 68101035 80 101049 88 101064 94101036 83 101050 77 101065 83要求:(

22、1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。(2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。答案: (1)考试成绩由低到高排序: 62,66,68,70,70,75,76,76,76,76,76,77,78,79, 80,80,80,81,82,82,83,83,85,86,86,87,87,88, 88,90,90,90,91,91,92,93,93,94,95,95,96,97, 众数:76 中位数:83 平均数: =(62+66+96+97)42 =349042 =83.095 (2) 按成绩 频数 频率(%) 向上累积 向下累积 分组 频数 频率

23、(%) 频数 频率(%)60-69 3 7.143 3 7.143 42 100.000 70-79 11 26.190 14 33.333 39 92.857 80-89 15 35.714 29 69.048 28 66.667 90-99 13 30.952 42 100.000 13 30.952 2为研究某种商品的价格(x)对其销售量(y)的影响,收集了 12 个地区的有关数据。通过分析得到以下结果:方差分析表变差来源 SS df MS F Sig.回归 A B C D 0.000残差 205158.07 E F 总计 1642866.67 11 要求:(1)计算上面方差分析表中 A

24、、B、C、D、E、F 处的值。(2)商品销售量的变差中有多少是由价格的差异引起的?(3)销售量与价格之间的相关系数是多少?答案: (1) 方差分析表: A=1642866.67-205158.07=1437708.60 (SS 总计-SS 残差)B=1,E=11-1=10(总计-B)C=A/B=1437708.60/1=1437708.60F=205158.07/10=20515.807D=C/F=1437708.60/20515.807=70.078变差来源 SS df MS F Sig.回归 1437708.60 1 1437708.60 70.078 0.000残差 205158.07

25、10 20515.807 总计 1642866.67 11 (2) 即商品销售量的变差中有 87.51%是由价格引起的。 (3) 销售量与价格之间的相关系数是 0.93553.某公司招聘职员时,要求对职员进行两项基本能力测试。已知,A 项测试中平均分数为 90 分,标准差是 12 分;B 考试中平均分数为 200 分,标准差为 25 分。一位应试者在 A 项测试中得了 102 分,在 B 项测试中得了 215 分。若两项测试的成绩均服从正太分布,该位应试者哪一项测试更理想?答案: 该测试者在 A 项测试中比平均分高出 1 个标准差,而在 B 项测试中比平均分高出 0.6 个标准差。因而,可以说

26、该测试者 A 项测试比较理想。4某公司欲了解广告费用 x 对销售量 y 的影响,收集了 20 个地区的数据,并对 x、y 进行线性回归分析,得到:方程的截距为 364,回归系数为 1.42,回归平方和 SSR=1602708.6,残差平方和 SSE=40158.07。要求:(1)写出广告费用 y 与销售量程 x 之间的线性回归方程。(2)假如广告费用投入 50000 元,根据回归方程估计商品销售量。(3)计算判定系数 ,并解释它的意义。2R答案: (1)y=364+1.42x (2)当 x=50000 时,y=364+1.4250000=71364 (3) = 1602708.6(160270

27、8.6+40158.07) = 1602708.61642866.67 =0.97556 表明在商品销售量的总变差中,有 97.6%可以由回归方程解释,说明回归方程的拟合程度很高。 5.为估计每个网络用户每天上网的平均时间是多少,抽取了 225 个网络用户的简单随机样本,得到样本均值为 6.5 个小时,样本标准差为 2.5 个小时。(1)试用 95%的置信水平,计算网络用户每天平均上网时间的置信区间。(2)在所调查的 225 个网络用户中,年龄在 20 岁以下的用户为 90 个。以 95%的置信水平,计算年龄在 20 岁以下的网络用户比例的置信区间。注: 96.1Z025.答案: (1)已知:

28、 网络用户每天平均上网时间的 95%的置信区间为: 即(6.17,6.83) (2)样本比例: 年龄在 20 岁以下的网络用户比例的 95%的置信区间为: 即(33.6%,46.4%)6.某企业使用 3 种方法组装一种新的产品,为确定哪种方法生产效率最高,随机抽取 30 名工人,并指定每人使用其中的一种方法。通过对每个工人生产的产品数进行分析得到下面的方差分析表。请完成方差分析表。变差来源 SS df MS F Sig.组间 210 0.000组内 3836 总计 29 答案: 变差来源 SS df MS F Sig.组间 210*2=420 3-1=2 210 210/142.07=1.47

29、8 0.000组内 3836 30-3=27 3836/27=142.07 总计 420+3836=4256 29 7.甲单位人均月收入 4500 元,标准差 1200 元。乙单位月收入分布如下所示。乙单位月收入分布表按收入分组(元) 人数(个)3000 分以下 12030004000 42040005000 54050006000 4206000 以上 300合计 1800要求:(1)计算乙单位员工月收入的均值和标准差。(2)比较甲单位和乙单位哪个单位员工月收入的离散程度更大?(提示:使用离散系数)答案:(1)乙单位员工月收入均值:=(2500120+3500420+4500540+5500

30、420+6500300)/1800=4700方差: 18030)47650(42)705( 54)7045(2312NX2k1i2i if=1360000标准差为: 19.61302(2)根据离散系数公式: ,得到:平 均 值标 准 差sV甲单位员工月收入的离散系数: 67.20451XS甲甲甲s乙单位员工月收入的离散系数: 481.9.乙乙乙V,所以甲单位员工月收入的离散程度更大乙甲 Vs8某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。收集了过去 12 年的有关数据,通过分析得到:方程的截距为 363,回归系数为 1.42,回归平方和 SSR=1600,残差平方和 SSE=450。

31、要求:(1)写出销售量 y 与广告费用 x 之间的线性回归方程。(2)假如明年计划投入广告费用为 25 万元,根据回归方程估计明年汽车销售量。(3)计算判定系数 ,并解释它的意义。2R答案:(1) 线性回归方程:y=363+1.42x(2) 当 x=25 时,y=363+1.4225=398.5(3)= 1600(1600+450) =0.78表明在商品销售量的总变差中,有 78%可以由回归方程解释,说明回归方程的拟合程度较好。9.某行业管理局所属 40 个企业 2011 年产品销售额数据如下所示。40 个企业 2011 年产品销售额企业编号 销售额 企业编号 销售额 企业编号 销售额 企业编

32、号 销售额1 152 11 105 21 103 31 1362 105 12 123 22 103 32 1463 117 13 116 23 137 33 1274 97 14 115 24 138 34 1355 124 15 110 25 91 35 1176 119 16 115 26 118 36 1137 108 17 100 27 120 37 1048 88 18 87 28 112 38 1259 129 19 107 29 95 39 10810 115 20 119 30 142 40 126要求:(1)对 2011 年销售额按由低到高进行排序,求出众数、中位数和平均数

33、。(2)如果按照规定,销售额在 125 万元以上的为先进企业,115 万-125 万之间的为良好企业,105 万-115 万之间的为一般企业,105 万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。答案:(1) 销售额由低到高排序:87,88,91,95,97,100,103,103,104,105,105,107,108,108,110,112,113,115,115,115116,117,117,118,119,119,120,123,124,125,126,127,129,135,136,137,138,142,146,152众数位:115中位数:(115+116)/2=115.5平均数:=(87+88+91+95+146+152)/40=4647/40=116.175(2) 频数分布表如下:向上累积 向下累积 按销售额分组 频数 频率(%)频数 频率(%) 频数 频率(%)105 万元以下 9 22.5% 9 22.5% 40 100%105-115 万元 8 20% 17 42.5% 31 77.5%115-125 万元 12 30% 29 72.5% 23 57.5%

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 试题真题

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。