1、第一章 导论1.1(1)数值型变量。(2)分类变量。(3)离散型变量。(4)顺序变量。(5)分类变量。1.2(1)总体是该市所有职工家庭的集合;样本是抽中的 2000 个职工家庭的集合。(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的 2000 个职工家庭的年人均收入。1.3(1)总体是所有 IT 从业者的集合。(2)数值型变量。(3)分类变量。(4)截面数据。1.4(1)总体是所有在网上购物的消费者的集合。(2)分类变量。(3)参数是所有在网上购物者的月平均花费。(4)参数(5)推断统计方法。第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经
2、存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料” 。 使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总
3、体参数的置信区间,就使用概率抽样。非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。4. 自填式、面方式、电话式调查个有什么利弊?自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的
4、压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。5.请举出(或设计)几个实验数据的例子。不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。6.你认为应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对
5、于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。第三章 数据的图表搜集一、思考题3.1 数据
6、的预处理包括哪些内容?答:审核、筛选、排序等。3.2 分类数据和顺序数据的整理和显示方法各有哪些?答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。3.3 数值型数据的分组方法有哪些?简述组距分组的步骤。答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般 515 组;第二步,确定各组组距,宜
7、取 5 或 10 的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。3.4 直方图和条形图有何区别?答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2 直方图各矩形连续排列,条形图分开排列;3 条形图主要展示分类数据,直方图主要展示数值型数据。3.5 绘制线图应注意问题?答:时间在横轴,观测值绘在纵轴。一般是长宽比例 10:7 的长方形,纵轴下端一般从 0 开始,数据与 0 距离过大的话用折断符号折断。3.6 饼图和环形图的不同?答:饼图只能显示一个样
8、本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞” ,每个样本或总体的数据系类为一个环。3.7 茎叶图比直方图的优势,他们各自的应用场合?答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。3.8 鉴别图标优劣的准则?答:P65 明确有答案,我就不写了。3.9 制作统计表应注意的问题?答:1,合理安排统计表结构;2 表头一般包括表号,总标题和表中数据的单位等内容;3 表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4 在使用统
9、计表时,必要时可在下方加注释,注明数据来源。第 4 章 数据的概括性度量4.1(1)众数: 。10M中位数: , 。5.2n中 位 数 位 置 102eM平均数: 。6.910105421 nxni(2) , 。.4QL位 置 .27LQ, 。573U位 置 U(3) 2.49156 10)6.915().4()6.94().()( 22222nxsnii(4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。4.2(1)从表中数据可以看出,年龄出现频数最多的是 19 和 23,所以有两个众数,即和 。90M230将原始数据排序后,计算的中位数的位置为: ,第 13 个位1325n中 位
10、数 位 置置上的数值为 23,所以中位数 。23eM(2) , 。5.642nQL位 置 9)1(5.019LQ, 。7183位 置U 56.2-7.)(U(3)平均数 。4256025391nxni(4)65.120 1)23()7()1()4()( 22212xsii偏态系数: 。08.165.)2(43ixSK峰态系数: 。7.065.)2()( )12(4154 ii x(5)分析:从众数、中位数和平均数来看,网民年龄在 2324 岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,由于偏态系数大于 1,所以偏斜程度很大。由于峰态系数为正值,所以
11、为尖峰分布。4.3(1)茎叶图如下:茎 叶 数据个数5 5 16 6 7 8 37 1 3 4 8 8 5(2) 。79698.7. x。714.08.1)8.().()6.()5.( 2222 s(3)由于两种排队方式的平均数不同,所以用离散系数进行比较。第一种排队方式: ; 。由于 ,表明第一种274.09.1v102.4.2v21v排队方式的离散程度大于第二种排队方式。(4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。4.4(1) 。1.2743081nxni, 。5.2中 位 数 位 置 5.273eM(2) , 。74位 置LQ968LQ, 。.30
12、位 置U .214U(3) 。7.130.1)(2nxsnii4.5(1) 。41.9306152035总 产 量总 成 本甲 企 业 的 平 均 成 本.281总 产 量总 成 本乙 企 业 的 平 均 成 本原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。4.6(1)平均数计算过程见下表:按利润额分组组中值 iM企业数 ifif200300 250 19 4750300400 350 30 10500400500 450 42 18900500600 550 18 9900600 以上 650 11 7150合计 120 51200
13、。67.421051nfMxkii标准差计算过程见下表:按利润额分组 组中值 i企业数 if2)(xMiiifx2)(200300 250 19 31212.3 593033.5300400 350 30 5878.3 176348.7400500 450 42 544.3 22860.1500600 550 18 15210.3 273785.2600 以上 650 11 49876.3 548639.2合计 120 102721.5 1614666.7。48.16207.164)(12nfxMski ii(2)偏态系数和峰态系数的计算过程见下表:按利润额分组 组中值 i企业数 ifiifx
14、M3)(iifx4)(200300 250 19 -104771226.5 18509932589.2 300400 350 30 -13520652.3 1036628411.8 400500 450 42 533326.9 12442517.1 500600 550 18 33765928.7 4164351991.6 600 以上 650 11 122527587.6 27364086138.8 合计 120 38534964.4 51087441648.4 偏态系数: 。203.48.1620359)( 331 nsfxMSKki ii峰态系数: 。68.7)( 441 sfxki i
15、i4.7(1)两位调查人员所得到的平均身高应该差不多相同,因为均值的大小基本上不受样本大小的影响。(2)两位调查人员所得到的身高的标准差应该差不多相同,因为标准差的大小基本上不受样本大小的影响。(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。 4.8 (1)要比较男女学生体重的离散程度应该采用离散系数。女生体重的离散系数为,男生体重的离散系数为 ,所以女生的体重差异大。.05女v 08.65男v(2)男生: (磅) , (磅) ;132.6x 12s女生: (磅) , (磅) ;0.(3)假定体重为对称分布,根据经验法则,在平均数加减 1 个标准差
16、范围内的数据个数大约为 68%。因此,男生中大约有 68%的人体重在 55kg 到 65kg 之间。(4)假定体重为对称分布,根据经验法则,在平均数加减 2 个标准差范围内的数据个数大约为 95%。因此,女生中大约有 95%的人体重在 40kg 到 60kg 之间。4.9 通过计算标准分数来判断:; 。150Asxz 5.04Bsxz该测试者在 A 项测试中比平均分数高出 1 个标准差,而在 B 项测试中只高出平均分数 0.5个标准差,由于 A 项测试的标准分数高于 B 项测试,所以 A 项测试比较理想。4.10 通过标准分数来判断,各天的标准分数如下表:日期 周一 周二 周三 周四 周五 周
17、六 周日标准分数 Z 3 -0.6 -0.2 0.4 -1.8 -2.2 0周一和周六两天失去了控制。4.11(1)应该采用离散系数,因为它消除了不同组数据水平高低的影响。(2)成年组身高的离散系数: ;024.17.sv幼儿组身高的离散系数: ;35.s由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。4,11(1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。(2)下表给出了用 Excel 计算一些主要描述统计量。方法 A 方法 B 方法 C平均 165.6 平均 128.73 平均 125.53中位数 165
18、中位数 129 中位数 126众数 164 众数 128 众数 126标准差 2.13 标准差 1.75 标准差 2.77极差 8 极差 7 极差 12最小值 162 最小值 125 最小值 116最大值 170 最大值 132 最大值 128从三种方法的集中趋势来看,方法 A 的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为: ,013.65.2Av, 。方法 A 的离散程度最小。因此应选014.73.285Bv 02.53.7Cv择方法 A。4.12(1)用方差或标准差来评价投资的风险。(2)从直方图可以看出,商业类股票收益率的离散程度较小,说明投
19、资风险也就较小。(3)从投资风险角度看,应该选择风险较小的商业类股票。当然,选择哪类股票还与投资者的主观判断有很大关系。第六章 统计量与抽样分布 是 一 个 统 计 量 。,数 数 , 则 称 函, 不 依 赖 于 任 何 未 知 参,样 本 构 造 一 个 函 数 的 一 个 样 本 , 如 果 由 此中 抽 取 的 容 量 为是 从 总 体,、 设 n21 n21XTTn 由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。构造统计量的主要目的就是对总体的未知参数进行推断,如果统计量中
20、含有总体的未知参数就没办法再对参数进行统计推断。2、 是统计量, 在 不是统计量。21T。43T。称 为 次 序 统 计 量 。,的 观 测 值 , 而为 次 序 统 计 量 就 作个 值中 第时 , 其 由 小 到 大 的 排 序 值每 当 样 本 得 到 一 组 观 测满 足 如 下 条 件 的 函 数 :,它 是 样 本 个 次 序 统 计 量 ,称 为 第中 抽 取 的 一 个 样 本 ,是 从 总 体,、 设 ( (n21i) ini21 n21 i)XX xixx,x i3 n4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计量称充分统计量。5、统计学
21、上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的资料的个数。6、 。2 。2n数 。标 准 正 态 分 布 的 密 度 函的 密 度 函 数 越 来 越 接 近 分 布的 增 加 ,。 随 着 自 由 度标 准 正 态 分 布 的 方 差 大尾 部 粗 一 些 , 方 差 也 比 的 两 侧的 尾 部 都 要 比 标 准 正 态分 布 的 密 度 函 数 在 两 侧曲 线 非 常 相 似 , 但 数标 准 正 态 分 布 的 密 度 函分 布 的 密 度 函 数 曲 线 与:分 布 和 正 态 分 布 的 关 系 tnttt。, 则分 布 的 一 个 随 机 变 量 ,
22、看 成 近 似 服 从 标 准 正 态布 , 若 把来 越 接 近 于 标 准 正 态 分 也 越的 增 加 ,。 并 且 随 着 自 由 度, 则若分 布 和 正 态 分 布 关 系 :。 n1FXXXn1Fnt2 27、在重复选取容量为 n 的样本时,由样本统计量的所有取值形成的相对频数分布为统计量的抽样分布。的 推 断 提 供 了 理 论 基 础分 布 问 题 , 为 总 体 参 数 数 的 抽 样态 的 情 况 下 , 样 本 平 均理 解 决 了 在 总 体 为 非 正正 态 分 布 。 中 心 极 限 定 的, 方 差 为值 为的 抽 样 分 布 近 似 服 从 均充 分 大 时
23、, 样 本 均 值的 样 本 , 当样 本 量 为的 任 意 一 个 总 体 中 抽 取, 方 差 为均 值 为、 中 心 极 限 定 理 : 设 从 nXn8 22 二、练习1、易知由这台机器灌装的 9 个瓶子形成的样本,其平均灌装量服从正态分布,均值为标准差为 ,故 ,31nx6319.09.01.0zPXPXP2、若 ,则 ,即 ,5.35.n96.13.0n又知 , 故 。1,68.42.09n3n3、易知 服从自由度为 6 的卡方分布,得 (左侧分位数)612iZ 59.12)6(295.0b4、因为 服从 分布,我们已知 ,故 服从 9)2Sn)1(2n,n2S(分布, ,我们若取
24、9.09211 bSPbP,则可以得到 ,5.,05.922S 92.16)(295.0b,故 。 (题中均为左侧分位数)3)(05.1b 8,3721第 7 章 抽样与参数估计7.1(1)已知: , , , , 。540n25x0.96.125.z样本均值的抽样标准差 。79.x(2)估计误差 。5.14096.12nzE7.2(1)已知: , , , , 。52x96.1205.z样本均值的抽样标准差 。14.295nx(2)估计误差 。0.6.12zE(3)由于总体标准差已知,所以总体均值 的 95%的置信区间为:,即(115.8,124.2) 。2.495.102 nzx7.3 已知:
25、 , , , , 。8106x05.96.12.z由于总体标准差已知,所以总体均值 的 95%的置信区间为:,即4.17410596.10452 nzx(87818.856,121301.144) 。7.4(1)已知: , , , , 。8x2s.065.21.z由于 为大样本,所以总体均值 的 90%的置信区间为:0n,即(79.026,82.974) 。974.180645.182 szx(2)已知: , 。.6.25.z由于 为大样本,所以总体均值 的 95%的置信区间为:10n,即(78.648,83.352) 。352.81096.82 szx(3)已知: , 。1.2.z由于 为大样本,所以总体均值 的 99%的置信区间为:0n,即(77.940,84.096) 。096.3815.2812 szx7.5(1)已知: , , , , 。x.n5.96.120.z由于总体标准差已知,所以总体均值 的 95%的置信区间为:,即(24.11,25.89) 。89.0256.39.125nzx(2)已知: , , , , 。.x.s7n02.3.2.z