1、第一章 绪 论思考题1. 什么是统计学?请简要说明一下它的发展过程。统计学是关于数据搜集、整理、归纳、分析的方法论科学。统计学的发展主要经历了三个阶段:(1) 17 世纪中叶至 18 世纪,统计学的产生和形成阶段;(2) 18 世纪末至 20 世纪中叶,统计推断方法和理论体系确立的阶段;(3) 20 世纪 50 年代以来,统计理论、方法和应用进入了一个全面发展的阶段。2. 统计学、统计数据,以及统计活动之间有什么关系?统计活动直接影响统计数据的数量和质量;统计学是统计实践活动的理论概括,同时,它又用理论和方法研究分析统计实践活动,统计学和统计活动是理论与实践的关系。3. 统计学的研究方法有哪些
2、,它们有怎样的关系?并举例说明。主要方法有两个:(1) 描述统计:搜集由试验或调查所获得的资料,进行整理、归类,计算出各种用于说明总体数量特征的数据,并运用图形或表格的形式将它们显示出来。(2) 推断统计:指利用概率论的理论,根据试验或调查获得的样本信息科学地推断总体的数量特征。关系:描述统计和推断统计都是统计方法的两个组成部分,前者是统计学的基础,后者是现代统计学的主要内容。由于现实问题中,要获得总体数据存在很大的难度,能够获得的数据多为样本数据,因此,推断统计在现代统计学中的地位和作用越来越重要,它已成为统计学的核心内容。当然,描述统计的重要性不可忽略,通过它得到可靠的统计数据并为后面的推
3、断统计提供有效的样本信息,只有这样,才可以运用推断统计方法得出符合实际情况的结论。4. 简要说明总体、样本、变量的概念。总体:根据一定的目的确定的所要研究对象的全体,它是统计问题最基本的要素;样本:从总体中随机抽取的若干单位构成的集合体,它是统计问题的第二要素;变量:可变的数量;变量的具体表现,即可变数量的不同取值,称为变量值。5. 简述 SPSS 统计软件的特点和应用领域。(1) 特点:第一,工作界面友好完善、布局合理、操作简便,大部分统计分析过程可以借助鼠标,通过菜单命令的选择、对话框参数设置、点击功能按钮来完成,不需要用户记忆大量的操作命令。菜单分类合理,并且可以灵活编辑菜单以及设置工具
4、栏。第二,具有完善的数据转换接口,可以方便地和 Windows 其他应用程序进行数据共享和交换。可以读取 Excel、FoxPro、Lotus 等电子表格和数据库软件产生的数据文件,可以读取 ASCII 数据文件。第三,提供强大的程序编辑能力和二次开发能力,方便高级用户完成更为复杂的统计分析任务的需要,具有丰富的内部函数和统计功能。第四,附带丰富的数据资料实例和完善的使用指南,为用户学习掌握软件的使用方法提供更多的方便。软件启动后,用户可直接上网访问 SPSS 公司主页获得更多的帮助和信息。(2) 应用领域:社会科学、自然科学、经济管理、商业金融、医疗卫生、体育运动等。6. SPSS 软件的数
5、据编辑器包括哪些内容?(1) 标题栏,显示当前工作文件名称。(2) 主菜单栏,排列 SPSS 的所有菜单命令。(3) 工具栏,排列系统默认的标准工具图标按钮,此栏图标按钮可以通过单击 View 菜单的Toolbars 命令选择隐藏、显示或更改。(4) 状态栏,状态栏位于 SPSS 窗口底部,它反映了工作状态。当用户将光标置于不同的区域时或者进行不同的操作时将显示不同的内容。(5) 数据编辑栏,用户通过键盘输入的数据首先显示在这里。(6) 数据显示区域。它是一个二维的表格,编辑确认的数据都将在这里显示,其中每一个矩形格为单元格(Cell) ,其中边框加黑的单元格称为选定单元格。数据显示区域的左边
6、缘排列观测量序号,上边缘排列要定义的各变量名。7. 调查表明,顾客每周花在某超市蛋糕的平均费用是 30 元,他们选择经常购买蛋糕的主要原因是该蛋糕味道很好。要求:(1) 总体是什么?(2) 该项研究所使用的方法是描述统计方法还是推断统计方法?(1) 总体是所有的购买蛋糕的顾客;(2) 推断统计方法。第二章 数据整理和描述思考题1. 获取统计数据有哪两种途径?一种是直接向调查对象搜集反映调查单位的统计数据,一般称为原始数据或第一手数据;另一种是搜集已经加工、整理过的、说明总体现象的数据,一般称为次级数据或第二手数据。2. 统计数据的搜集有哪几种方法?直接观察法、访问法、报告法、问卷法。3. 对统
7、计数据进行搜集时,有哪几种组织方式?普查、抽样调查、重点调查、典型调查。4. 什么是数据分组?数据分组的方式有哪几种?(1) 统计数据分组是根据统计研究目的,按某一标志将数据分别列入不同的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位之间具有某些共同的特征。(2) 统计数据分组可以按品质标志分组和按数量标志分组。(一)按品质标志分组就是按照事物的性质和属性特征进行分组。一般来言,按品质标志分组的操作比较容易,分组也相对稳定。如人口按性别分组、职工按文化程度分组等; (二)按数量标志分组,就是按照事物的数量特征进行分组。例如,企业按职工人数、产值、产量等标
8、志分组,人口按年龄分组等。5. 简述组距、组限、组数与组中值的含义以及它们的计算方法。(1) 组距是指各组中最大变量值与最小变量值之差,用 i 表示。计算方法为:i=R/n, 其中,n 表示组数,R 表示变量最大值与最小值之差(即全距);(2) 组限是指限定各组组距的数值。各组的较大值称上限,较小值称下限;(3) 组数是指数据被分成的组个数。计算方法为: Nnlg32.1式中: 表示组数; 表示变量值个数;nN(4) 组中值是上限到下限之间的中点数值,其计算公式为:组中值=(上限+下限)/26. 向上积累和向下积累的数据有什么区别?累计频数(或频率)可以是向上累计频数(或频率),也可以是向下累
9、计频数(或频率)。(1) 向上累计频数(或频率),通常是指由变量值小的组向变量值大的组依次累计;(2) 向下累计频数(或频率),通常是指由变量值大的组向变量值小的组依次累计。7. 什么是频数分布?试描述频数分布表的编制过程。(1) 分布数列是指在统计分组的基础上,将总体的所有单位按一定标志分组整理,并按一定顺序排列,形成总体单位在各组的分布;(2) 一、确定变量数列的形式。根据变量的类型和变量值的多少及现象本身的特点确定是编制单项数列还是编制组距数列。二、组距式变量数列编制方法:计算全距、确定组数、确定组距、确定组限、计算组中值、计算累计频数和累计频率。8. 对统计数据进行描述时,有哪几种统计
10、图表表达方式?有统计表和统计图,其中统计图包括:直方图、折线图、曲线图。9. 直方图和折线图有什么区别和关系?折线图可以在直方图的基础上,将直方图的每个长方形的顶端中点用折线连点而成。如果不绘直方图,也可以用组中值与频数求出坐标点,连接而成。它们与横轴围成的区域面积相等。10. 请举出自己实际生活中的一组数据,对它进行分组,然后绘制直方图、折线图以及箱线图,分析该组数据的结构特征。略练习题1. 某地区 7 月份的气温数据(单位:摄氏度) 如下:28 31 32 29 31 33 30 32 34 29 32 30 38 38 37 39 34 36 36 33 34 30 37 36 32 3
11、8 35 30 34 35 35(1) 对以上数据进行适当的分组;(2) 绘制直方图,说明该城市气温分布的特点。解:(1) 频数分布如下:28,30) 3;30,32) 6;32,34) 6;34,36) 7;36,38) 5;38,40) 4;(2) 直方图略。从直方图可以看出,该地区 7 月份气温集中在 3436 摄氏度的天数最多,其次多的时间集中在 3032 摄氏度或 3234 摄氏度。2. 某人的家位于城市的 A 地,工作单位位于城市的 B 地,为了确定 A、B 两地的车程,他记录了 60 天(来回共乘车 120 次) 内往返于 A、B 两地所花的时间 (单位:分钟),所得数据如下:9
12、8 101 120 112 94 96 89 108 106 111 113 109108 112 99 93 98 100 87 89 125 120 118 103117 111 119 100 105 108 98 96 110 123 117 115109 103 92 99 88 80 83 86 93 98 90 12093 98 90 111 109 103 108 112 123 120 109 11892 91 89 87 95 121 119 123 108 99 103 9297 95 102 108 113 99 114 89 95 106 109 100108 112
13、 109 123 121 110 110 124 108 109 113 96123 105 109 112 96 98 108 112 99 90 93 9699 96 105 111 120 98 92 103 102 90 113 120(1) 利用 SPSS 对以上数据进行排序。(2) 以组距 10 进行等距分组,编制频数分布表,并绘制直方图。解:(1) 略(2) 频数分布表如下:80,90) 10,90,100) 37,100,110) 33,110,120) 25,120,130) 15; 直方图略。3. 某百货公司冬天连续 60 天的销售额数据如下(单位:万元) :372 338
14、 403 321 286 357 328 309 329 318 368 349369 372 353 380 331 347 302 308 383 326 329 333342 349 351 324 369 362 370 319 342 356 393 382401 396 377 379 380 356 352 349 363 370 321 316322 320 336 343 389 369 375 398 359 364 354 350(1) 用 SPSS 对以上数据进行适当的分组,编制频率分布表。(2) 计算出累积频数和累积频率。(3) 绘制直方图和折线图。解:(1)、(2)
15、分组 频数 频率分布表 向下累积 向上累积285,300) 1 1/60 1 60300,315) 3 1/20 4 59315,330) 12 1/5 16 56330,345) 7 7/60 23 44345,360) 13 13/60 36 37360,375) 11 11/60 47 24375,390) 8 2/15 55 13390,405) 5 1/12 60 5(3) 略。4. 为评价某餐馆服务质量,随机调查了 120 个顾客对它的评价。评价服务质量的等级分为五种:A. 优;B. 较好;C. 中等;D. 较差;E. 极差。调查结果如下表所示:A C C B D B E C D
16、C A B D C CD B C B C C E D A A C D D E DB B D C C D A B D E E B C C ED A C D E B B A C A C E B B AB C C D E D E B A A C B C A EA A C D C C B E B C D E A E BC C B E D C B A B E E D B A CB A C C D A D B E C B D D B E(1) 编制频率分布表;(2) 绘制条形图,找出对该餐馆评价等级的分布。解:(1) 频率分布表如下:评价等级 频数 频率A 19 19/120B 27 9/40C 32 4
17、/15D 23 23/120E 19 19/120(2) 略5. 某小学对该校四年级 160 位学生的数学成绩分组如下:成绩 60 分以下 6070 7080 8090 90100所占比例 9.1% 14.4% 32.2% 29.3% 15%(1) 对该校四年级学生的成绩绘制直方图;(2) 根据直方图分析四年级学生的成绩分布特点。解:(1) 略;(2) 左偏分布。6. 为了确定灯泡的使用寿命( 单位:h),在一批灯泡中随机抽取 100 只进行测试,所得结果如下:688 717 696 703 729 704 726 725 699 713693 697 664 681 721 720 677
18、679 695 691692 683 712 733 717 683 707 718 671 701688 689 683 685 702 741 698 713 676 702727 708 749 673 651 696 689 736 690 694706 692 691 747 699 682 698 700 710 722698 696 666 698 658 674 697 693 710 668708 729 694 681 695 685 706 661 735 665701 707 692 690 708 691 722 712 715 706700 716 728 719
19、685 709 691 684 705 718(1) 利用 SPSS 对上面的数据进行排序;(2) 以 10 为组距进行等距分组,构建频率分布表;(3) 根据分组数据绘制茎叶图和箱线图,说明数据分布的特点。解:(1) 略;(2) 频率分布表如下:分组 频数 频率650,660) 2 1/50660,670) 5 1/20670,680) 6 3/50680,690) 14 7/50690,700) 26 13/50700,710) 18 9/50710,720) 13 13/100720,730) 10 1/10730,740) 3 3/100740,750) 3 3/100(3) 略。第三章
20、 数据特征的度量思考题1. 数据分布的特征可以从哪些方面进行度量和描述?(1) 数据集中程度度量的常用方法有均值(算术平均数) 、调和平均数、几何平均数、众数、中位数。(2) 数据离散程度的测度方法,常用的有极差、内距、标准差及离散系数。2. 简述中位数、四分位数、十分位数的概念,并举例说明。中位数是将顺序排列的统计数据从中间分成相等的两部分;四分位数就是将排序后的数据 4 等分的三个数值,每部分包含 25%的数据,其中中间的四分位数就是中位数,其余两项分别为下四分位数(Q 1)和上四分位数(Q 3);十分位数和百分位数分别是将排序后的数据 10 等分和 100 等分的数值。3. 简述众数、中
21、位数和均值的特点和关系。(1)关系:当数据呈对称分布时,均值、中位数、众数必定相等,即有 ;Moex当数据呈左偏分布时,均值小于中位数且小于众数,即有 ;当数据呈右偏分布时,均值大于中位数且大于众数,即有 ;(2) 特点:均值是根据所有数据计算的一般水平代表值,数据信息的提取足够充分,特别是当用样本信息估计总体特征时,均值就更显示其良好的特征。因而在统计数据分析中均值起着很重要的作用。众数、中位数虽然数据信息利用不够充分,但当数据有极端值出现时,中位数的优势就显现了。4. 简述内距、极差、标准差的概念,并举例说明。(1) 内距:又称为四分位数差,是指上四分位数和下四分位数之差,通常用 Qd 表
22、示;(2) 极差:也称全距,它是一组数据的最大值与最小值之差;在组距式数列中,极差可以是最高组的上限与最低组下限之差;(3) 标准差:也称均方差,是各数据和均值离差平方平均数的平方根。5. 什么是离散系数?为什么要计算离散系数?(1) 常用的离散系数主要有标准差系数,也称均方差系数,它是数据的标准差与其相应的均值之比;(2) 原因:总体和样本的离散程度除了受变量值之间的离散程度影响外,还受变量值本身水平高低的影响,因此,在比较不同总体和样本的离散程度时,应消除由于变量值水平不同或计量单位不同带来的影响。在统计分析中,用离散系数来比较不同总体和不同样本的均值的代表性。6. 简述偏度和峰度的概念。
23、偏度:偏度是对分布偏斜方向及程度的度量;峰度:是对数据分布尖峭程度的度量,它可以衡量频数分布的集中程度。练习题1. 对某公司 28 位员工的年龄进行统计,得到数据如下(单位:周岁) :28 29 32 22 23 46 42 23 29 40 26 30 32 37 44 25 25 27 42 30 24 43 25 33 33 31 39 27(1) 计算员工年龄的众数、中位数和平均数;(2) 计算标准差;(3) 绘制员工年龄的茎叶图,说明员工年龄的分布特征。解:(1) 众数:25,中位数:30,平均数: 87=31.6;2Sx(2) 7.2011;(3) 略。2. 某地区 7 月份上半月的气温数据如下(单位:摄氏度):35 37.5 28 32 37 39 37 36.5 33 35 37 29 27 30 31(1) 计算该地区 7 月份上半月气温的众数、中位数和算术平均数;(2) 计算几何平均数;(3) 计算气温的标准差;(4) 绘制直方图,说明气温分布的特点。解:(1) 众数:37,中位数:35,算术平均数: 504=3.6;1Sx(2) 几何平均数: 1537.32.67;G