1、统计学笔记1绪论第一节统计学的含义和作用一、 什么是统计学1.统计学的含义统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。 2. 分析数据的方法有描述统计、推断统计。描述统计描述统计是将所收集的 数据处理后,用数值、表格或图形形式表现 的有用信息。描述统计是基础,它 为推断统计、统计咨询、统计决策提供必要推断统计就是根据样本数据特征去估计或检验总体的数据特征。二、 统计学的作用和重要性1. 统计学的作用人们用数据发现的规律做出更好的决策。2. 要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。三、 统计学是如何解决实际问题的?统计学解决实际问题的
2、基本思路是:提出与统计有关的实际问题;建立有效的指标体系;收集数据;选用或创造有效的统计方法处理、显示所收集数据的特征;根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断;根据推断给出更好决策的建议;不解决问题时,重复第-步。 第二节 统计学的基本概念 一、总体、单位和样本1.总体统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。2.总体单位(简称单位)是组成总
3、体的各个个体。如典型案例 1 中英军的每架战机;事例4 中的每个居民。3.由总体的部分单位组成的集合称为样本(又称子样) 。构成样本的单位称为样品,样本中样品的数目称为样本容量。4. 统计学解决问题的目的是认识总体的数据特征。但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。统计学笔记2 二、标志、指标( 参数) 和统计量1.标志:(1)总体单位普遍具有的属性或特征称为标志。(2)标志按其表现分为品质标志和数量标志两种。 品质标志表明单位属性方面的特征,品质标志的表现只能用非数值来描述. (如:典型案例 1 中英军战机的类型,事例 4 中每个
4、居民的性别。) 数量标志表明单位数量方面的特征,其表现用数值来描述(如: 典型案例 1 中英军战机的弹孔位置,事例 4 中每个居民的收入。)2.参数(标志)统计总体具有的数量特征的概念和数值称为统计指标,也称为参数。统计指标由两项基本要素构成,即指标的概念和指标的取值。(指标的概念是对所研究现象本质的抽象概括,也是对总体数量特征的质的规定性。)(例如事例 4 中居民人口数 100 万人, 总收入 31.4 亿元。) 统计指标按表示形式可以分为数量指标和质量指标.凡是反映现象总规模、总水平的统计指标称为数量指标,用绝对数来表示。例如事例 4 中居民总数 100 万人、总收入 31.4 亿元等,凡
5、是反映现象相对水平和工作质量的统计指标称为质量指标,用相对数或平均数来表示.例如企业职工平均工资 5000 元、工人出勤率 93%等。质量指标是总量指标的派生指标,以反映现象之间的内在联系和对比关系。单个指标不能反映总体的全貌,这便需要设立指标体系。统计指标体系是由一系列相互联系的统计指标组成的有机整体,用以反映所研究现象各方面相互依存相互制约的关系。3.统计量统计量是样本观测量的一个已知函数,用来说明样本的特征。是样本观测量的一个已知函数,用来说明样本的特征。抽取的样本不同,统计量的观测值也就不同。如样本平均数、样本方差、样本比例是统计量, 抽取样本后, 人们通常用与总体参数对应的统计量观测
6、值, 作为总体参数的估计.(如某汽车制造企业从生产的一批轿车中抽取了 16 辆轿车,用这些轿车的平均行驶里程值、合格率值分别作为该批轿车平均行驶里程、合格率的估计。)三、数据 (一)变量与变量值1.即说明现象的某一事实或数量的特征称为变量,将上述标志、指标和统计量的名称进行归纳就是变量。2.变量的具体表现是变量值,数据就是变量及其表现,也可称为反映客观事物的事实或数量依据。如: 收入是一个变量,收入的表现是变量值。3. 将在特定研究过程中收集的所有数据集合在一起,称为数据集。4. 根据变量值的确定与否,变量分为确定性变量(受确定性因素影响,因素是明确的,可解释,可控制的)与随机变量(受许多不确
7、定因素影响,如员工的起床时间) 。(二)数据的计量尺度收集数据时需要用到以下四种由低到高的计量尺度:定类尺度、定序尺度、定距尺度和定比尺度,计量尺度的不同决定了不同的数据分析与处理方法。1.定类尺度是说明客观现象无序类别的计量。定类尺度的主要数学特征是“=” 或“”.如居民的性别是男、女计量,战机的类型是战斗机、轰炸机、侦察机等计量,这一场合的所使用的数值只作为无序分类的代码。统计学笔记32. 定序尺度是说明客观现象有序类别的非数值计量。定序尺度的主要数学特征是“”.例如, 对居民的满意度计量可以分为非常满意、满意、一般、不满意、非常不满意五类。这一场合的所使用的数值只作为有序分类的代码。3.
8、 定距尺度是说明客观现象数值间距有意义的计量。其用确切的数值反映现象之间在量方面的差异,定距尺度的主要数学特征是“+”“” 。如总量指标是定距尺度计量的。(0 不代表不存在)4.定比尺度是说明客观现象两个数值比有意义的计量。定比尺度的主要数学特征是“x”“/”如质量指标中的相对数、平均数是定比尺度计量的(0 代表不存在)5 数据分类定类尺度,定序尺度的数据统称为定性数据。定性变量是指带有定性数据的变量。定距尺度,定比尺度的数据统称为为定量数据。定量变量是指带有定量数据的变量。根据定量变量值连续出现与否,定量变量分为连续性变量与离散型变量。连续型变量是指变量在某一区域内的取值是连续不断的,无法一
9、一列举。如:军机的弹孔位置,产品的寿命等。离散型变量是指变量的取值是间断的,可以一一列举。例如,产品数等。 (三)数据的类型根据对客观现象观察的角度不同,统计数据可分为:横截面数据、时间序列数据和面板数据。1.横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位进行观察而获得的数据。例如,2014 年全国各省、市、自治区的居民收入总值就属于横截面数据。2.时间序列数据又称为动态数据,它是指在某一段时期内按时间顺序对同一总体进行观察而获得的数据。例如, “十二五”期间我国按年份顺序的居民收入总值就属于时间序列数据3 .面板数据则是同时在时间和截面空间上取得的二维数据。例如 2005-2
10、014 年 30 个企业的总产值数据。面板数据则由 30 个企业 10 年的数据组成,共有 300 个观测值。从某一年份看,它是由 30 个企业总产值数第二章 收集数据第一节统计调查方案设计调查方案设计是指导整个调查过程的纲领性文件,其主要内容主要包括以下几个方面:一、确定调查目的1. 调查要达到的具体目标2. 回答“为什么调查?”3. 调查之前必须明确二、确定调查对象和调查单位1. 调查对象:调查研究的总体或调查范围2. 调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查) ,也可以是调查对象中的一部分单位(非全面调查)3. 回答“向谁调查?三 、选择合适的调查方式、调查方
11、法1. 调查方式是指调查的组织方式,主要有:普查、抽样调查、典型调查、重点调查统计学笔记4和统计报表制度2. 调查方法是指收集统计资料的方法,主要有:问卷法、访谈法、观察法和实验法四、设计调查项目和调查表1. 调查项目:调查的具体内容2. 调查表:表现调查项目的表格或问卷。有单一表和一览表两种形式。3. 回答“调查什么?”五、确定调查时间统计调查时间包括两种涵义:调查时间和调查期限1. 调查时间:调查资料的所属时间(时期或时点) 。2. 调查期限:进行调查工作的时间,包括搜集资料和报送资料的整个工作所需要的时间六、调查报告的撰写调查报告的撰写包括:调查过程的描述、依据调查数据所做的决策、对调查
12、结果的评价【在调查方案中,应给出:提交调查报告的具体时间,并对调查的精度、费用等提出具体要求】七、制订调查工作的组织实施计划第二节 数据收集来源一、 数据收集的来源1.原始数据:必须要求调研者亲自收集2.二手数据:调研者需要识别和评估二手数据的有效性二、二手数据的收集1. 二手数据的来源内部二手数据外部二手数据2.二手数据收集的特点优点:快捷、成本低、易获取缺点:相关性差、时效性差、可靠性低四、 二手数据收集的注意事项二手数据的评估主要包括:1. 研究目的的评估调研的目的是什么2. 二手数据来源评估谁收集了这些资料3. 研究内容评估收集了一些什么样的资料4. 调查方式、方法评估这些资料如何获得
13、的5. 二手数据相关性评估这些资料与其他资料的一致程度如何6. 二手数据时效性评估这些资料是何时收集的第三节 原始数据的收集一、 数据收集的分类1. 按数据收集的组织方式不同,分为统计报表和专门调查统计报表:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。专门调查:为了某一特定目的或专门问题而专门组织的调查2. 按数据收集对象包括范围的大小不同,分为全面调查和非全面调查统计学笔记5全面调查:对构成调查对象中的所有党委进行一一不漏的调查非全面调查:是在统计调查过程中,仅对调查中的一部分单位进行调查。 包括:抽样调查、重点调查、典型调查和非全面统计报表3. 按数据
14、收集的登记时间是否连续,分为经常性调查和一次性调查经常性调查:又称连续性调查,它是为了观察社会经济现象在一定时期内的数量变化所进行的调查登记或数据收集一次性调查:又称不连续性调查,它是对所研究的社会经济现象间隔一段时间所进行的调查登记或数据收集4. 按数据收集实施主体的不同,分为政府统计调查和民间统计调查 二、数据收集的调查方式数据收集的调查方式,按照组织方式主要有:普查、抽样调查、典型调查、重点调查和统计报表制度1. 普查:专门组织的一次性全面调查普查的特点:通常是一次性调查,周期性强全面性调查,收集的资料全面、系统、准确 普查的点多面广,工作量大,投入多普查应遵循以下原则:时间统一性原则登
15、记工作的规范性原则普查项目统一规定原则同类普查同周期性原则2. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本数据推断总体数量特征的一种非全面调查。概率抽样:根据随机原则从总体中抽选样本,并根据样本信息对总体的某些特征做出估计推断,对推断可能出现的误差可以从概率意义上加以控制非概率抽样:调查组根据自己的方便或主观判断抽取样本的方法抽样调查优势:经济性、时效性、准确性几种具体的抽样方式:1 简单随机抽样是指从总体 N 个单位中随机抽取 n 个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。2 分层抽样主要特征分层按比例抽样,主要使用于总体中的个体有明显差异。共同点
16、: 每个个体被抽到的概率都相等 N/M。3 整群抽样是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群; 然后以群为抽样单位抽取样本的一种抽样方式。 【应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小】4 等距抽样首先将总体各单位按一定顺序排列,更具样本容量大小确定抽选间隔,然后随机抽取一个进入样本,直到满足要求为止的一种抽样方式5 多阶段抽样是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用,其在大型流行病学调查中常用。第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;第二阶段,将入样的每个一级单位
17、分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样,依此类推,直到获得最终样本3. 典型调查:统计学笔记6从调查对象的全部单位中选择少数典型单位进行调查。目的是描述和揭示事物的本质特征和规律。调查结果不能用于推断总体4.重点调查:从调查对象的全部单位中选择少数重点单位进行调查。调查结果不能用于推断总体5. 统计报表制度:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。统计报表内容:报表目录、报表表式、填表说明统计报表的资料来源:原始记录、统计台账、企业内部报表三、数据收集的方法1.问卷法: 邮寄调查、电话调查、电脑辅助电话调查、网络调查
18、2.访谈法优点:广泛地认识客观现象、深入地研究问题、资料收集可靠和应用面很广缺点:必须依赖具有较高素质的访问员、直接交谈会对获取资料的客观性产生负面影响、在不便询问时访谈无法实施、调查费用大、时间长,可能会碰到意料不到的困难集体访谈:将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料【常用的有:头脑风暴法、德尔非法(专家意见法) 、深度访谈法】个别访谈:调查者对每一名受访者进行一对一单独访谈。3. 观察法:就调查对象的行动和意识,调查人员边观察边记录以收集所需信息调查人员不是强行介入能够在被调查者不察觉的情况下获得资料4.实验法在设定的特殊实验场所、特殊状态下,对调查对象进行实
19、验以获得所需资料。有室内实验法和市场实验法第四节 统计数据的质量一、统计数据的误差统计调查误差分为登记性误差和代表性误差1) 登记性误差:由于调查者或被调查者的人为因素所造成的误差。理论上讲可以消除2) 代表性误差:用样本数据进行推断时所产生的误差。通常无法消除,但事先可以进行控制和计算第 3 章 整理和显示数据第一节 数据的整理与显示问题的提出1.根据解决问题的目的确定分组的变量,如典型案例 4 中分组的变量为收入。2.确定组数等,如典型案例 4 中,收入由贫到富分为 5 组,连续型变量如收入还涉及到确定每组组距、上限和下限。3.按不重不漏的原则对数据进行分组,确定各组频数、频率,典型案例
20、4 还涉及到每组的收入值等。4.用表、图显示整理的数据,如表 3-1、图 3-1统计学笔记7第 2 节 定量数据的整理与显示 一、定量数据的整理1 主要采用统计分组来整理。数据分组后,把每组的个数称为频数。每组个数所占比例称为频率。2 统计分组就是指根据统计研究的目的和客观现象的内在特点,按某个变量(或几个变量)把被研究的总体划分成为若干个不同性质的组,然后再统计出各组的频数,就形成了一张频数分布表。3 统计分组方法:单变量值分组和组距分组1) 单变量值分组就是将一个变量值作为一组,适合变量值较少的情况。比如居民家庭按照人口数进行分组,可分为 1 口人家庭、 2 口人家庭、3 口人家庭、4 口
21、人家庭、5 口人以上家庭的组别。2) 组距式分组是将变量值的一个区间作为一组,适合于连续变量和变量值较多的离散型变量情况。组距式分组可采用等距分组,也可采用不等距分组。1 等距分组是指每组组距相等。等距分组的基本步骤有:第一步:确定组数:一般情况下,一批数据所分的组数不应少于 5 组且不多于 15 组。在实际分组时,可以参考经验公式来确定组数 K,即 第二步:确定组距:组距是一组的上限与下限之差组距( 最大值 - 最小值) 组数第三步:统计出各组的频数并整理成频数分布表。【 统计各组频数时要注意遵循不重不漏的原则。为解决不重的问题,统计分组时习惯规定“上组限不在组内”比如 100 这一数值不能
22、算在“90100”这一组,而是算在“100110”这一组内。 】闭口组:有上、下限值开口组:“以下”及“以上”组中值常用作各组的代表值:下限与上限之间的中点值,即:(100 以下,缺下限)(90 以上,缺上限)邻 组 组 距缺 上 限 的 开 口 组 的 组 中 值 =下 限 值 +22 不等距分组是指并非所有组距都相等。统计学笔记82、 定量数据的图示定量数据常用的统计图主要有直方图、茎叶图、曲线图、散点图等。3、 频数分布图的类型频数分布图则属于其中一种统计图,其主要类型有如下三种。钟型分布:“两头小,中间大”即中间变量值分布的频数多,两端分布频数少,()中,其分布特征是以变量的平均数为对
23、称轴,左右两侧对称分布() ()中为非对称分布, ()是右偏分布()是左偏分布,U 型分布:“两头大,中间小”即中间的变量值分布频数少,两端的变量值分布频数多,与钟型分布刚好相反J 型分布:有两种类型,一种是正 J 型,即频数随着变量的增大而增多;另一种则呈反 J 型,即频数随着变量的增大而减少第 3 节 品质数据的整理与显示一、定类数据的整理与图示(一)定类数据的整理定类数据整理主要用频数分布表进行。(二)定类数据的图示定类数据的图示主要有条形图、饼图等2、 定序数据的整理与图示(一)定序数据的整理定序数据也是采用频数分析表进行整理。还可以计算累计频数和累计频率,累计方法有两种:向上累计和向
24、下累计。(二)定序数据的图示定序型数据的统计图主要有累计频数分布图和环形图。 (P 50-51)统计学笔记9第 4 节 图表的合理使用一、鉴别图形优劣的准则(一)一张好的图形应具有的特征1. 反映数据分布特征和规律。2. 便于比较。3. 有对图形的描述和文字说明。(二)鉴别图形优劣的准则1. 是否有助于真实、准确洞察问题的实质。2. 是否提供完整的信息量,是否使复杂的观点简单化。二 、统计表的设计(一)统计表的概念和结构1. 概念统计表是表现统计资料的一种形式。2. 结构从形式上看,由四部分构成:A、总标题:是表的名称,概括统计表中要说明的内容;B、横行标题:是各组的名称,反映总体各组成部分;
25、C、纵览标题:是分组标志或指标的名称,说明纵行所列各项资料的内容;D、指标数值:也称数字资料,是统计表的具体内容。从内容上看,由主词和宾词两个部分组成。主词是统计表所说明的总体,总体的各组或各组的名称。宾词是用于说明主词的各种指标。通常,统计表的主词列在表的左方,宾词列在表的右方,如表 3-10 所示(P52 )(二)统计表的种类统计表按照总体分组情况不同,可分为简单表、分组表和复合表三类。(三)统计表的编制1.统计表线条的绘制。通常统计表的上下端以粗线绘制,表内纵横线以细线绘制。表格的左右不封口。2.合计栏的设置。统计表各纵列需要合计时,可将合计列放在最后一行,各横行若需要合计时,可将合计列
26、放在最前一栏或最后一栏。3.标题的设计。统计表的标题要简明扼要,以简练而准确的文字来概括统计资料的内容、资料所属时间、空间等。4.计量单位的列法。指标数值一般要有计量单位,若只有一种计量单位时,可在表右上端注明。如果计量单位不统一,可专设计量单位栏。5.标志值的书写。标志值应该填写整齐,对准位数。当数值太小可忽略不计时,写上“0” ;当缺失某项资料时,用符号“”表示;不应有数字时,用符号“-”表示。6.注解或资料来源的标明。统计学笔记10一般而言,统计表下方应该注明资料来源,以便查考。第 4 章 数据分布的数字特征第 1 节 数据集中趋势的测定一、集中趋势测定问题的提出和作用(一)问题的提出对
27、于总体中的个体数据,有时会呈现出在一定范围内以某个数据为中心上下波动的分布特征,即数据有时具有它分布的中心,我们称之为数据分布的集中趋势。该如何测定一组数据的集中趋势呢?二)集中趋势测定的作用1.集中趋势指标的分类2.集中趋势指标的作用(1 )可以反映一组数据分布的中心或一般水平;(2 )可以反映同一现象在不同时间或空间条件下的发展趋势或差异;(3 )可以用来分析现象之间的依存关系;(4 )样本平均数是统计推断的一个重要统计量。 二、集中趋势的测定 (一)数值平均数数值平均数只适用于定量数据(数值型数据) ,而不适用于定性数据。 1.算术平均数 (1 )简单算术平均数简单算术平均数是根据未分组数据(原始数据)计算的一种平均数,它是将所有的原始数据相加再除以数据总个数得到的。1 样本计算的简单算术平均数的计算公式是:2 总体数据计算的简单算术平均数 的计算公式为:
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。