1、 第一章 绪论第一节 统计学的性质及分类一、统计学的性质统计学的概念:以搜集、整理、分析或推断数据,并以此为依据对所研究对象做出判断或决策的方法科学论。统计学的性质社会经济现象和自然现象总体现象的数量表现及其规律研究数量方面的方法科学论社会经济统计学天文统计学通过对个体数量特征的认识过渡到对总体数量特征与规律性的认识对于数据的搜集、整理分析、认识间的关系及其变动规律都用到一定的方法二、统计学的分类统计学的分类理论与实践理论统计学和应用统计学统计方法描述统计学(现代统计学的基础)推断统计学(现代统计学的核心)理论统计学研究如何对客观现象的数量进行计量、观测、概括和表述,是统计学的基础和统计研究工
2、作的第一步,内容包括统计指标及其设计、统计调查、统计整理、统计图表、集中趋势测度、离散程度测试、统计指数和时间序列常规分析等理论方法。推断统计学是现代统计学的核心内容,它以概率论为理论依据,利用部分数据对总体数据的某些性质或数量特征进推断和检验。理论统计学和应用统计学的关系:理论统计学所提出的科学的数量方法为应用统计学研究提供了理论依据和条件,而应用统计学的发展又可进一步改进、完善和发展理论统计学所提出的数量方法。第二节 统计学的基本概念一、总体和个体总体:构成统计活动研究对象的全部事物的整体为总体(有限总体、无限总体)个体:总体中每个个体事物。总体容量:总体中全部个体事物的数量称为总体的容量
3、。统计总体根据统计研究的目的来确定。二、样本样本是指从总体中随机抽取出来,并作为其代表的那一部分个全所组成的子集。样本的特点:每个个体必须取自于总体的内部,从一个总体可以抽取许多个不同的样本,样本是总体的代表,样本的随机性。三、变量变量:客观现象的特征取值或类别在一个以上者均为变量变量的分类取值是否可用数字表示属性变量数字变量取值是否连续离散变量连续变量按变动是否有确定性确定性变量随机变量因果关系所处的位置因变量自变量研究对象范围内生变量外生变量取值是否有客观性实在变量虚拟变量四、指标及其测度指标测试的计量尺度定类尺度 定序尺度 定距尺度对个体进行类别分类如:人分男、女排序或等分如:一级品、二
4、级品差距如:山峰相对于地面的高度定比尺度绝对数量有比例关系。如:空调的产量用来测度研究对象某种特征数量的概念称为统计指标,简称指标。第三节 统计指标体系及其设计一、统计指标体系的概念反映总体及其所含个体的各个方面特征数量的一系列相互联系、相互补充的统计指标所形成的体系,称为统计指标体系。二、统计指标体系中指标的分类统计指标体系中指标的分类绝对数指标 相对数指标 弹性相对指标绝对数量的统计指标又称总量指标两个相互联系的统计指标相除而得的比率又称比率指标增长率之比按反映时间状况不同分为时期指标(流量)和时点指标(存量)按计量单位可分为:实物指标和价值指标结构相对指标、比值相对指标、动态相对指标、弹
5、性指标、强度相度指标弹性系数三、统计指标体系设计的内容:1、设置框架2、确定内涵和外延3、确定计量单位4、确定计算方法四、统计指标体系设计的原则统计指标体系设计的原则:目的性、科学性、可行性、联系性第二章 数据的调查与整理 第一节 数据调查的方式与程序一、数据调查的方式数据调查的概念:根据研究目的要求,对总体中个体的相应特征进行观测取得数据的工作过程。数据资料具有代表性和真实性是对统计资料调查的基本要求。调查方式:现场调查、实验调查。二、数据调查的一般程序数据调查的环节:制定方案、登记数据、数据整理与显示。确定调查目的是首要问题第二节 现场调查一、调查的抽样方式现场调查:随机抽样和非随机抽样调
6、查的抽样方式:普查、抽样调查抽样调查:从总体中抽取部份个体进行观测,取得样本数据,然后依据样本数据推算总体数据。随机抽样又称为概率抽样调查,被调查总体中的每个个体被抽中或不被抽中的概率相同随机抽样分类简单随机抽样 整群抽样等距抽样 分层抽样被抽中的机会都相等顺序排队固定顺序、间隔分层次、层次中抽个体分成群,随机抽取一些群体样本非随机抽样:又称非概率抽样调查,凭调查人员主观判断进行选取,便利而随意选取。非随机抽样分类任意抽样 立意抽样 配额抽样便利抽样或偶然抽样 主观选择具有代表性 依据一定的标准规定二、调查的观测方式调查的观测方式访问法 观察法口头访问书面访问所得到资料真实、可靠三、问卷调查的
7、设计问卷设计技术主要包括:提问方式和提问次序调查问卷提问方式:封闭型提问、开放性提问。提问次序:先一般后特殊,所谓漏斗式。第三节 试验观测试验观测原则:均衡分散性整齐可比性方法:完全随机随机区组第四节 数据整理与显示一、分类遵循两个原则:互斥性、完备性观测个体分类:单值分类、组距分类统计表概念:显示数据资料表格统计表的结构:总标题、横栏标题、纵栏标题、数据资料、表示附注。第三章 次数分布第一节 次数分布的编制与显示一、次数分布的概念次数分布的概念:各个不同数值及每个不同数值出现的次数顺序排列二、次数分布表及其编制次数分布表概念:表示观测变量的次数分布的统计表单值分组次数分布表:每一个不同的取值
8、代表一个组的变量值,并计算各组出现的个数或次数。累计频数和累计频率累计频数(或频率)分布数列:可采用向上累计或向下累计。向上累计:由变量值低的组向变量值高的组累计频数。向下累计:由变量值高的组向变量值低的组累计频数。重点掌握:直方图和柱状图第二节 次数分布的理论模型一、次数分布理论模型的概念和意义随机变量的概率分布的表示方法主要有三种:概率分布表、概率分布图、概率分布函数。二、离散型随机变量的概率分布离散型随机变量分布类别两点分布 又叫贝努力试验p+q=1 超几何分布 泊松分布 二项分布泊松分布:对于描述在一个特定时间或空间范围内某一事件发生的次数有用。一、间隔期内发生次数概率相等二、某一间隔
9、内发生与否相互独立。三、连续型随机变量的概率分布连续型随机变量的概率分布均匀分布 F 分布正态分布 x2 分布指数分布 t 分布第四章 分布特征的测度第一节 分布中心的测度一、分布中心的概念及意义分布中心的定义:距离一个变量的所有取值最近的数值变量分中意义:1、变量取值的一个代表,反映取值一般水平。2、可以揭示取值的次数分布在直角坐标系上的集中位置。二、分布中心的测度指标及其计算方法1、算术平均数(简单算数平均数、加权算术平均数) 、中位数、众数(重点计算)算术平均数又称均值,它是一组变量值的总和与其变量值的个数总和的比值,是测量分布中心最常用指标。2、组距数列算术平均数首先计算出每组的组中值
10、,组中值就是各组变量的代表值组中值(上限+下限)/2缺下限的组中值上限-邻组组距/2缺上限的组中值下限+邻组组距/23、应用算术平均数应注意的问题容易受极端变量值的影响,极大值或极小值应剔除权数不取绝于它的绝对值大小,而取决于它的比重组中值作为各组变量值的代表4、算术平均数的数学性质变量值与平均数离差总和等于零变量值与平均数离方平均和为最小二、中位数中位数概念:将某一变量的变量值按照从小到大的顺序排成一列,位于这列数中心位置上的那个变量值。中位数的确定:(1)未分组资料中位数的确定:变量值由小到大排列(n+1)/2 确定中位数所处的位置,最后寻找位置的变量值为中位数,若变量值 n 为偶数,则以
11、排在数列中 n/2 项 n+1/2 项变量值的简单算术平均数作为中位数。(2)单项数列中位数的确定:计算向上或向下累计次数,由公式计算结果与累计次数的结果确定中位数在单项数列中所处组的位置,则该组上的变量值就是中位数。(3)组距数列中位数的确定(例题公式重点)p88三、众数众数概念:变量取值出现次数最多的那个变量值众数的确定:未分组的变量值,统计出现次数最多的那个变量值,若是单项数列则频数(或频率)最大的变量值就是众数。众数组距数列:依距各组变量值出现次数的多少确定众数所在的组,然后采用上限公式或下限公式确定众数即可。 (公式、例题)p90算术平均数、中位数和众数三者之间的关系:在正态分布的情
12、况下,三者在数量上完全相等。第二节 离散程度的测试一、离散程度通过对变量取值之间离散程度的测定,反映各个变量值之间的差异大小,可以反映中心指标变量值代表性的高低。离散程度测试指标极差 四分位全距 变异系数平均差 方差标准差(根方差) 第五章 抽样估计第一节 抽样估计的理论基础抽样估计的基本内容根据总体的部份数据信息去估计未知总体指标的理论和方法。1、大数定律大量的独立重复测量值的算术平均值具有稳定性,对于这种稳定性构成大数定律的基本内容。两个重要的大数定律:贝努里大数定律、辛钦大数定律第二节 抽样方法与抽样分布重复抽样和不重复抽样(掌握概念)抽样分布:对于给定的总体和抽样方式以及样本容量,样本
13、指标取值的概念分布就称为抽样分布常用的抽样分布样本均值 样本比例(总体比例估计量) 样本方差(正态分布总体中应用)第三节 点估计一、总体参数与其估计量总体参数:根据样本数据来推断总体指标数值,总体指标又称为参数根据样本来推断总体指标数值称为抽样估计估计量:估计总体指标数值的统计量估计值:估计量的数值为该总体指标的估计值二、构造估计量的方法-矩法估计构造估计量的方法:矩法估计,用样本矩作为总体同一矩的估计量或者用样本矩的函数作为总体相应矩的函数的估计量,最直观、最简单也是较为常用的方法就是矩法估计。三、判断估计量优劣的标准常用的标准主要有:一致性(基本要求) 、无偏性(不应存在偏大或偏小偏差)
14、、有效性、充分性、稳健性。估计量的标准误:样本估计值与总体指标真值之间存在着误差,误差越大,抽样估计的精确程度就越低。标准误的概念:样本估计量的标准差通常称为该估计量的标准误差。标准误的计算:(例题、公式)样本均值的标准误:(例题、公式)(三)影响标准误的因素(1)总体中各个个体之间的差异程度(2)样本容量的大小,样本容量越大,标准误差越小,抽样估计误差也就越小(3)抽样的方式与方法第四节 区间估计区间估计的概念:事先给定的概率保证程度下,根据样本估计量的概率分布确定可能包含未知总体参数的某个区间,作为对未知总数的估计。第六章 相关与回归分析第一节 相关分析 一、相关关系当一个变量的变化完全决定另一个变量的变化或两个变量之间是一种严格的确定的关系时我们称之为函数。相关关系的概念:存在着一定的联系但又不是严格的,确定的关系。相关分析的主要内容:1、确定现象之间有无相关关系。2、确定相关关系的表现形式。3、测定相关关系的密切程度。二、相关关系的描述-散点图如两变量之间的变化方向是一致的,即存在着正相关。如两变量之间的变化方向是相反的,即为负相关。1、相关的形态:若变量 Y 与变量 X 的相关关系表现为线性组合或绘制的散点图近似的表现为一条直线,则称为线性相关,绘制的散点图近似地表现为一条曲线,则称为非线性相关或曲线相关。