数据的搜集与整理.ppt

上传人:h**** 文档编号:208768 上传时间:2018-07-18 格式:PPT 页数:42 大小:541KB
下载 相关 举报
数据的搜集与整理.ppt_第1页
第1页 / 共42页
数据的搜集与整理.ppt_第2页
第2页 / 共42页
数据的搜集与整理.ppt_第3页
第3页 / 共42页
数据的搜集与整理.ppt_第4页
第4页 / 共42页
数据的搜集与整理.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

1、,第二章、数据的搜集与整理,统计工作总是从收集资料开始的,但由于生产和实践过程中收集到的资料和数据往往是分散的,而且从表面上看不出有什么规律性,也不能说明任何问题,必须经过整理和归纳后,这一批数据所遵循的规律才能显露出来,方可得出有意义的统计结论。,数据的收集,数据的整理,数据的收集,从理论上讲,进行大量观测、试验,就可以清楚地掌握随机现象的统计规律。但有时大量试验客观上是不允许的(如破坏性试验),这时只能得到有限的,甚至是很少的数据,以什么样的方式收集资料更为有效?,抽样,例子: 国家医护协会对于医护专业未来护士的缺乏十分关注。为了了解现阶段护士们对于工作的满意程度,该协会发起了一向对全国的

2、医院护士的调查研究。作为研究的一部分,一个由50名护士组成的小组被要求写出她们对工作、工资和升职机会的满意程度(见表一),抽样,几个概念,总体(population):全国的医院护士-研究对象的全体/或研究对象的某项数量指标X的值的全体。一般用X表示。样本(sample):被抽到的这50名护士-总体中抽出若干个体所组成的集合。一般用X1X2Xn表示一个样本容量为n的样本。,抽样的目的!,1. 总体?全体医护人员对工作的满意度,3. 这50 名护士对工作的满意度资料,2. 样本!被抽到的50名护士,4. 将样本的结论推广到总体上,抽样,抽样调查中应当注意的问题,抽样方法的优点,抽样方法,抽样调查

3、的应用,抽样方法的优点,费用较低速度较快应用范围较广准确度较高,费用较低,如果数据是从总体的一个很小的部分取得,那么他的费用就比普查小。在美国,政府说进行的最重要的经常性调查,使用的样本在105,000人左右,或者说大约从1240人中抽取一个人。在市场研究中,可能只要对几千人的样本进行调查。,速度较快,收集和综合样本资料要比收集和综合全面调查的资料更快些。在迫切需要有关的信息时,考虑这一点是极为重要的。,应用范围较广,就能取得的信息的种类来说,抽样调查可以发挥作用的范围更为宽广,而且具有更大的灵活性。,准确度较高,在工作量减少以后,由于能雇用质量较高的工作人员并对他们进行深入的训练,还由于实地

4、调查工作可以受到更仔细的检查监督,调查资料的处理页能够完成,因此与可能进行的全面调查相比,抽样调查可能取得更准确的结果。,抽样调查的应用,联合国统计局经常发表由成员国进行的“当前所关心的的情况的抽样调查(Sample Surveys of Current Interest)”报告。1968年的报告就列出了46个国家的调查。这些调查很多是为了收集对国家计划显然很重要的情报,例如农产品产量、土地使用情况、劳动力的多少与失业人数、工业生产、批发与零售价格、人民健康情况与家庭的收支等等。,抽样调查的应用,离婚的原因(匈牙利),家庭用水的消耗量(以色列),乳牛的年龄结构(捷克)以及职位空缺情况(美国)。

5、在美国,大多数的大城市中都有商业性的机构从事为顾客设计和进行抽样调查的业务。市场研究在很大程度上依赖于抽样方法。工厂主与零售商要知道人们对新产品的包装方法的反应,对老产品的批评以及他们喜爱这一种产品,不喜爱另一种产品的原因。,抽样调查中应当注意的问题,要更据调查的目的确定合理的调查总体明确待收集的数据都与调查目的有关并且没有遗漏基本数据根据精度要求,选择恰当的抽样方法和方案。事先对所需费用和时间加以估计,在小范围内预先试验,改进方案。有效组织现场实地的调查工作。,抽样方法,1 简单随机抽样(独立的、有代表性的、等可能性的) 简单随机抽样也叫完全随机抽样,它是在无限总体中进行的无放回独立或在有限

6、总体中进行的有放回随机抽样。任一样本被抽取的概率都是相等的情况,像平时的抽签,借助随机表进行的抽样等就是简单随机抽样。,-不重复抽样与重复抽样之分,抽样方法,2 分层抽样 将总体中的成员按某种原则划分成若干个子总体,每个子总体称为一层,在每层中进行简单随机抽样或其它抽样,称为分层抽样。分层抽样适用于调查既需要对总体又需要对局部进行估计的情况。如调查大连市民的收入情况。(当层内差异比较小,而层间差异比较大时,分层抽样可以提高估计的精度。),-不重复抽样与重复抽样之分,抽样方法,3 整群抽样 将总体中的成员分为若干群,从这些群中抽取部分群,调查对象是被抽中的这些群中的所有成员。如民主选举前的民意测

7、验。(当群内差异比较大,而群间差异比较小时,整群抽样比较准确 )4 系统抽样 等距抽样.准确性差 将总体中的调查单位按某种次序排序,随机地选定初始单位,然后按相等的间距抽取其它样本单位。(要求对调查单位的排序次序必须进行细致研究),-不重复抽样与重复抽样之分,数据的整理,为了探寻大量观测的样本数据中所隐藏的统计关系,有必要对数据加以整理和归纳。 数据的描述性指标 图、表表示,数据的描述性指标,例子:某班30名MBA 学生的年龄按上升顺序排列为:27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 3

8、4 34 34 35。数据集中趋势的度量数据离散趋势的度量,数据集中趋势的度量,众数#30,31;中数#-30.5; 平均数#-30.67;上四分位数#-x23; 下四分位数#-x827 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。,数据离散趋势的度量,极差R#(全距)-8;两极的差方差S2 #-5; 公式为标准差S2.25; 方差开平方四分位差2; 上下四分位数的差的一半27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31

9、 31 31 31 31 32 32 33 33 33 33 34 34 34 35。,众数,众数-就是出现次数最多的数(众数可以不唯一,也可以不存在。) 27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。,中数,中数(中位数)-将数据按从小到大的顺序排列后,位置居中的数。(偶数个数据时,将中间两个数平均) 27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34

10、 34 34 35。,上四分位数,上四分位数-将数据按从小到大的顺序排列后分别记为:x1,x2 , x3 , , xn ,则xi为上四分位数,其中i= n3/4 =23 27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 35。,下四分位数,下四分位数-将数据按从小到大的顺序排列后分别记为:x1,x2 , x3 , , xn ,则xi为下四分位数,其中i= n1/4 =8 27 27 28 28 28 28 29 29 29 29 30 30 30 30 30 31 31

11、31 31 31 32 32 33 33 33 33 34 34 34 35。,*两个重要的样本指标*,样本均值X#样本方差S2 #,Samples,A 1992 survey conducted by the Foundation for Women and Center Policy Awareness asked married working women to identify the factors that would contribute most to improved family life. more flexible hours 272 higher pay 208 mo

12、re help at home 120 better day care 56 nothing 144,样本均值x,n为样本容量,反映样本数据的集中程度。显然它随样本而变化,因此是随机变量。,样本均值x=,样本均值x的分布#,根据中心极限定理:来自于正态总体N(,2)的样本均值,标准化得到:,样本方差s2的分布,样本方差S2=,它反映样本数据的分散程度,显然他随样本而变化,也是随机变量。,2(n-1),*统计量#*,设X1 , X2 , ,Xn是来自于总体X的一个样本,g(X1 , X2 , ,Xn)是关于X1 , X2 , ,Xn的函数,若连续、且不含有任何未知参数,则称g(X1 , X2 ,

13、 ,Xn)为一个统计量。 (统计量是指由样本确定的不含有其它未知数的函数)如样本平均X,样本方差S2等,*统计量例子*,设总体XN(,2),已知均值,而方差2未知。 X1 , X2 , X3为来自总体的一个样本,指出以下哪些是统计量:(A) X1 +3X2 + 2 (B) X1 +2 (C) maxX1 , X2 , X3 (D) X1(E) X (F) S2,答案:B、C、D、E、F,*综合例子*,1。 设总体XN(1,4),,求P(0X 2)和P(0X 2),其中,X为样本容量为16的样本均值.2。 在总体XN(80,202)中随机抽取一容量为100的样本,为样本平均值与总体均值的差的绝对

14、值大于3的概率?,*综合例子*,3。已知某工厂的次品率为1%,设从一大批该厂生产的产品中随机地抽取一个容量为500的样本,令X为该样本的次品率,则X近似地服从什么分布?为什么?,结束,下一章,美国军用标准,无论在任何国家或地区,其政府必然是最大的买家(消费者),美国更是如此。美国的国防部财力雄厚,购买的物品种类五花八门:上至大型电脑、飞弹、穿梭机等,下至灯泡、衣物、文具等,多姿多彩。真可谓是制造者必争之顾客。,美国军用标准,这个顾客不同一般,其地位相当优越,主动订下其对产品品质的要求,编就了一本本的小册子,皆命名为Military Standard(MIL-STD),其中包括所需产品的质量标准

15、、原材料要求和要求的可靠度等。,美国军用标准,例如: MIL-STD-001可能是关于军靴的质量要求, MIL-STD-002可能是关于水性笔的质量要求等.等编到105册的时候,他们认为有必要制定允许接受抽样标准. MIL-STD-105定名为“Sampling Procedures and Table for Inspection by Attributes”,美国军用标准,这是一个抽样系统,它的最大特点就是每次选取的不是一个而是一套三个的抽样计划Normal Standard、Tightened Standard 和Reduced Standard。例如: Normal Standard5

16、0(5/6), Tightened Standard 50(3/4), Reduced Standard 20(2/5)。,美国军用标准,这套法则是这样的:(1)在交易的初期,使用正常验收计划;(2)在使用正常计划的日子里,假如某连续送验的五批之中,有两批被拒收,则买家依合同转而使用收紧验收计划;,美国军用标准,(3)在使用收紧计划的日子里,假如有连续送验的五批都被接收,则买家有义务恢复使用正常计划; (4)在使用收紧计划的日子里,假如连续十批的表现都未能唤回正常允许接收标准,那么买家有权终止合同;,美国军用标准,(5)从开头起,假如连续十批都在正常标准下被接收了,则改用放宽标准的验收计划; (6)在使用正常计划的日子里,从每拒收一批起,假如连续14批都被接收,则改用放宽标准的验收计划;,美国军用标准,(7)在使用放宽计划的日子里,只要有一个抽中的样本中含有多于允许接收数目的次品,则改用正常标准的验收计划; 被美国政府各部门采用,并成为与供应商所定的长期合同的一部分。因此大小供应商均要对此有所了解和认识。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 医药卫生

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。