1、概率与正态曲线,1.研究随机性和规律性的两个例子1)20世纪50年代,小儿麻痹症育苗的研究。,问题是:56和138之间的差别是否超过了随机性所能解释的范围。,2)1970,美国越战的征兵,问题是:73和110之间的差别是否超过了随机性所能解释的范围。,思考题拧松水龙头,让其刚好到只有水滴下来,计算并记录15分钟内每个20秒里的水滴数。利用你的数据,请说出该水滴在什么方面是随机的?什么方面又是有规律的?,1)随机性和规律性是统计学的两个重要概念。规律性本身包含着随机性。统计可以定义为在随机性中寻找规律性,当两种规律之间的差异超出了随机性本身的影响(或者解释范围),变化趋势就发生了。2)概率为我们
2、从数据中得出结论提供了基础,统计学家利用概率判断数据间的差异是否超出了随机性本身的影响。3)统计很少对总体进行直接的研究,都是通过对具有代表性的样本的研究,来对总体的信息进行推断。,一、概率论发展简史,1. 概率论的起源,Pascal(16231662),Fermat, (16011665),1654年,赌金分配问题,赌金分配问题 梅雷说:有一次他与某赌友(代称为A先生)掷骰子时,各押32个金币为赌注,双方约定如果谁先赢得3局,就可以把赌金全部拿走,但因为梅雷临时有事,所以赌局不得不中途中断。此时梅雷已经赢得2局,而A先生只赢1局,如何公平分配赌金?,起点,费马:,帕斯卡尔:,1655年,荷兰
3、数学家惠更斯 (Christopher Huygens) 访问巴黎时,了解到帕斯卡尔与费马的通信研究,对这类问题产生兴趣,后来,他撰写骰子游戏(Dice Game, 1657) 来探讨机率问题的原理,其中包含许多习题,被许多人认为是机率史上第一本教科书。提出了期望的概念。1713年,瑞士数学家伯努利(Jacob Bernoulli,1654 1705)出版了猜度术一书,提出了大数定理 。,1765年,法国数学家棣莫弗(A.DeMoivre,16671754)的机会的学说一书出版,1733年就发现了正态曲线,以及论述了不存在运气。1933年,俄罗斯数学家科尔莫戈罗夫(19031987)以德文出版
4、的经典性著作概率论基础,标志着概率论的公理化完成,这就是我们现在看到的概率论的情形。,2. 概率论专有名词,随机实验(Random trial):满足如下三个条件就可以称之为随机实验:(1)在同一条件下可无限次重复;(2)实验结果有多个,且不确定;(3)事前不知实验结果(outcome)。抛硬币 基本事件(Elementary event):一次随机实验的可能结果,称为基本事件或者基本随机事件。若随机实验E是“抛两次硬币”,其基本事件就是“+、”,“+、+”,“,”,“,+”。样本空间(Sample space):所有基本事件所组成的集合,称为样本空间或基本空间。接上例,其样本空间就是集合“+
5、、”,“+、+”,“,”,“,+”。,随机事件(Random event):简称事件,指一些由基本事件所组成的集合。例如,接上例,事件“两次出现相同面”,就有两个基本事件组成:+、+”,“,”。不相容事件(Mutually exclusive events):在随机试验中,不能同时发生或其交集为空集的几个事件,称为不相容事件。反之为相容事件接上例,事件“两次同时出现正面”和“两次同时出现反面” 就是不相容事件。“至少出现一次正面”和“至少出现反面”就是两个相容事件,3. 概率的含义概率(Probability)是一个0到1之间的数,描述了一个事件发生的经常程度。小概率(接近于0)的事件很少发生
6、,而大概率(接近于1)的事件则经常发生。概率对统计的意义:对于统计,概率告诉我们,在样本数据的基础上,如果试验重复多次,各种结果发生的经常程度是多大。,.5,0,1,不可能,必然,4.获得概率的基本方法,利用机会均等法则(Equality likely approach)使用相对频次(Relative frequency)的方法利用主观概率(Subjective approach),4.1 利用机会均等法则如果试验有n种可能的结果,使某特定事件出现的结果数量为k,那么(k/n)就是出现该事件的概率。思考题:一副扑克52张(大、小王去掉),洗均匀,随机取一张牌,那么该张牌是梅花的概率是多少?,k
7、,n,要注意两点:,(1)分清楚你求解问题中什么是你的n,什么是你的k。 (2) 其实我们在这样做的时候,就已经接受了两个前提假设:a)实验的可能结果是已知的;b)由于对称性,每一个结果的可能性都是相同的。往往这两个前提假设不一定满足.,思考题再求以下问题的概率中,以上的哪个前提假设不满足:1)一场赛马比赛,有6匹马,求某一匹马胜出的概率。2)求解生男孩和女孩的概率,14讲小结,一、霍桑实验中的群体实验,这个实验的目的就是要看看,当每个工人的工作情况不但与自己的报酬、而且与同伴的报酬紧密关联时,工人会如何办?怎样协作?,实验条件:(1)人员:14名男职工,其中9名绕线工,3名是焊接工,2名检验
8、工;(2)计件工作制度,但却不是按个人的产量计酬,而是按集体的总产量计酬;报酬由厂方直接支付给个人,而不是交由小组自行分配。这样,工人完成的工作数额,不但决定着自己的工资,而且直接影响着一起干活的同事们的收入。实验结果:工人每天只完成了60006600个焊接点(标准每个工人应该完成7312个焊接点),且天天如此。为什么?,解释1:可能是这些工人的智力或者动作协调性有问题。 再做研究,研究测试结果否定了这一解释。合理的解释:工人们自动限制产量的理由是,如果他们过分努力地工作,就可能造成群体内同伴的失业,或者公司会制定出更高的生产定额来。所以群体会迫使其中的个体进行一致限产。也就是工人会受到非正式
9、组织的影响。 证实在工人当中存在着一种非正式的组织,而且这种非正式的组织对工人的生产率有着极其重要的影响,总结一下该研究的研究过程,二、变量(variable),变量简单的说就是事物的特征或者属性。研究者在研究项目开始的时候,就要确定他们所要研究的变量是什么。变量的值(value)通常是对某一个特定单位的度量,这种单位常常被视为一个个体(element)。什么是个体取决于你的研究问题。,21 变量的测量层次1)思考题:请回答以下收集到的数据,可以进行“”,“、” ,“,”中的哪些运算?(1)五个人的性别:1,0,0,1,1(1:男性;0:女性)(2)五个人的身高:170,173,165,180
10、,161(单位:厘米)(3)七天的气温(摄氏温度):15,24,27,18,34,30,19。(4)五个人对一项政策满意程度的评分: 5,3,3,4,2(1:十分不满意;2:不满意;3:一般或中立;4:满意;5:十分满意),2)思考题: (1)我们用一个量表测量人们对一项法律的态度,如果1表示不赞成,2表示无所谓,3表示赞成,对于3个人我们测得的值分别为:3、1、2,这些数据为_数据。 (2)测量10个大学生所在的年级,如果用1表示大一、2表示大二、3表示大三、4表示大四、5表示其他。测量的值为:1、3、4、1、2、3、2、1、1、4,这些数据为_数据。(3)测得5个人的第一次结婚年龄(单位:
11、周岁)为:20、22、24、30和26,这些数据为_数据。,三、频数分布数列,1.统计分组后,每个组分配的总体单位数称为频数或次数(f)。频数/总体单位总数=频率。2.意义整理了杂乱无章的数据,同时显示出一批数的分布情况,是数理统计学中随机变量及其概论分布概念在实际中的应用。,例1,家庭所拥有的电视机数对于广告行业来说是一个重要的信息,下面的数据是随机抽取的50户家庭中每个家庭所拥有的电视机数。1 1 1 2 6 3 3 4 2 4 3 2 1 5 2 1 3 6 2 2 3 1 1 4 3 2 2 2 2 3 0 3 1 2 1 2 3 1 1 3 3 2 1 1 3 1 5 1你能从中发现
12、什么?,思考题:(1)如果要让你去获取你所在楼层的家庭拥有的电视机数量的分布,你怎么去获取?(2)如果要让你去获取广州市家庭拥有的电视机数量的分布,你怎么去获取?,四、集中趋势分析,集中趋势是数据分布的中心,描述集中趋势的指标有算术平均数( )、几何平均数( )、中位数( )、众数( )等。,众数中位数,平均数,位置平均数,数值平均数,算术平均数调和平均数几何平均数,1.平均数的分类,2.算术平均数的计算公式,算术平均数1.简单算术平均数: 假定变量X有N个观察值:X1,X2,X3,XN,那么它的平均数 的计算公式是: 2.加权算术平均数:,例1:应用条件:资料未分组,各组出现的次数都是1。5
13、名学生的学习成绩分别为:75、91、64、53、82。则平均成绩为: =73(分),例2:某车间20名工人加工某种零件资料:,=,16(件),1)概念调和平均数是变量值倒数的算术平均数的倒数,故又称倒数平均数。调和平均数是算术平均数的一种,它是根据变量值的倒数计算的。,3.调和平均数及计算公式,原来只是计算时使用了不同的数据!,(1)简单调和平均数,2)调和平均数的计算公式,例1.某蔬菜市场三种蔬菜的日销售数据如表,计算三种蔬菜该日的平均价格。,(2)加权调和平均数,例2.设某公司下属三个部门的销售资料如下表,若缺少销售额资料而有利润额资料,如下表某公司下属三个部门销售情况,则三个部门的平均利
14、润率可以用各部门利润额除以销售利润率得到销售额,然后用各部门利润之和除以总销售额,便可得到平均利润率。其计算公式:,【例3】水果甲级每元1公斤,乙级每元1.5公斤,丙级每元2公斤。问:(1)若各买1公斤,平均每元可买多少公斤?(2)各买6.5公斤,平均每元可买多少公斤?(3)甲级3公斤,乙级2公斤,丙级1公斤,平均每元可买多少公斤?(4)甲乙丙三级各买1元,每元可买几公斤?【例4】自行车赛时速:甲30公里/小时,乙28公里/小时,丙20公里/小时,全程200公里,问三人平均时速是多少?若甲乙丙三人各骑车2小时,平均时速是多少?,调和平均数 (例题分析),【例3】解(1)(2),【例3】解(3)
15、(4),【例4】解,4. 几何平均数的计算公式,几何平均数1.简单几何平均数: 2.加权几何平均数: ,例:1.某产品经过三个流水连续作业的车间加工生产而成,本月第一车间的产品合格率为90%,第二车间的产品合格率为80%,第三车间的产品合格率为70%。则全厂的总合格率为:,这样平均合格率为,例2:设某笔为期20年的投资按复利计算收益,前10年的年利率为10%,中间5年的利率为8%,最后5年的年利率为6%。求平均年利率。解答:假设初始投资额为a,则20年后的本利和为A。则Aa(1+10%)10(1+8%)5(1+6%)5所谓的平均年利率,设为r,就是要使得a(1+r)20=A,即a(1+r)20
16、= a(1+10%)10(1+8%)5(1+6%)5,几何平均数、算术平均数和调和平均数的关系几何平均数、算术平均数和调和平均数之间存在着一定的数量关系。这种数量关系表现在:根据同一资料所计算的三种平均数,几何平均数大于调和平均数而小于算术平均数,只有当所有变量值都相同时,三种平均数才相等。用数学公式表示,它们之间的关系为:,5.众数,1.众数的含义:总体中出现次数最多、频率最高的标志值。2.确定众数的方法。(1)单项数列确定众数 21(件),众数的缺点,只考虑出現次数最多的资料,忽略了其他数值大小,故较不具敏感性除非知道全部的資料,否則我们无法由两组已知众数,求出合并后的众数,故不适合代数运
17、算。众数不具存在唯一性,可能只有一个、可能不只一个、也可能不存在,众数(不惟一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,(2)由组距数列确定众数下限公式:,上限公式:,6.中位数,1)概念中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。2)意义中位数是处于统计数列中间位置的数值。由于其位置居中,不受极端数值大小的影响,因而有时直接利用它来代表现象的一般水平。,例1:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000
18、1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,例2:10个家庭的人均月收入数据排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10,3)由组距分组数列确定中位数,(1)确定“中位数组”。 向上累计次数等于(2)假定中位数组内分布是均匀的,计算出中位数来。,向上累计时,向下累计时,中位数计算公式,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较
19、大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,比较众数、中位数和算术平均数的相对位置,MeMo,Me0时, 分布是右偏(正偏)的;当SK0,故也称正偏态;当分布为左偏态时,SK0,故也称负偏态。但除非是分组频数分布数据,否则SK公式中的众数M0有很大的随易性。,例1:两种投资组合:甲、乙,表中是9笔过去半年期投资报酬率,请问哪种投资组合的风险大?,注意,两者的标准差相同:0.05696,但是CV甲58.25%CV乙91.45%所以乙的风险较大。,例2:某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为
20、22.59kg,标准差为2.26kg,比较其变异度?,七、抽样,统 计 量 参 数样本容量:n 总体容量:N样本平均数: 总体平均数:样本比例: p 总体比例:P样本标准差:s 总体标准差:样本方差: S2 总体方差:2,总体与样本,1.抽样基本概念,全及总体和样本总体全及总体简称总体,是指根据研究的目的所确定的研究事物的全体,也就是抽样调查所确定的调查对象,又叫母体,全及总体单位数一般用N表示.样本总体简称样本,它是从全及总体中随机抽取出来的那部分单位组成的集合体,又叫子体。样本总体的单位数一般用n表示.,1.抽样基本概念,根据全及总体计算的反映总体数量特征的指标称为全及指标,又叫参数。常用
21、的总体参数有总体平均数和总体标准差(或总体方差)。总体平均数: =总体方差(或总体标准差): =,1.抽样基本概念,样本指标是指根据样本总体计算的指标,又叫统计量。样本平均数:样本方差或样本标准差S2 = n-1为样本变量自由度,抽样平均数的平均误差例题:,某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其工资水平资料如下:,计算样本平均数和抽样平均误差,解:列表计算,计算平均数即平均工资:,抽样调查的优点:(1)经济性。(2)时效性强。抽样调查可以迅速、及时地获取到所需要的信息。(3)准确性高。抽样调查的一个原则: “确信锅里的汤被搅拌均匀”。,2.抽样调查的方法
22、概率抽样(Probability sampling)非概率抽样(Nonprobability sampling),2.1概率抽样(Probability sampling),1)简单随机抽样(simple random sampling)就是等概率抽样,每个个体以相同的概率被抽中。这也可以分为重复抽样和不重复抽样两种形式。2)分层抽样(Stratified sampling)在抽样之前将总体划分为不同的层(群),然后在各个层中抽取一定数量的元素组成样本。分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。,概率抽样(Probab
23、ility sampling),3)等距离抽样(systematic sampling,系统抽样)首先将总体中的个体按照某种顺序排列起来,然后按照某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直到抽满n个元素形成一个样本为止。4)整群抽样(Cluster sampling)就是首先将总体划分为若干个群,然后以这些群为抽样单位从中抽出部分群,在对抽选出的群中的所有元素进行观察。思考题:假如你要调查广州市市区内的居民月收入,假设抽样容量为1000。你如何展开抽样?,1)便利抽样(Convenience sampling)研究者出于收集数据的便利,而不考虑抽样的概率,所进行的抽样。例如
24、:街头访谈、电话访谈、向自己的亲朋好友收集数据。这种样本数据收集过程都加入了某中人为的干扰和选择,所以从方便样本中得出的结果对于总体信息的推论程度是有限的。思考题:有时候杂志要求读者回答某些问题并寄回答案,从而构成一个样本。 请问这个样本能不能代表读者群总体?为什么?,2.2非概率抽样(Nonprobability sampling),2)判断抽样(Judgment sampling)是指经过专家考虑后,以适当的方式进行抽样。例如:研究青少年吸毒问题。,3.抽样误差,一般而言,样本统计量的分布就叫作抽样分布抽样平均误差就是抽样平均数(或抽样成数)的标准差。反映抽样平均数(或抽样成数)与总体平均
25、数(或总体成数)的平均误差程度。抽样误差= 数据收集、整理、记录和制表过程中产生的误差是非抽样误差。,影响抽样误差大小因素,总体方差或总体标准差的大小(正比例)样本容量的大小(反比例)抽样组织方式和抽样方法,(一)抽样平均误差,抽样平均误差是反映抽样误差一般水平的指标。常用抽样平均的标准差或抽样成数的标准差作为衡量误差一般水平的尺度。计算公式:,例1:从某厂生产的10000只日光灯管中随机抽取100只进行检查,假如该厂日光灯管平均使用寿命的标准差为100小时,试计算该厂日光灯管平均使用寿命的抽样平均误差。在重复抽样条件下:在不重复抽样条件下:,(二)抽样极限误差,是指在明确有一定把握程度的前提
26、下,所允许的抽样误差的可能范围,也可称之为允许误差。通常用来表示:,抽样估计的概率度:,抽样极限误差:,抽样极限误差的计算:,4.抽样估计,点估计,区间估计,直接用样本指标作为总体指标的估计值,根据样本指标估计总体指标估计值的上限和下限,1计算样本平均数 计算样本平均数的标准差计算抽样平均数的平均误差,总体平均数的区间估计(模式一),2根据给定的概率保证程度F(t),得概率度t3根据t求误差范围 4.对总体平均指标进行区间估计:,总体平均数的区间估计(模式一),1计算样本成数 计算抽样成数的平均误差,总体成数(比率p)的区间估计(模式二),2根据给定的概率保证程度F(t),得概率度t3根据t求
27、误差范围 4.对总体成数进行区间估计:,总体成数(比率p)的区间估计(模式二),例1:对某市400名居民休息日的睡眠时间抽样调查的结果显示,该市居民平均睡眠时间为535分钟,标准差为480分钟,要求在95的概率保证程度下,对该市全部居民的平均睡眠时间进行区间估计。解:,即可以以95的把握说,该市居民在休息日的平均睡眠时间在488-582分钟之间。,例2:通过对1000户居民家庭的耐用消费品抽样调查显示,拥有电脑的家庭为85,试以95.45的概率保证程度,估计该市全部居民家庭中拥有电脑的家庭所占比率。解:,该市全体居民家庭电脑拥有量在82.74至87.26之间,其概率保证程度为95.45。,5.
28、必要样本单位数的确定方法,(1)推断总体平均数所需的样本单位数:重复抽样条件下: 不重复抽样条件下:,5.必要样本单位数的确定方法,(2)推断总体成数所需的样本单位数:重复抽样条件下: 不重复抽样条件下:,例1:某市开展职工家计调查,根据历史资料该市职工家庭平均每人年收入的标准差为250元,而家庭消费的恩格尔系数(即家庭食品支出占消费总支出的比重)为65,现在用重复抽样的方法,要求在95.45的概率保证下,平均收入的极限误差不超过20元,恩格尔系数的极限误差不超过4,求样本必要单位数。,解:在重复抽样条件下:样本平均数的必要单位数:,样本成数的必要单位数:,两个抽样指标所要求的单位数为同一对象,应选取其中比较多的单位数,即抽取625户进行家庭调查以满足共同的要求。,