1、数据整理及数据的描述,统计数据 来源:统计报表(制度)频数(率)分布 直方图-适当分组,确定组限、组中值-编织频数分布表,重点调查,典型调查,抽样调查,非全面调查:,全面调查:如第五次人口普查,专门调查,例 共50人 5060 5人 6070 11人 7080 17人 8090 11人 90100 6人,直方图,频率(%),频数(人),11,22,5,10,55,65,75,85,95,分布特征 从直方图到分布曲线直方图给出一种“分布”的直观形式钟型分布 如身高、体重、成绩 U型分布 如人群健康(生病)正反J型,劳伦兹曲线,本世纪初 将两种累计频率对应图示 前例50人 总分3770分,0,10
2、,32,66,88,100,100,85,60,26.5,7.3,基尼系数 A/(A+B) 越小越均匀(公平)思考:与ABC分类法的关系?例 6,9,12,15,18 宽度定为1时,所绘图形上 可以面积表示频率大小 任何一个关于频率的直方图,可以经适当度量变换,以分布形状的面积大小来度量频率大小。 如某地区,20,100,75%,0.3,1.64,2.1,分布的数字特征,均值:X(Xi)/n离散趋势方差:S2 (XiX)2(n-1)例:6,9,12,15,18均值:X(6+9+12+15+18)/5 12 方差:S2 36+9+0+9+364=22.5,从直方图描述到分布描述,随机变量及其概率
3、分布 前例6,9,12,15,18可以看作一种客观存在的分布 从另一个观点,如果5个数中每次取一个,则有P(X=6)=1/5, P(X=9)= 1/5,P(X=18)=1/5. 由6,9,12,15,18等可能的随机产生的性质,我们得到了概率分布图。若适当选取度量单位,如使每个直方条的宽度为1,则可以用面积大小表示概率大小,如P(9=X=15)=0.6,即途中三个直方条的面积总和。于是现在我们可以用函数描述与处理随机现象。 概率意义上的平均值,称数学期望 (有时我们不再区分两者,其意自明),伯努利分布,抛硬币正面X=1,P(X=1)=1/2 反面X=0,P(X=0)=1/210个产品中2个次品
4、,取一件,得正品为1,次品为0。有P(X=1)=8/10,P(X=0)=1/5,一般设P(X=1)=p P(X=0)=q=1-p(0p1)可以计算E(X)=1*p+0*q=p Var(X) =(1-p)2p+(1-p)2q=q2p+p2q=pq,二项分布(N重伯努利分布),设产品中正品率位p,次品率为q=1-p,抽后放回,重复n此,以k表示n池中得到正品的次数,则有重要结果 E(X)=np Var(X)=npq,正态分布,前例,某地区身高分布 同样可做两种理解: 大量数据整理后的频率直方图 任取一人,其身高的概率分布图 身高、体重、成绩、加工零件的尺寸等均服从这种分布,称“正态分布”。 总体两
5、大,分组越细越近于曲线,为便于用数学手段进行分析,有其“理论模式”,抽样分布与抽样定理,抽样与抽样分布总体与样本 总体:所论全体,大集合样本:抽取部分,子集目的:以样本去反映,“代表” 总体。总体分布是最全面的信息,往往不知道;通过抽样,取得数据,如样本均值、方差得去看主题。重要的是分析 的分布与总体分布之间或与总体参数 、 等的关系。,2,抽样分布就是抽样均值 所遵循的分布。如 抽样一次,但 理论上应付从某种与总体参数有关的分布,P,9,10,11,12,13,14,15,样本均值与样本方差 = =,n,2,n - 1,抽样定理,总体为正态时成立,均值不变,密集度增加一般总体,但n足够大时亦近似成立(可进一步理解正态分布的成因)二项“类”,如“赞成,反对”抽样,有,由 ,可以说明 计算(定义式)的缘由。,