1、精品资料浅谈正态分布在现实生活中的应用摘要:无论从理论和实际应用的观点来看,正态分布毫无疑问是概率论和数理统计中的重要分布。它的重要性质是由于实际中遇到的随机变量有许多服从正态分布或近似服从正态分布的。 (例如,气象学中的温度、湿度、降雨量,有机体的长度、重量,智能测度的评分,实验中的测量误差,经济学中的众多度量等等)正 态分布是许多重要分布的极限分布;许多非正态分布变量是正态分布变量的函数;正态分布的概率密度和分布函数具有各种优良性质等。本文总结分析了正态分布和标准正态分布的性质和特点,然后着重分析了正态分布在医学, 岗位 测评, 试卷命题难度评价,天气预报等实际问题中的应用。关键词:正态分
2、布;标准正态分布;统计量一、 正态分布的有关知识1、正态分布的定义设连续型随机变量 具有概率X, (1.1)2()()2xfxe x其中 ( ), 为常数,则称 服从以 为参数的正态分布,(0)x,正态分布又称高斯分布,记为 。2(,)XN:2、 正态分布的图形特点为了画出正态分布的图形,先对概率密度做几点讨论:(1) ,即整个概率密度曲线都在 轴的上方;()0fxx(2)令 , ,分别代入 ,由(1.1)式可得c(0)xc()f且 ()()fff)(cf故 以 为对称轴,并在 处达到最大值fxx12f精品资料(3)当 时, ,这说明曲线 向左右伸展时越来越贴近以x()0fx()fx轴,即 以
3、 轴为渐近线。x()f(4)用求导的方法可以证明 为,为 的两个拐点的横坐标。x()fx综上,即可画出正态分布的概率密度曲线如图 1,它是一条关于 对称的钟x形曲线。图 1为了说明参数 对曲线位置形状的影响,请看图 2,图 2可以看出: 决定了图形的中心位置, 决定了图形中峰的陡峭程度,当 较大时,图形趋于平缓,当 较小时,图形趋于陡峭。也就是说, 决定了分布的中心位置, 反映了分布的分散或集中程度。由(1.1)式得 的分布函数为x2()1()2tFxed(1.2)3、标准正态分布当 时,相应的正态分布 叫做标准正态分布。对标准正态分布,0,1(0,1)N通常用 表示概率密度函数,用 表示分布
4、函数,即()xx精品资料(1.3)21()()txxtded标准正态分布的重要性质在于,任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。定理 1 设 ,则 。2(,)XN:(0,1)XYN:根据定理 1,只要将标准正态分布的分布函数制成表,就可以解决一般正态分布的概率计算问题。至此,我们对正态分布的性质、特点有了初步的了解。从密度函数的图形看,它是一条关于 对称的钟形曲线。可以形象地用“两头小,中间大,左右对称”x来描述。在自然界和社会领域常见的变量中,很多都有这种性质。4、正态分布的几个定义:设 是来自总体 的一个样本, 是相应的样本值,1,2nXX1,2nx是样本 的函数,若
5、中不包含任何未知参数,则称1,2()ng1,2ng是一个统计量。,下面是几个常用的统计量,设 是来自总体 的一个样本,1,2nXX是相应的样本值,定义1,2nx样本均值 ;1niiX样本方差 ;2211()()nni ii iSXX样本标准差(样本均方差) ;221()niiS样本 阶(原点)矩 k1,;nkkiiAX样本 阶中心矩 1(),2,;knkiiB二、 正态分布在现实生活中的应用精品资料1、在医学方面的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可
6、按正态分布规律处理。(1) 估计正态分布资料的频数分布例 1.10 某地 1993 年抽样调查了 100 名 18 岁男大学生身高(cm) ,其均数=172.70cm,标准差 s=4.01cm,估计该地 18 岁男大学生身高在 168cm 以下者占该地 18 岁男大学生总数的百分数;分别求 、 、 范围内18 岁男大学生占该地 18 岁男大学生总数的实际百分数,并与理论百分数比较。本例, 、 未知但样本含量 n 较大,按式(3.1)用样本均数 和标准差 S分别代替 和 ,求得 u 值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上
7、方找到 0.07,两者相交处为0.1210=12.10%。该地 18 岁男大学生身高在 168cm 以下者,约占总数 12.10%。其它计算结果见表 1。100 名 18 岁男大学生身高的实际分布与理论分布实际分布身高范围(cm) 人数百分数(% )理论分布(%)168.69176.7167 67.00 68.27164.84180.5695 95.00 95.00162.35183.0599 99.00 99.00表 1(2)制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人
8、”不是指“健康人”,而是指排除了影响所精品资料研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如 80%,90%,95%和 99%,常用 95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有: 正态分布法:适用于正态或近似正态分布的资料。双侧界值: 单侧上界: ,或单侧下界:对数正态分布法:适用于对数正态分布资料。双侧界值: ;单侧上界: ,或单侧下界:。常用 u 值可根据要求由下表
9、 2 查出。参考值范围(%)单侧 双侧80 0.842 1.28290 1.282 1.64595 1.645 1.96099 2.326 2.576表 22、 正态分布在岗位测评中的应用假定某公司有 50 个岗位,应该有 50 个人,则系数为 10 以下的岗位数和人数为:50* ( 10)46 18 ,则岗级系数分布在 10 的岗位数和人数为:5050* ( 10)4;根据正态分布的性质,则岗级分布在 3 的岗位数和人数也应为 4;岗级 49 的岗位数和人数应为 42。如果我们称岗级系数为 49 的人为中等收入者,说明这种岗位分配和收入分配符合正态分布,分布在各岗级系数的人数是合理的,有利于
10、企业的稳定、发展。 同理根据正态分布函数,依次求得各岗级系数的岗位数和人数: ()(9 ) 08461;则系数为 9 以下的岗位数和人数为:50*( 9)42 人;则岗级系数分布在 9 的岗位数为:46 424 个。 精品资料依次求得: (8) 07291,则系数为 8 以下的岗位和人数为: 50*(8)36 人;即岗级系数分布在 8 的岗位数为: 42366 个。 (7) 05793,则系数为 7 以下的岗位和人数为: 50*(7)28 人;即岗级系数分布在 7 的岗位数为: 36288 个。 (6) 04207,则系数为 6 以下的岗位和人数为: 50*(6)21 人;即岗级系数分布在 6
11、 的岗位数为: 28217 个。 (5) 02709,则系数为 5 以下的岗位和人数为: 50*(5)14 人;即岗级系数为分布在 5 的岗位数为: 21147 个。 (4) 01539,则系数为 4 以下的岗位和人数为: 50*(4)8 人;即岗级系数分布在 4 的岗位数为: 1486 个。 (3) 00764,则系数为 3 以下的岗位人数为: 50*(3)4 人;即岗级系数分布在 3 的岗位数应为 4 个。 如下表 3 和图 3: 图 3这说明,上述分布符合正态分布,对于一个企业来说,上述分布正是企业经营者所希望的。 各岗级系数的岗位数一旦确定,那么岗位测评中的打分结果就可以从最高到最精品
12、资料低排序,定出各岗级的岗位数,相应的人数也就定了,相应的薪酬也就定了。由于计算过程有累计误差,所以相差 4 人,根据正态分布原理,这 4 人岗级系数应落在49 范围里面,可以根据企业具体情况调整。3 、正态分布规律在试卷命题难度评价中的应用教育评价技术方法中教育测量理论是应用教育统计学方法来实现的,众所周知,正态分布是最常见、应用最广的一种重要分布,按照数理统计学的基本原理,经统计分析(样本数 30)93%的考试成绩分布状况在直观上呈现为“中间多,两边少,左右基本对称”的特点,因此被测验对象的学习或某种能力指标和某种能力指标的测验结果 可以近似地用正态分布 N( ),来描述。因而通过样本对总
13、体的某些特征 (如均值或2方差) 推理判断,已成为教育研究中一种较为常见的方法。用统计学原理确定学生成绩的平均分及正态分布曲线,并将其作为对试卷分析评价的基础。 (1)考试成绩的分布形态(规律) 保证考试质量是数学活动中不容忽视的重要组成部分。如何提高考试质量,不仅应在试前对试卷质量进行预测分析,更应结合试后考试成绩分析作出最终评价。用学生的考试成绩可以定量对命题质量进行评价与分析。观察统计学生考试成绩的直方图,其分布大致可分为 5 种情形单峰且对称、单峰大体对称;单峰但峰值向左移;单峰但峰值向右移;双峰或多峰;大体上可以一个平台型为代表等等。(2)学生成绩正态分布曲线分析 根据教育学与统计学
14、的理论,一次难度适中信度可靠的考试,学生的成绩应接近正态分布。也就是说,当学生的成绩接近于正态分布时,则说明此次考试基本达到了教学要求。判断成绩是否接近正态分布,最直观,最有效的方法是将成绩分布曲线与均值和方差相同的正态分布曲线加以比较。当然,学生成绩呈现正态分布是理想化状态。考试成绩完全呈正态分布有一定的困难,也不现实。但我们要以正态分布为标准模式,加以对比,找出不足。 利用教育统计学研究发现,对于难度适中、客观有效的考试成绩一般都符合正态分布,且平均分在 75 分左右,标准差在 9 5 之间。因此,我们有理由使用各种高级统计方法处理考试分数,以挖掘更多的教育信息。考试成绩是考生水平的反映,
15、同时考试成绩分布是否正态分布反映了命题质量。根据正态分布曲线呈现的形态,可以进行考题相对难度分析。 精品资料平均成绩的差异引起曲线的水平位置变化,平均成绩偏低,如低于 65 分说明试卷难度较大;而偏高在 90 分以上说明试卷难度太小。若学生成绩分布属 所示的形态,这表明试卷命题的质量是比较好的.这里又有两种情形:在标准差不变的情况下随着平均分数的增加曲线向右移说明考生答题逐渐轻松;相反, 随着平均分数的减小说明考题逐渐变难,学生成绩逐渐降低。在学生和教师工作正常情况下,题目越容易曲线越向右移。在平均分不变的情况下,标准差较小如低于 6,成绩分布较集中,正态分布曲线呈陡峭型状态说明试卷区分度太小
16、,表示中等难度试题所占比重太大;标准差较大如大于 9,成绩分布较平坦,试卷区分度太大,则表示中等难度试题偏少。 若学生成绩分布属所示形态, 即负偏态分布说明难度较大的试题比例偏高,表明试卷题目偏难;若学生成绩分布属所示的形态, 即正偏态分布说明难度较小的试题比例偏重,则表明试卷题目偏易。若学生成绩分布属或等所示的形态,则表明试卷的命题质量不好,随意性较强,这样的试卷成绩不能很好地测量出学生对所学知识掌握情况。 (3)正态分布应用的结论 考题相对难度是指考题从整体上讲相对考生其难易程度的合理性,用学生成绩的平均分数衡量考题相对难度应是合理、可行的。对于高校结业类型的考试,经统计平均分数在 77
17、分附近时,考题相对难度是适中的。通过确定恰当的偏离度等级标准,对试卷做出试题难度相对学生考题合理、考题稍偏易或稍偏难、考题较易或较难、考题过易或过难、考题难度不合理的 5 个等级判断。 综上所述,考试成绩符合正态分布是说明考题命题合理的条件,也是衡量考试质量的一个客观标准。考试的重要功能之一是信息反馈, 考试分数的分布形态里蕴含着丰富的教学信息。对考试分数的统计处理可以得出大量有价值的教学信息,据以评价教学、改进教学和进行教学研究。进一步分析发现,正态性较弱的课程有这样一些特点:考试分数出现了“极值”(特小值),或者是中间分数段分数的频数太小,或者是尾端频数略高。所以根据正态分布曲线呈现的状态
18、,可以评价试卷的难易程度,为评价试卷命题质量提供数据资料。进而调整教学进度,改进教学方法。 在正常情况下,成绩均服从或近似服从正态分布规律,可认为成绩分布比较理想,命题恰当,难易适中。但是考试成绩呈正态分布也是有生成条件的,当考分出现非正态分布时有下列情况,在统计样本中有弃学逃学学生,如果该类学生有一定比例势必使低分精品资料段学生分布密度高于正态分布曲线;在统计样本中有复修该课程而且前期学习较好的考生,否则高分段分布密度过大;考试题是偏难怪的题目。 4、正态分布在天气预报中的应用降水资料(1953-2003 年)取自亳州市气象观测站,监测点地理纬度:33o52N、115 o46E。(1) 降水
19、概率分布模型及其参数估计降水概率分布模型降水资料是否服从正态分布或标准正态分布,可利用样本的偏度系数(Cs)进行检验6, Cs 的计算式为:3Cs(2.1)其中: 为样本的 3 阶中心矩; 为样本标准差。3理论上讲,当 Cs=0 时,降水资料即服从正态概率分布。事实上,由于观测资料本身存在着随机抽样误差,使计算的 Cs 也有一定的误差。因而,实践上认为:-2(6 n) 1/2Cs+2(6n) 1/2 时,降水资料可近似认为服从正态概率分布;否则服从偏态概率分布。文献4、5指出,将气候要素极值变量作适当初等函数变换后,偏度系数会显著减少而能满足正态概率分布,即准正态概率分布。因此,本文采取此方法
20、,对涉及的不同时段的降水要素值(x)进行适当的初等变换,如对数(lnx )变换、平方根(x 1/2 )变换、立方根( x 1/3)变换等,然后,统计分析其 Cs,从中选取 Cs 满足上述标准的变换形式作为求取概率模型的样本资料,进而求取各自的概率分布模型。准正态概率模型参数的估计 准正态概率分布密度函数通式可推导如下,设原始观测记录为连续变量 X,经过函数变换后,新变量为 y,即有 y=g(x) ,原变量 x 的分布密度函数 f(z )为 : ()/Fzydx精品资料(2.2)(2.2)式中 (y)是变量的概率分布密度函数,据假设条件有:221()()yyyFe(2.3)则原变量 X 的概率密度函数为:221()()2ydyFxegx(2.4)式(2.4)中 和 两参数的估算,可利用矩法或极大似然法(本文用此法求取参数)求得分别为(2.5) 、 (2.6)式:1()niigx(2.5)221()niigx(2.6)其准正态概率分布函数为:()Fxfdx(2.7) (2)研究结果各时段降水的正态、偏态检验图 4 亳州市历年年降水量和汛期降水量