1、 211 第四篇 数理统计模型 数理统计学的理论和方法与人类活动的各个领域在不同程度上都有关联,数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术,数理统计学所考察的数据都带有随机性(偶然性)的误差, 一些随机现象的特征可以通过对统计数据的整理与加工得到体现,数理统计的应用基础是抽样分布,特别是正态总体的抽样分布是统计推断的理论基础。 在 数理 统计的应用实例中, 通过对应用问题建模 主要培养统计数据的处理和分析以及根据统计数据进行统计推断的方法, 根据统计数据进行相关分析和回归分析的方法 。 应用数 理统计方法解决问题首先要对 统计数据 进行 处理 和加工,熟悉
2、相关的抽样分布。与统计数据的处理和 抽样分布相关的应用实例有: 统计数据的整理与加工, 彩电色彩的质量分布, 根据统计数据估计吉尼( Gini)系数, 正态总体样本方差服从卡方分布并且与样本均值相互独立,正态总体样本标准差 S 不是总体标准差 的无偏估计量 等 。 数理统计的主要任务是统计推断,包括统计估计和统计检验,是根据统计数据对未知的随机现象进行统计推断,在质量管理与控制等方面有着 重要的应用。 与统计估计相关的应用实例有: 参数估计方法在捕鱼问题中的应用, 平均值的质量控制图, 概率论在产品质量验收抽样方案确定中的应用 。 与统计推断相关的应用实例有:实际推断原理 小概率事件原理, 改
3、变包装能使销售量增加吗? 成对比较与成组比较, 葡萄酒质量的评价 , 刀具寿命的 “正态拟合 ”, 保险实务中损失分布的统计分析 等 。 相关分析是用来分析变量间关系与方向程度的方法,回归分析是用来分析自变量与应变量之间的数量关系,二者既有联系又有区别,在研究变量之间的非确定性关系中有重要的作用。关于相关分析与回归分析的应用实例有: 手掌 “生命线 ”的长度并不反映人的寿命,一元线性回归在季节波动预测中的应用 , 输电线路有功潮流值与发电机组出力的多元线性回归 等 。 212 4.1 统计数据的整理与加工 上海证券交易所将每天各种股票的交易价格概括为一个综合指数,称为 “上证指数 ”,如果今天
4、的上证指数为 iy ,而上一个交易日的上证指数为 1iy ,则称 1 iii yyx 为上证指数的涨跌值。下面的数据是上海证券交易所 1995年头 50个交易日上证指数涨跌的 观测值(摘自新民晚报) )50,2,1( ixi : 13.93, -6.92, -6.13, -14.79, -15.70, -2.83, -11.01, -4.28, -9.03, -0.87, 5.70, -21.92,-0.48, -17.80, -5.87, 8.20, -2.67, -28.87, -1.23, 1.26, 19.61, -11.98, 7.46, -0.73, -5.27,-4.47, -4
5、.61, 1.20, 6.18, 53.50, -5.51, 7.30 , 2.84, -12.01, 7.70, 3.89, 16.37, 39.08,16.66, -12.15, -15.22, 30.19 , -0.06, 2.01, -15.64, 7.28, 13.64, -8.07, 6.50, 21.75。 经计算, 36.41501 i ix, 44.113975012 i ix,样本均值 501 8 2 7 2.0501i ixx,样本方差 9 0 2 6.2 3 150491501222 i i xxS,样本标准差为 2284.15S 。总起 来看,这段时间,股市不太景气,
6、平均每个交易日下跌 0.8272点。应用 EXCEL中数据分析,进行描述性统计,输出结果 见表 4.1.1。 表 4.1.1 50个交易日上证指数涨跌的观测值 的描述性统计 平均值 -0.8272 标准差 15.2283 区域 84.2 观测数 50 标准误差 2.1536 方差 231.9026 最小值 -30.7 最大 (1) 53.5 中位数 -1.95 峰度 2.8306 最大值 53.5 最小 (1) -30.7 众数 无 偏度 1.0575 求和 -41.36 置信度 (95.0%) 4.3278 为了研究这段时间上海证券交易所股市的变化动态,要对统计数据进一步研究。由于上证指数的
7、涨跌值 X 是一个连续型随机变量,因而我们采用分组方法进行整理 ,见表 4.1.2。 表 4.1.2 分组整理数据 区间 频 数 in 频率 if 累积频率 iF 41.47 1 0.02 1.00 由整理的数据,我们可以作出频数(频率)直方图和累积频率直方图(见图 4.1.1)。213 00.10.20.30.40.50.60.70.80.91- 30 .7 0- 18 .6 7- 6. 645 .3 91 7. 412 9. 444 1. 47其他频率.00%10.00%20.00%30.00%40.00%50.00%60.00%70.00%80.00%90.00%100.00%把频率直方
8、图中各个小矩形顶边的中点连接起来,就得到频率分布曲线,它的极限就是随机变量 X 的概率密度函数 )(xf 。由累积频率所描述的累积频率曲线 )(xFn ,它称为样本分布函数或经验分布函数,它的极限就是 随机变量 X 的分布函数 )(xF 。由此我们可以研究随机变量 X 的分布规律,为证券投资决策提供可靠的理论依据。 图 4.1.1 频率直方图与累积频率折线图 评注 1理论依据 根据样本作 描述性统计,作频率直方图观察密度函数的大致类型,作 累积 频率 折线图 ,研究分布函数。 2应用与推广 样本的分布完全是由总体的分布来决定的。但在数理统计中,总体的分布往往是未知的,一般做法就是要通过样本找到
9、一个分布来近似代替总体的分布;或者说根据样本对总体进行统计推断。因此,对样本数据进行必要的处理和分析,作描述性统计是一些基本做法。 参考文献 茆诗松等 .概率论与数理统计 M.中国统计出版社 .2000.7. 4.2 彩电色彩的质量分布 SONY 牌彩电有两个产地:日本与美国。两地的工厂是按同一设计方案和相同的 生产线生产同一牌号 SONY 电视机,连使用说明书和检验合格的标准都是相同的。譬如彩电的彩色浓度 Y 的目标值为 m ,公差(允许的波动)为 5,当 Y 在公差范围 5,5 mm 内该彩电的彩色浓度为合格,否则判为不合格。 214 图 4.2.1 彩电质量分布图 两地产的 SONY 牌
10、彩电在美国市场上都能买到,到 70 年代后期,美国消费者购买日本产的 SONY 彩电的热情高于购买美国产的 SONY 彩电。这是什么原因呢? 1979 年 4 月17 日日本朝日新闻刊登了这一问题的 调查报告,报告指出:日产的彩色浓度 1Y 服从正态分布 235,mN,而美产的彩色浓度 2Y 为均匀分布 )5,5( mmU 。这两个不同的分布表示着两个不同的总体 ,如图 4.2.1。这两个总体的均值相同,都为 m ,但方差不同。 78.235)( 21 YVa r , 67.1)( 1 Y 33.81210)( 22 YVar , 89.2)( 2 Y 可见,日产的彩色浓度方差小于美产的彩色浓
11、度的方差。如果规定彩色浓度在),( mm 内为 等 品 , 在 2,2( mmmm 内为 等品,在3,22,3( mmmm 内为 等品,在 ,33,( mm 内为 等品,从而在 级品数量上日产 SONY 是美产 SONY 的两倍 ,如表 4.2.1,这就是美国消费者乐于购买日产 SONY 的主要原因。 表 4.2.1 美产和日产 各等级彩电的比率 等级 美产 33.3% 33.3% 33.3% 0 日产 68.3% 27.1% 4.3% 0.3% 为什么两个工厂按同一个设计方案、相同设备生产同一种电视机,其彩色浓度会有不同的分布呢?关键在于管理者,美国 SONY 生产厂的管理者按彩色浓度合格范
12、围5,5 mm 要求操作,在他看来,只要彩色浓度在此范围内,不论它在区间的什么位置都认为合格,因而造成彩电浓度落在这个区间内任一相同长度小区间内的机会是相同的,从而形成均匀 分布 )5,5( mmU 。但日产 SONY 的管理者认为,彩色浓度的最佳位置在 m上,他要求操作者把彩色浓度尽量向 m 靠近,这样一来,彩色浓度在 m 周围的机会就多,-6 -4 -2 2 4 6 日产 SONY -0.1 0.1 0.2 0.3 0.4 0 美产 SONY 215 而远离 m 的机会就少,最后导致服从正态分布 235,mN。 评注 1理论依据 随机变量的方差反映了随机变量关于其数学期望的离 散程度。方差
13、越小,质量越稳定。 2应用与推广 随机变量的方差在质量控制方面有着重要的应用。尽管日产 SONY 牌彩有 0.3%的 等品,但其 等品率远远超过美产 SONY 牌彩电。在质量管理与质量控制过程中,往往根据产品质量指标的标准差为依据。 参考文献 茆诗松等 .概率论与数理统计 M.中国统计出版社 .2000.7. 4.3 根据统计数据估计吉尼( Gini)系数 收入的差异是反映社会收入分配是否公平的重要指标。一般说来,鼓励自由竞争会扩大收入差异,但是政府可以通过税收政策和对低收入者的补助来缩小收入的差异。下面 介绍的洛伦兹( Lorenz)曲线是反映收入差异的一种图形描述,它可以用来对各国的收入差
14、异程度进行比较或对政府的某项政策对收入分配带来的影响作出评价。现有 30个工人家庭月收入(元)的数据,从低到高列表如 表 4.3.1。 表 4.3.1 30个工人家庭月收入的数据 单位:元 编号 收入 编号 收入 编号 收入 编号 收入 编号 收入 1 1650 7 1900 13 2100 19 2430 25 2860 2 1700 8 1920 14 2150 20 2500 26 2920 3 1800 9 1940 15 2200 21 2550 27 3000 4 1820 10 1980 16 2250 22 2680 28 3220 5 1830 11 2020 17 2300
15、 23 2800 29 3580 6 1880 12 2080 18 2350 24 2820 30 4010 表 4.3.2 每组家庭的户数和收入的累积值及百分比累积值 组号 户数累积百分比 组内收入 收入累积 收入累积百分比 1( 16户) 20% 10680 10680 14.99% 2( 712户) 40% 11840 22520 31.61% 3( 1318户) 60% 13350 35870 50.35% 4( 1924户) 80% 15780 51650 72.50% 5( 2530户) 100% 19590 71240 100% 216 把这 30个家庭按顺序分成相等户数的 5
16、组,然后统计出每组家庭的收入总数以及户数和收入的累积值及百分比累积值如表 4.3.2所示: 若用横坐标表示户数累积百分比,纵坐标表示收入累积百分比,则最低收入组 6户占总户数的 20%,该组家庭的总收入占全部家庭总收入的 14.99%,将坐 标点( 20%, 14.99%)描在图上 A点;最低收入户和偏低收入户共 12户,占总户数的 40%,它们的收入之和占 30户家庭总收入的 31.61%,将坐标点( 40%, 31.61%)描在图上 B点,类似地得到 C点( 60%,50.35%), D点( 80%, 72.50%), E点( 100%, 100%)。将这些点连成一条光滑的曲线,便得到洛伦
17、兹曲线,它是一条向下凸的曲线 ,如图 4.3.1。 图 4.3.1 绝对公平线与 洛伦兹曲线图 如果所有家庭的收入全部相等,则洛伦兹曲线为 xy ,这条 线称为绝对平等线,所以洛伦兹曲线描述了收入的不平等状况。由于收入是按从小到大的顺序排列的,所以洛伦兹曲线位于直线 xy 的下方,它越接近直线 xy ,收入就越平均;越向下方凸出,则收入分配越不平均。 记洛伦兹曲线为: )(xLy ,那么, xy 与 )(xLy 围成的弓形的面积越大的话,则洛伦兹曲线 )(xLy 越向下凸出,从而表明收入越不平均。为此,我们用该弓形面积与xy , 1x 和 x 轴所围成的三角形面积(该三角形的面积等于 21 )
18、之比值 1010 )(2121)(21 dxxLdxxLg 作为一种度量收入分配不平等的指标,称为吉尼( Gini)系数。可见,吉尼系数越接近于 0,收入分配越公平,反之就越不公平。 吉尼( Gini)是意大利统计学家,他 在 1922年发表的有关收入集中指数的研究中指出了吉尼系数。由于吉尼系数与货币的选择无关,因此它特别适用于对不同国家不同时期的收入分配状况的比较。 根据洛伦兹曲线,政府制定累进税收体系,使完税后的曲线与公平线接近一些,使吉尼系数更小一些,缩小收入的差距,使社会财富的分配更趋于公平。 217 评注 1理论依据 根据人口和收入的样本进行统计分析,可以绘出 洛伦兹曲线,进一步可以
19、估计吉尼系数。 2应用与推广 根据经济统计数据,可以进行相关的统计分析。由此可以利用统计数据计算或者估计诸如增长速度、 吉尼系数、弹性系数等,为进 一步分析奠定基础。 参考文献 缪柏其 .管理统计学 M.中国科学技术大学出版社 .2002.9. 4.4 正态总体样本方差服从卡方分布 并且与样本均值相互独立 设 nXXX ,., 21 是来自正态总体 ),( 2N 的一个样本, ni iXnX 11 为样本均值, ni i XXnS 1 22 )(11 为样本方差。则: ( 1) )1()(1)1( 21222 2 nXXSn ni i ( 2)22)1( Sn 与 X 相互独立。 证明:考虑对
20、样本 nXXX ,., 21 作线性变换 XnXXXnZXnnnXXXnnZXXXXZXXXZXXZnnnnn).(11(1).()1(1.433)(431322)(3212121211211432133212211由于 nXXX , 21 相互独立,且均服从正态分布 ),( 2N ,则可以证明 ),0(2121 2211 NXXZ 218 ),0(32 2)(32 1 23212 NXXXZ ),0(1( 1).()1( 1 21211 NXnnnXXXnnZ nnn ),().(1 221 nNXnXXXnZ nn 并且经过计算可知: njijiZZC o v ji ,.,2,1,0),(
21、 ,这说明 nZZZ ,., 21 相互独立。 212221221222 2 11)(1)1( nni ini ini i ZZXnXXXSn 211 niiZ 121 ,., nZZZ 相互独立,且均服从正态分布 ),0( 2N ,从而 121 ,., nZZZ 仍相互独立,均服从标准正态分布 )1,0(N 。所以,22)1( Sn 可以表示成 1n 个相互独立服从标准正态分布的随机变量的平方和,因此 )1()1( 222 nSn 。 又由于 nn ZZZZ ,., 121 相互独立,及 21122)1( niiZSn nZnX 1 故22)1( Sn 与 X 相互独立 评注 1理论依据 正
22、态总体样本的独立性 ,相互独立的正态随机变量的线性函数仍然服从正态分布, 2分布的构造。 2应用与推广 很多教科书上都有这个结论,但是都没有给出理论证明,而这个结论在正态总体的抽样分布中是极为重要的。同时,通过这个证明,充分表达了 21122)1( niiZSn 是 1n 个相互独立的标准正态分布随机变量的和,因此其自由度是 1n 。由于22)1( Sn 与 X 相互独立,为进一步构造 nXt服从自由度为 1n 的 t 分布奠定基础, 参考文献 219 茆诗松等 .概率论与数理统计 M.中国统计出版社 .2000.7. 4.5 正态总体样本标准差 S 不是总体标准差 的无偏估计量 设 nXXX
23、 ,., 21 是来自正态总体 ),( 2N 的一个样本, ni iXnX 11 为样本均值, ni i XXnS 1 22 )(11 为样本方差。众所周知,对任何总体来说样本方差 2S 是总体方差 2 的无偏估计量,正态总体更不例外。但样本标准差 S 却不是总体标准差 的无偏估计量。 证明:由于 )1()1( 222 nSn ,若令22)1( SnY ,则 )1( 2 nY 的概率密度函数为 0002121)(212121yyeynypynn从而 dyeyndyypyYE ynn 0 212212121)( dyeynnnynn 0 21222212122 2122nn另一方面 , SEnS
24、nEYE 11 ,所以有 nCnnnYEnSE1212121所以,样本标准差 S 却不是总体标准差 的无偏估计量。 如果进行修正,则可以得到 的无偏估计量 SCn ,其中 被积函数是参数分别为2n和21的伽玛分布的概率密度函数,积分等于 1。 220 22121nnnCn评注 1.理论依据 正态总体样本的抽样分布, 2 分布与 分布的有关性质。 2.应用与推广 无论总体 X 服从什么分布,修 正的样本方差 ni i XXnS 122 )(11 是总体方差 )(XD的无偏估计量,但是样本标准差 S 不是总体标准差 )()( XDX 的无偏估计量。只有在正态总体的情况下才有确定性的修正方法,使得
25、SCn 是总体标准差的无偏估计量,对于非正态总体,情况极为复杂,一般不对其进行讨论。 参考文献 茆诗松等 .概率论与数理统计 M.中国统计出版社 .2000.7. 4.6 参数估计方法在捕鱼问题中的应用 设湖中有鱼 N 条,现捕出 r 条,做上记号后放回湖中 (假设 记号 不会 消失 ),一段时间后让湖中的鱼(做上记号的和没做记号的)混合均匀,再从湖中捕出 s 条 )( rs ,其中有 t条 )0( rt 标有记号。试根据这些信息,估计湖中鱼数 N 的值。 1.根据概率的统计定义:湖中有记号的鱼的比例应是Nr(概率),而在捕出的 s 条中有记号的鱼为 t 条,有记号的鱼的比例是st(频率 ) 。设想捕鱼是完全随机的,每条鱼被捕到机会都相等,于是根据用频率来近似概率的道理,便有 stNr即 trsN故 trsN(取最接近的整数)。 2.用矩估计法:设捕出的 s 条鱼中 ,标有记号的鱼为 1 ,因为 1 服从 超几何分布,而超几何分布的数学期望是NrsE )( 1。捕 s 条鱼得到有标记的鱼的总体平均数,而现在只捕一次,出现 t 条有标记的鱼,故由矩估计法,令总体一阶原点矩等于样本一阶原点矩,即tNrs ,于是也得 trsN (取最接近的整数)。