第四篇数理统计模型.DOC_文客久久网wenke99.com

资源描述

1、211第四篇数理统计模型数理统计学的理论和方法与人类活动的各个领域在不同程度上都有关联，数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术，数理统计学所考察的数据都带有随机性（偶然性）的误差，一些随机现象的特征可以通过对统计数据的整理与加工得到体现，数理统计的应用基础是抽样分布，特别是正态总体的抽样分布是统计推断的理论基础。在数理统计的应用实例中，通过对应用问题建模主要培养统计数据的处理和分析以及根据统计数据进行统计推断的方法，根据统计数据进行相关分析和回归分析的方法。应用数理统计方法解决问题首先要对统计数据进行处理和加工，熟悉相关的抽样分布。与统计数据的处理和

2、抽样分布相关的应用实例有：统计数据的整理与加工，彩电色彩的质量分布，根据统计数据估计吉尼（Gini ）系数，正态总体样本方差服从卡方分布并且与样本均值相互独立，正态总体样本标准差不是总体标准差的无偏估计量等。S数理统计的主要任务是统计推断，包括统计估计和统计检验，是根据统计数据对未知的随机现象进行统计推断，在质量管理与控制等方面有着重要的应用。与统计估计相关的应用实例有：参数估计方法在捕鱼问题中的应用，平均值的质量控制图，概率论在产品质量验收抽样方案确定中的应用。与统计推断相关的应用实例有：实际推断原理小概率事件原理，改变包装能使销售量增加吗？成对比较与成组比较，葡萄酒质量的评价，刀具寿命

3、的“正态拟合”，保险实务中损失分布的统计分析等。相关分析是用来分析变量间关系与方向程度的方法，回归分析是用来分析自变量与应变量之间的数量关系，二者既有联系又有区别，在研究变量之间的非确定性关系中有重要的作用。关于相关分析与回归分析的应用实例有：手掌“生命线”的长度并不反映人的寿命，一元线性回归在季节波动预测中的应用，输电线路有功潮流值与发电机组出力的多元线性回归等。2124.1 统计数据的整理与加工上海证券交易所将每天各种股票的交易价格概括为一个综合指数，称为“上证指数”，如果今天的上证指数为，而上一个交易日的上证指数为，则称为上证iy 1iy1iiyx指数的涨跌值。下面的数据是上海证券

4、交易所1995年头50个交易日上证指数涨跌的观测值（摘自新民晚报）：)50,21(ix13.93，-6.92，-6.13，-14.79 ，-15.70 ，-2.83，-11.01，-4.28，-9.03，-0.87 ，5.70，-21.92，-0.48，-17.80，-5.87 ，8.20，-2.67 ，-28.87，-1.23，1.26，19.61，-11.98，7.46，-0.73，-5.27 ，-4.47，-4.61 ，1.20，6.18，53.50，-5.51 ，，2.84，-7.3012.01，7.70，3.89，16.37，39.08，16.66，-12.15，-15.22，

5、，-0.06，2.01，-1915.64，7.28，13.64，-8.07， 6.50，21.75。经计算，，，样本均值，样本36.4150ix4.1397502ix501827.ix方差，样本标准差为。总起来看，这段时.49150222iS 24.S间，股市不太景气，平均每个交易日下跌0.8272点。应用EXCEL 中数据分析，进行描述性统计，输出结果见表4.1.1。表4.1.1 50个交易日上证指数涨跌的观测值的描述性统计平均值 -0.8272 标准差 15.2283 区域 84.2 观测数 50标准误差 2.1536 方差 231.9026 最小值 -30.7 最大(1) 53

6、.5中位数 -1.95 峰度 2.8306 最大值 53.5 最小(1) -30.7众数无偏度 1.0575 求和 -41.36 置信度(95.0%) 4.3278为了研究这段时间上海证券交易所股市的变化动态，要对统计数据进一步研究。由于上证指数的涨跌值是一个连续型随机变量，因而我们采用分组方法进行整理，见表X4.1.2。表4.1.2 分组整理数据区间频数 in频率 if累积频率 iF41.47 1 0.02 1.00 由整理的数据，我们可以作出频数（频率）直方图和累积频率直方图（见图 4.1.1）。把频率直方图中各个小矩形顶边的中点连接起来，就得到频率分布曲线，它的极限就是随机变量

7、的概率密度函数。由累积频率所描述的累积频率曲线，它称为样X)(xf )(xFn本分布函数或经验分布函数，它的极限就是随机变量的分布函数。由此我们可以X研究随机变量的分布规律，为证券投资决策提供可靠的理论依据。图 4.1.1 频率直方图与累积频率折线图评注1理论依据根据样本作描述性统计，作频率直方图观察密度函数的大致类型，作累积频率折线图，研究分布函数。2应用与推广样本的分布完全是由总体的分布来决定的。但在数理统计中，总体的分布往往是未知的，一般做法就是要通过样本找到一个分布来近似代替总体的分布；或者说根据样本对总体进行统计推断。因此，对样本数据进行必要的处理和分析，

8、作描述性统计是一些基本做法。参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.2 彩电色彩的质量分布SONY 牌彩电有两个产地：日本与美国。两地的工厂是按同一设计方案和相同的生产线生产同一牌号 SONY 电视机，连使用说明书和检验合格的标准都是相同的。譬如彩电的彩色浓度 Y 的目标值为，公差m214（允许的波动）为 5，当 Y 在公差范围内该彩电的彩色浓度为合格，否则判5,m为不合格。图 4.2.1 彩电质量分布图两地产的 SONY 牌彩电在美国市场上都能买到，到 70 年代后期，美国消费者购买日本产的 SONY 彩电的热情高于购买美国产的 SONY 彩电。这是什么原

9、因呢？1979 年 4月 17 日日本朝日新闻刊登了这一问题的调查报告，报告指出：日产的彩色浓度服1Y从正态分布，而美产的彩色浓度为均匀分布。这两个不同235,mN2Y)5,(mU的分布表示着两个不同的总体，如图 4.2.1。这两个总体的均值相同，都为，但方差不同。，78.235)(1YVar 67.1)(Y，.02 89.2可见，日产的彩色浓度方差小于美产的彩色浓度的方差。如果规定彩色浓度在内为等品，在内为等品，在),(m,( mm内为等品，在内为等品，3,23 ,3(从而在级品数量上日产 SONY 是美产 SONY 的两倍，如表 4.2.1，这就是美国消费者乐于购买日产 SO

10、NY 的主要原因。表 4.2.1 美产和日产各等级彩电的比率等级美产 33.3% 33.3% 33.3% 0日产 68.3% 27.1% 4.3% 0.3%为什么两个工厂按同一个设计方案、相同设备生产同一种电视机，其彩色浓度会有不同的分布呢？关键在于管理者，美国 SONY 生产厂的管理者按彩色浓度合格范围-6 -4 -2 2 4 6日产 SONY-0.10.10.20.30.40美产 SONY215要求操作，在他看来，只要彩色浓度在此范围内，不论它在区间的什么位置5,m都认为合格，因而造成彩电浓度落在这个区间内任一相同长度小区间内的机会是相同的，从而形成均匀分布。但日产 SONY 的管理者

11、认为，彩色浓度的最佳位置在)5,(mU上，他要求操作者把彩色浓度尽量向靠近，这样一来，彩色浓度在周围的机会就m多，而远离的机会就少，最后导致服从正态分布。235,mN评注1理论依据随机变量的方差反映了随机变量关于其数学期望的离散程度。方差越小，质量越稳定。2应用与推广随机变量的方差在质量控制方面有着重要的应用。尽管日产 SONY 牌彩有 0.3%的等品，但其等品率远远超过美产 SONY 牌彩电。在质量管理与质量控制过程中，往往根据产品质量指标的标准差为依据。参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.3 根据统计数据估计吉尼（Gini）系数收入的差异是反

12、映社会收入分配是否公平的重要指标。一般说来，鼓励自由竞争会扩大收入差异，但是政府可以通过税收政策和对低收入者的补助来缩小收入的差异。下面介绍的洛伦兹（Lorenz）曲线是反映收入差异的一种图形描述，它可以用来对各国的收入差异程度进行比较或对政府的某项政策对收入分配带来的影响作出评价。现有30个工人家庭月收入（元）的数据，从低到高列表如表4.3.1。表4.3.1 30个工人家庭月收入的数据单位：元编号收入编号收入编号收入编号收入编号收入1 1650 7 1900 13 2100 19 2430 25 28602 1700 8 1920 14 2150 20 2500 26 2

13、9203 1800 9 1940 15 2200 21 2550 27 30004 1820 10 1980 16 2250 22 2680 28 32205 1830 11 2020 17 2300 23 2800 29 35806 1880 12 2080 18 2350 24 2820 30 4010表4.3.2 每组家庭的户数和收入的累积值及百分比累积值组号户数累积百分比组内收入收入累积收入累积百分比2161（16户） 20% 10680 10680 14.99%2（712户） 40% 11840 22520 31.61%3（1318户） 60% 13350 35870 50.

14、35%4（1924户） 80% 15780 51650 72.50%5（2530户） 100% 19590 71240 100%把这30个家庭按顺序分成相等户数的5组，然后统计出每组家庭的收入总数以及户数和收入的累积值及百分比累积值如表4.3.2所示：若用横坐标表示户数累积百分比，纵坐标表示收入累积百分比，则最低收入组6户占总户数的20%，该组家庭的总收入占全部家庭总收入的 14.99%，将坐标点（20%， 14.99%）描在图上A点；最低收入户和偏低收入户共 12户，占总户数的40%，它们的收入之和占30户家庭总收入的31.61% ，将坐标点（40%，31.61%）描在图上B点，类似地得到C

15、点（60%，50.35% ），D 点（80%，72.50%），E点（100% ，100%）。将这些点连成一条光滑的曲线，便得到洛伦兹曲线，它是一条向下凸的曲线，如图4.3.1。图4.3.1 绝对公平线与洛伦兹曲线图如果所有家庭的收入全部相等，则洛伦兹曲线为，这条线称为绝对平等线，所xy以洛伦兹曲线描述了收入的不平等状况。由于收入是按从小到大的顺序排列的，所以洛伦兹曲线位于直线的下方，它越接近直线，收入就越平均；越向下方凸出，xy则收入分配越不平均。记洛伦兹曲线为：，那么，与围成的弓形的面积越大的话，)(Lxy)(L则洛伦兹曲线越向下凸出，从而表明收入越不平均。为此，我们

16、用该弓形面积与)(xy，和轴所围成的三角形面积（该三角形的面积等于）之比值xy1 211010)(2)(dxLdxLg作为一种度量收入分配不平等的指标，称为吉尼（Gini ）系数。可见，吉尼系数越接近于0，收入分配越公平，反之就越不公平。217吉尼（Gini）是意大利统计学家，他在 1922年发表的有关收入集中指数的研究中指出了吉尼系数。由于吉尼系数与货币的选择无关，因此它特别适用于对不同国家不同时期的收入分配状况的比较。根据洛伦兹曲线，政府制定累进税收体系，使完税后的曲线与公平线接近一些，使吉尼系数更小一些，缩小收入的差距，使社会财富的分配更趋于公平。评注1理论依据根据人口和收入的样本

17、进行统计分析，可以绘出洛伦兹曲线，进一步可以估计吉尼系数。2应用与推广根据经济统计数据，可以进行相关的统计分析。由此可以利用统计数据计算或者估计诸如增长速度、吉尼系数、弹性系数等，为进一步分析奠定基础。参考文献缪柏其.管理统计学M.中国科学技术大学出版社 .2002.9.4.4 正态总体样本方差服从卡方分布并且与样本均值相互独立设是来自正态总体的一个样本，为样本均值，nX,.21 ),(2NniiX1为样本方差。则：iinS122)(（1） )1()(212nXSnii（2）与相互独立。)(证明：考虑对样本作线性变换n,.21 XnXnZ XnZXX).(1 1().()

18、. 43)4312(22121由于相互独立，且均服从正态分布，则可以证明nX,21 ),(2N,0(2,0( 2 ),0(2N ,2N218并且经过计算可知：，这说明相互独立。njiZCovji ,.21,0),(nZ,.21 11212)( iiinii XXSn iiZ相互独立，且均服从正态分布，从而仍相互独121,.nZ ),0(2N121,.nZ立，均服从标准正态分布。所以，可以表示成个相互独立服从标准)1,0(N2)1(Snn正态分布的随机变量的平方和，因此。)(又由于相互独立，及nZ,.1212)(iiSnZX1故与相互独立2)(nX评注1理论依据正态总体

19、样本的独立性，相互独立的正态随机变量的线性函数仍然服从正态分布，分布的构造。22应用与推广很多教科书上都有这个结论，但是都没有给出理论证明，而这个结论在正态总体的抽样分布中是极为重要的。同时，通过这个证明，充分表达了是个212)(niiZS1相互独立的标准正态分布随机变量的和，因此其自由度是。由于与相互独2)(X立，为进一步构造服从自由度为的分布奠定基础，nXt1nt参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.5 正态总体样本标准差 S不是总体标准差的无偏估计量设是来自正态总体nX,.21219的一个样本，为样本均值，为样本方差。)

20、,(2NniiX1 niiXS122)(众所周知，对任何总体来说样本方差是总体方差的无偏估计量，正态总体更不2S例外。但样本标准差却不是总体标准差的无偏估计量。S证明：由于，若令，则的概率密度)()(2nn2)(SnY。(2nY函数为 0021)( 2yeynypy从而 dendypYE 02121)(dyenn021212 12n另一方面, ，所以有SESEYnCnYnS 1211所以，样本标准差却不是总体标准差的无偏估计量。如果进行修正，则可以得到的无偏估计量，其中Sn21nCn评注1.理论依据正态总体样本的抽样分布，分布与分布的有关性质。2 被积函数是参数分别为

21、和的伽玛分布的概率密度函数，积分等于 1。n12202.应用与推广无论总体服从什么分布，修正的样本方差是总体方差XniiXS122)(的无偏估计量，但是样本标准差不是总体标准差的无偏估计量。只)(D D有在正态总体的情况下才有确定性的修正方法，使得是总体标准差的无偏估计量，Cn对于非正态总体，情况极为复杂，一般不对其进行讨论。参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.6 参数估计方法在捕鱼问题中的应用设湖中有鱼条，现捕出条，做上记号后放回湖中(假设记号不会消失) ，一段时间Nr后让湖中的鱼（做上记号的和没做记号的）混合均匀，再从湖中捕出

22、条，其中有s)(r条标有记号。试根据这些信息，估计湖中鱼数的值。t)0(rt N1.根据概率的统计定义：湖中有记号的鱼的比例应是（概率），而在捕出的条中rs有记号的鱼为条，有记号的鱼的比例是 (频率) 。设想捕鱼是完全随机的，每条鱼被t st捕到机会都相等，于是根据用频率来近似概率的道理，便有即 stNrtrsN故（取最接近的整数）。trs2.用矩估计法：设捕出的条鱼中,标有记号的鱼为，因为服从超几何分布，而11超几何分布的数学期望是。捕条鱼得到有标记的鱼的总体平均数，而现在只NrsE)(1捕一次，出现条有标记的鱼，故由矩估计法，令总体一阶原点矩等于样本一阶原点矩，t即 ,于是也得（取最接近的整数）。tNrstrs3.根据二项分布与最大似然估计：若再加上一个条件，即假定捕出的鱼数与湖中的s鱼数的比很小，即，这样的假定对实际来说一般是可以满足的，这样我们可以Ns认为每捕一条鱼出现有标记（“成功”）的概率为，且认为在次捕鱼（每次捕一条）Nrps中不变。把捕条鱼近似地看作重贝努里试验，于是，根据二项分布，条鱼中有pss条鱼有标记的，就相当于次试验中有次成功。故t tsttsttss rNCptP1)1()(

展开阅读全文