最小二乘法的原理和应用【开题报告+文献综述+毕业论文】.Doc

资源描述

1、1毕业论文开题报告数学与应用数学最小二乘法的原理和应用一、选题的意义最小二乘法在很多领域都的到了广泛的应用。在研究两个变量之间的关系时，可以用回归分析的方法进行分析。当确定了描述两个变量之间的回归模型后，就可以使用最小二乘法估计模型中的参数，进而建立经验方程。简单的说，最小二乘法思想就是要使得观测点和估计点的距离的平方和达到最小。这里的“二乘”指的是用平方来度量观测点与估计点的远近，“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。从计算角度看，最小二乘法与插值法类似，都是处理数据的算法。但从创设的思想看，二者却有本质的不同，前者寻求一条曲线，使其与观测数据“最接近”，

2、目的是代表观测数据的趋势；后者则是使曲线严格通过给定的观测数据，其目的是通过来自函数模型的数据来接近近似刻画函数。在观测数据带有测量误差的情况下，就会使得这些观测数据偏离函数曲线，结果使得观测数据保持一致的插值法不如最小二乘法得到的曲线更符合客观实际。最小二乘法能在统计学中得到应用，也是因为测量误差的存在。事实上，在高斯等人创立了测量误差理论，对最小二乘法进行了分析后，这种方法才在统计界获得了合法地位，正式成为了一张统计方法。最小二乘法逐步渗入到统计数据分析领域，对统计学的发展产生了重大影响。二、研究的主要内容，拟解决的主要问题（阐述的主要观点）2最小二乘法（又称最小平方法）是一种数学优化技术

3、。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。曲线拟合中最基本和最常用的是直线拟合。用最小二乘法估计参数时，要求观测值的偏差的加权平方和为最小。由于直线参数的估计值是根据由误差的观测数据点计算出来的，他们不可避免地存在着偏差。三、研究（工作）步骤、方法及措施（思路）研究（工作）步骤12010121520101231根据选题，广泛查阅资料，填写任务书有关事项，明确任务要求，初步形成研究方向。220111120

4、1136利用课余时间、假期仔细研读参考文献，初步拟定论文提纲，收集所要翻译的外文资料，完成两篇外文翻译，以及撰写开题报告和文献综述。32011362011312修改开题报告、文献综述和外文翻译，进一步整理论文大纲。420113132011316根据论文大纲翻阅相关详细资料。520113172011326整理收集的相关材料，开始写论文工作。620113272011410撰写论文初稿，上交论文、译文、开题报告、指导记录、中期检查表。720114112011425修改论文，上交所有相关材料。820114262011518补充必要的内容，论文打印、定稿。920115192011528准备毕业论文答辩。

5、3方法及措施主要采用举例分析、探讨的方法。四、毕业论文（设计）提纲1最小二乘法的引入11最小二乘法及其证明12最小二乘法的简单运用2不同领域的最小二乘法的推广21广义的最小二乘法的介绍22骗最小二乘法的介绍3最小二乘法的应用31用最小二乘法求直线拟合32例题讲解4致谢辞5参考文献五、主要参考文献1高富德最小二乘法的初等证明J玉溪师专学报,1989,4122李子奈，叶阿忠高等计量经济学M清华大学出版社,2000，127293张金槐线性模型参数估计及其改进J4王武义，徐定杰，陈键翼误差原理与数据处理M哈尔滨哈尔滨工业大学出版社，20025梁家辉用最小二乘法进行直线拟合的讨论J工程物理,19956李

6、仲来最小二乘法介绍J数学通报,1992（2）42457陈希孺数理统计学简史M湖南湖南教育出版社,20028韩国栋，武瑛最小二乘法的研究型教学J科技信息,20109宗殿瑞，宋文臣，刘朋振最小二乘法应用探讨J青岛化工学4院报,199810王能超数值分析简明教程M北京高等教育出版社，198411常彦妮最小二乘统一原理J西安航空技术高等专科学校学报,201012代恩华，齐玉霞最小二乘法求最值问题的一种简便证明J聊城大学学报,201013王晓光，安玉萍。王菊最小二乘估值的计算方法J吉林建筑工程学院学报,20045毕业论文文献综述数学与应用数学最小二乘法的原理和应用一、国内外状况天文学自古代至18世纪是应

7、用数学中最发达的领域。观测和数学天文学给出了建立数学模型及数据拟合的最初例子，在此种意义下，天文学家就是最初的数理统计学家。天文学的问题逐渐引导到算术平均，以及参数模型中的种种估计方法，以最小二乘法为顶峰。1801年，意大利天文学家朱赛普皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。高斯使用的最小二乘法的方法发表于180

8、9年他的著作天体运动论中。勒让德是法国军事学校的教授，曾任多界政府委员，后来成了多科工艺学校的总监，直至1833年逝世。有记载最小二乘法最早出现在勒让德1805年发表的论著计算彗星轨道的新方法附录中。他在该书中描述了最小二乘法的思想、具体做法及其优点。勒让德的成功在于它从一个新的角度来看待这个问题，不像其前辈那样致力于找出几个方程（个数等于未知数的个数）再去求解，而是考虑误差在整体上的平衡。从某种意义讲，最小二乘法是一个处理观测值的纯粹代数方法。要将其应用于统计推断问题就需要考虑观测值的误差，确定误差分布的函数形式。勒让德曾与高斯为谁最早创立最小二乘法原理发生争执。1829年，高斯提供了最小二

9、乘法的优化效果强于其他方法的证明，因此被称为高斯莫卡夫定理。最小二乘法是提供“观测组合”的主要工具之一，它依据对某事件的6大量观测而获得“最佳”结果或“最可能”表现形式。如已知两变量为线性关系YADX,对其进行N（N2）次观测而获得N对数据，若将这N对数据代入方程求解A、B之值则无确定解。最小二乘法提供了一个求解方法，其基本思想就是寻找“最接近”这N个观测点的直线。最小二乘法不仅是19世纪最重要的统计方法，而且还可以称为数理统计学之灵魂。二、研究方向最小二乘法通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最

10、小。最小二乘法还可用于线性拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。三、进展情况对于最小二乘法随机误差的早期研究，天文学家伽利略可能是第一个提出随机误差概念并对其有所研究的学者。他在1632年出版的著作关于两个主要世界系统的对话中提及这个问题。尽管他用“观测误差”这个名称，但所描述的性质实则为现在的随机误差分布。辛普森在1755年向皇家学会宣读的文章在应用天文学中取若干观测平均值的好处中试图证明，若以观测值的平均值估计真值，误差将比单个观测值要小，且随着观测次数的增加而减少。拉普拉斯与辛普森的研究途径不同，他直接考虑误差理论的基本问题，即应取怎样的分布为误差分布，以

11、及在确定误差分布后，如何根据未知量的多次测量结果12,N去估计。四、存在问题1794年自高斯提出误差和最小二乘法开始，经18091826年间逐步系统完善以来，测量界和科学技术部门在处理大量观测数据中，一直就沿用着传统的误差计算方法。例如采用均方误差公式衡量观测精度；应用误差传播定律分析精度之间的关系；一能够用最小二乘法原理进行平差等。这些理论方法在过去将近二百年内起了很大作用，但在当今科学技术飞跃发展的二十世纪下半叶里，各种观测方法日趋精密，对误差本质愈来愈认识清楚的情况下，这些经典理论就有必要加以修正了。特别在统计理论发展起来后，用数理统计观点对观测数据进行估计已日趋普及。在应用最小二7乘法

12、时必须注意一下几个问题（1）慎重选择拟合关系式（2）自变量的选择（3）加权最小二乘法五、参考文献1高富德最小二乘法的初等证明J玉溪师专学报,1989,4122李子奈，叶阿忠高等计量经济学M清华大学出版社,2000，127293张金槐线性模型参数估计及其改进J4王武义，徐定杰，陈键翼误差原理与数据处理M哈尔滨哈尔滨工业大学出版社，20025梁家辉用最小二乘法进行直线拟合的讨论J工程物理,19956李仲来最小二乘法介绍J数学通报,1992（2）42457陈希孺数理统计学简史M湖南湖南教育出版社,20028韩国栋，武瑛最小二乘法的研究型教学J科技信息,20109宗殿瑞，宋文臣，刘朋振最小二乘法应用探

13、讨J青岛化工学院报,199810王能超数值分析简明教程M北京高等教育出版社，198411常彦妮最小二乘统一原理J西安航空技术高等专科学校学报,201012代恩华，齐玉霞最小二乘法求最值问题的一种简便证明J聊城大学学报,201013王晓光，安玉萍。王菊最小二乘估值的计算方法J吉林建筑工程学院学报,20048（20_届）本科毕业设计数学与应用数学最小二乘法的原理和应用910目录中文摘要21最小二乘法的引入211最小二乘法及其证明312最小二乘法的简单运用72不同领域的最小二乘法的推广1021广义的最小二乘法的介绍1022偏最小二乘法的介绍123最小二乘法的应用1531用最小二乘法处理回归问题153

14、2例题讲解18致谢词20参考文献20ABSTRACT2111摘要最小二乘法在建立回归模型中得到了广泛的应用。最小二乘法求解拟合直线方程，计算的测量误差，均未超出测试数据的极限偏差。用最小二乘法线性拟合是处理回归问题的一种常用方法。关键词最小二乘法；拟合直线；广义的最小二乘法；偏最小二乘法；在自然科学、社会科学等领域内，为确定客观存在着的变量之间的函数关系，需根据大量的实验、观测或者社会调查所得数据建立函数关系式。这些数据中往往带有随机的误差。1最小二乘法的引入天文学自古代至18世纪是应用数学中最发达的领域。观测和数学天文学给出了建立数学模型及数据拟合的最初例子，在此种意义下，天文学家就是最初的

15、数理统计学家。天文学的问题逐渐引导到算术平均，以及参数模型中的种种估计方法，以最小二乘法为顶峰。1801年，意大利天文学家朱赛普皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。高斯使用的最小二乘法的方法发表于1809年他的著作天体运动论中。勒让德是法国军事学校的教授，曾任多界政府委员，后来成了多科工艺学校的总监，直至183

16、3年逝世。有记载最小二乘法最早出现在勒让德1805年发表的论著计算彗星轨道的新方法附录中。他在该书中描述了最小二乘法的思想、具体做法及其优点。勒让德的成功在于它从一个新的角度来看待这个问题，不像其前辈那样致力于找出几个方程（个数等于未知数的个数）再去求解，而是考虑误差在整体上的平衡。从某种意义讲，最小二乘法是一个处理观测值的纯粹代数方法。要将其应用于统计推断问题就需要考虑观测值的误差，确定误差分布的函数形式。勒让德曾与高斯为谁最早创立最小二乘法原理发生争执。1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，因此被称为高斯莫卡夫定理。12最小二乘法是提供“观测组合”的主要工具之一，它

17、依据对某事件的大量观测而获得“最佳”结果或“最可能”表现形式。如已知两变量为线性关系YADX,对其进行N（N2）次观测而获得N对数据，若将这N对数据代入方程求解A、B之值则无确定解。最小二乘法提供了一个求解方法，其基本思想就是寻找“最接近”这N个观测点的直线。最小二乘法不仅是19世纪最重要的统计方法，而且还可以称为数理统计学之灵魂。对于最小二乘法随机误差的早期研究，天文学家伽利略可能是第一个提出随机误差概念并对其有所研究的学者。他在1632年出版的著作关于两个主要世界系统的对话中提及这个问题。尽管他用“观测误差”这个名称，但所描述的性质实则为现在的随机误差分布。辛普森在1755年向皇家学会宣读

18、的文章在应用天文学中取若干观测平均值的好处中试图证明，若以观测值的平均值估计真值，误差将比单个观测值要小，且随着观测次数的增加而减少。拉普拉斯与辛普森的研究途径不同，他直接考虑误差理论的基本问题，即应取怎样的分布为误差分布，以及在确定误差分布后，如何根据未知量的多次测量结果12,N去估计。11最小二乘法及其证明在实际问题中，人们常常需要从一组观测数据,IIXY1,2,IN中，作出一种预测下一个X对应的Y值是什么，即预测函数YFX的表达式。从几何上看，这个问题就是要由给定的数据点,IIXY1,2,IN去描绘曲线YFX的图像，即所谓数据拟合问题。插值方法当然可以作为处理这种问题的一种数值方法，但不

19、是很好的方法。因为现在所给数据本身就不一定可靠，个别数据的误差甚至可能很大，而插值曲线要求严格通过所给的每一个数据点，这种限制会保留所给数据的误差。此外，所给数据的数量通常很多，高次插值的RUNGE现象也会影响插值的效果。曲线拟合方法就是希望从这一大堆看上去杂乱无章的数据中找出规律来，设法构造一条所谓的拟合曲线，反映所给数据点总的趋势，最小二乘法就是这样的一种拟合方法1。下面我们以直线拟合为例说明。假设所给数据点,1,2,IIXYIN的分布大致成一直线。虽然我们不要求所作的拟合直线13YABX。严格地通过所有的数据点,IIXY但总希望它尽可能地靠近这些数据点，即要求,IIYABX1,2,IN称

20、IIIEYABX为残差。显然，残差的大小是衡量拟合好坏的重要标准。通常构造拟合曲线可采用下列三种准则之一（1）使残差的最大绝对值为最小1MAXMINIINE；（2）使残差的绝对值之和为最小1MINNIIE；（3）使残差的平方和为最小21MINNIIE。准则（1）（2）提法比较自然，但含有绝对值运算不便于实际应用。以准则（3）来确定拟合曲线的方法称为最小二乘法。我们可以用数学语言描述如下对于给定的数据点,1,2,IIXYIN，求一次式YABX，使总误差21,NIIIEEABYABX为最小。由微积分求极值的方法，参数,AB应满足0,EA0EB，即14112111NNIIIINNNIIIIIIIAN

21、BXYAXBXXY。解之，求得,AB，从而得到拟合直线YABX1。定理21最小二乘法问题线性方程组111122112112222211220,0,0SSSSNNNSSNAXAXAXBAXAXAXBAXAXAXB可能无解。即任何一组数12,SXXX都可能使211221NIIISSIIAXAXAXB（1）不等于零。我们设法找到00012,SXXX使（1）最小，这样的00012,SXXX称为方程组的最小二乘解。这种问题就叫最小二乘法问题。下面我们利用欧式空间的概念来表示最小二乘法，并给出最小二乘法所满足的代数条件。令111211212222121112211,SSNNNSNSJJJSJJJSSNJJ

22、JAAABAAABABAAABAXXAXXXYAXXAX2用距离的概念，（1）就是152YB。最小二乘法就是找00012,SXXX使Y与B的距离最短。但从（2），知道向量Y就是11121212211212SSSNNNSAAAAAAYXXXAAA。把A的各列向量分别记成12,S。由它们生成的子空间为12,SL。Y就是12,SL中的向量。于是最小二乘法问题可叙述成找X使（1）最小，就是在12,SL中找一向量Y，使得B到它的距离比到子空间12,SL中其它向量的距离都短2。应用前面所讲的结论，设1122SSYAXXXX是所要求的向量，则CBYBAX必须垂直于子空间12,SL。为此只须而且必须12,0S

23、CCC。回忆矩阵乘法规则，上述一串等式可以写成矩阵相乘的式子，即120,0,0SCCC。而12,S按行正好排成矩阵A，上述一串等式合起来就是0ABAX，或AAXAB。这就是最小二乘解所满足的代数方程，它是一个线性方程组，系数矩阵是AA，常数项是AB。这种线性方程组总是有解的2。16最小二乘法通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于线性拟合。12最小二乘法的简单运用例2121求下列方程的最小二乘解0391891,0611801,0931681,1351501XYXYAXYXY用“

24、到子空间距离最短的线是垂线”的语言表达出上面方程的最小二乘解的几何意义。由此列出方程并求解。（用三位有效数字计算。）解令112203918910611801,09316811351501XAXBX12039189061180093168135150XYXYYXYXYXY。那么“到子空间距离最短的线是垂线”的意思就是2YB的值最小。因而最小二乘解的几何意义是在12,L中求B的内射影Y。令CBY,可得AAXAB而170391890390610931350611801891801681500931681351503211654224,54225118845AA10390610931351328,18

25、918016815016871AB所以3211654225328,54225118845687,XY0197,0488XY例2122已知某种材料在生产过程中的废品率Y与某种化学成分X有关。下列表中记载了某工厂生产中Y与相应的X的几次数值Y（）1000909081060056035X（）36373838404142我们想找出Y对X的一个近似公式。解已知361371381391401411421A，100090090081060056035B。最小二乘解,AB所满足的方程就是0AAAABB，即为1810675273196750,27375120ABAB解得105,481AB（取三位有效数字）。例1

26、233求拟合下列数据的最小二乘解。I0123456IX00020406081012IY09192833405765解（1）在坐标平面上描出点,0,1,6IIXYI，如图11。图11XY02O04060810121234567（2）根据散点的分布情况，选用线性函数001PXAAX作拟合函数，故取01X，1XX。（3）建立法方程组，这里1,6,1INM。计算19600060110062110600610,7,42,364,251,2018,IIIIIIIIIIIIIIIXXFYFXY法方程组为01742251423642018AA，用直接三角分解法解得010843,457AA，从而10843457

27、PXX为所求最小二乘解。2不同领域的最小二乘法的推广最小二乘法在建立回归模型和经济预测中得到了广泛的应用，用最小二乘法确定的参数具有线性性、无偏性和最小方差性（即有效性）的优点。但在许多经济现象中，随机项并不具备等方差性，即不符合假定条件。如居民收入与储蓄额的关系，因为在储蓄行为中，高收入家庭的储蓄额一般来说高于低收入家庭。据2000年6月13日中国信息报载，现阶段我国居民收入差距进一步拉大，20的家庭拥有50左右的金融资产。低收入家庭之间的储蓄差异性比较小，这是因为低收入家庭除了必要的生活支出外剩余较少，储蓄较有目的和规律性（如购买住房、大件商品及为子女就学等）。而高收入家庭，除了必要的生活

28、支出外，由于剩余较多，因而有更大的使用余地（如投资、买国债、炒股票、拆借和储蓄等），这样储蓄差异就较大。对于这种异方差情况，进行回归分析时就不宜直接用最小二乘法，需要引入广义最小二乘法。21广义的最小二乘法的介绍设给定线性回归模型YXBU（1）20因U不具备等方差性，则2UEUU，其中111212122212NNNNNN。由于为正定对称矩阵，根据线性代数知识，肯定存在一个非奇异矩阵NNP，使得NNPPI，因此11PP，1PP，用P同乘（211）式两边得，PYPXBPU，令PYY，PXX，PUU则模型（211），变成YXBU，这样UNNEUUEPUUPI。因此，变换后的模型YXBU满足假定条件2

29、,1,2,IVARIN，对此模型用最小二乘法求得B的估计量111111BXXXYPXPXPXPYXPPXXPPYXXXY,这种对原模型变换后再应用最小二乘法求得B的估计量B的方法，就叫作对原模型（211）的广义最小二乘法，B称作广义最小二乘估计量。当1时，1BXXXYB，广义最小二乘法就是普通最小二乘法。可以说，普通最小二乘法是广义最小二乘法的一种特殊情况，广义最小二乘法是普通最小二乘法的推广。因此，广义最小二乘估计量也具有线性性、无偏性和最小方差性的优点4。讨论用广义最小二乘法建立线性回归模型的具体方法，为简单起见，以一元线性回归模型为例，因是异方差，异方差性就是随机项IU在解释变量的不同取

30、值时方差不同，这就是说异方差2IU是解释变量的函数。设22IUIFX，其中为有限常数，用IFX除以模型01IIIYBBXU两边得01IIIIIIYBBXUFXFXFX，记IIIUUFX，则220,0IIJIJUIJOVUUEUUIJ这说明变换后的模型具有等方差性。因此，可以对变换后的模型应用最小二乘法。如果进一步把问题简化，设随机项IU的异方差21形式为222IIEUX或22IIEUX，只要对原模型两边同除IX或IX进行转换即可4。现行统计职称教材和统计学原理在讲解回归分析方法时，没有考虑随机项IU的异方差性问题，即默认IU具有等方差性，把最小二乘法作为最优拟合准则。而许多经济现象如收入与储蓄

31、，以及个人可支配收入与消费支出，家庭收入与住房支出等都不具备等方差性，对这类经济现象进行回归分析时，应该广义最小二乘法较为合理，这对提高统计回归模型的拟合度和预测精度具有重要意义。22偏最小二乘法的介绍随着分析仪器的不断革新和发展，人们能够从样品中获得越来越多的测试数据，这就要求我们研究有效的计算方法从大量数据中提取有用的信息。偏最小二乘法（,PARTIALLEASTSQUARESPLS）是目前最好的一种多元分析方法。许多研究表明，PLS方法稳定，准确度高，能用较少的主成份来表达自变量和函数的关系。近来，PLS方法又运用于处理高维数据。我们相信它将成为处理现代分析仪器数据的主要手段5。偏最小二

32、乘法比较适合于处理自变量数大的回归建模问题，特别是当自变量之间存在严重多重相关性时，该法仍能避免过拟合，而得到预报稳定性较高的模型。但在实际应用中，特别是处理海量数据或自变量数很大的实际问题时，所得到的模型由于回归系数个数很多而复杂。如果能根据偏最小二乘法建模过程的一些信息，如回归系数等，以筛选原始自变量，在不损失模型的预报能力的条件下，除去一部分冗余的或影响不大的变量，便可得到更简单的回归模型，对分析和处理实际问题意义很大。反之，在数据建模时，由于变量数特别大，模型的回归系数也就特别多，使变量或因子的重要性分析变得十分困难6。偏最小二乘回归方法开辟了有效的回归分析途径，利用成分提取的思路，采

33、用了信息综合和筛选技术，有效的克服在应用最小二乘回归时遇见的自变量间的多重相关性。然而应用偏最小二乘回归分析建立的模型是一种多元线性回归模型，要求因变量与自变量间有显著的线性关系，但是，在实际应用中，还会遇到一些因变量集合与自变量集合间存在非线性的情况。这时，若仍采用偏最小二乘分析就很难得到较理想的回归模型，所以有必要对非线性回归模型进行探讨。多项式回归为这一问题提供了行之有效的解决办法。根据数学分析证明在某点的领域内连续的函数，可以用多项式22任意逼近，所以，只要因变量与自变量的成分间存在着相关关系，就可以用多项式来进行回归分析。根据偏最小二乘回归分析的原理且结合多项式回归分析方法，现将基于

34、偏最小二乘分析实现非线性回归的原理和算法简述如下设有Q个因变量12,QYYY和P个自变量12,PXXX，观测了N个样本点。由此构成了自变量与因变量的数据表12,PNXPXXXX和12,QNXPYYYY。偏最小二乘回归分别在X和Y中提取成分1T和1U。即1T是12,PXXX的线性组合，1U是12,QYYY的线性组合。在提取成分时，有下列两个要求（1）1T和1U应尽可能的携带各数据表中的信息；（2）1T和1U的相关程度能够达到最大。这两个要求表明，1T和1U应尽可能好的代表数据表X和Y；同时自变量的成分1T对因变量的成分1U有具有最强的解释能力。在第一个成分1T和1U被提取后，根据各因变量KY与成

35、分1T的散点图的趋势曲线，分别实施KY对1T的多项式回归以及X对1T的线性回归。如果回归方程已达到满意的精度，则算法终止；否则将利用X被1T解释后的残余信息以及Y被1T解释后的残余信息进行第二轮成分提取。如此反复，直到能达到一个较满意的精度为止。若最终对X共提取了M个成分，偏最小二乘法将通过施行XY对12,MTTT的多项式回归。然后再表达成KY关于原自变量12,PXXX的回归方程7。根据上述原理，偏最小二乘回归的算法可归纳为如下步骤（1）将原始数据表X，Y标准化，得到标准化后的自变量矩阵0E和因变量矩阵0F；（2）提取第一轴1W和1C及相应的第一成分1T和1U；101TEW，101UFC式中，

36、1W是矩阵0000EFFE的最大特征值对应的单位化的特征向量；1C是矩阵0000FEEF的最大特征值对应的单位化的特征向量。（3）分别求0E和0F对1T的回归230111ETPE，1111111011111101,2,NNIKKNKKIKKIFOKAATATFATFKQ式中，回归系数向量01121ETPT；FOK表示第K个因变量；1IKA表示第K个因变量FOK对第一成分1T的多项式1IT的回归系数；1IKN表示第K个因变量FOK对第一成分1T的回归多项式次数；1KF表示第K个因变量FOK回归后的残差；111121,QFFFF。1E，1F分别是两个回归方程的残差矩阵。（4）检验收敛性。若不满足计

37、算精度要求，则用残差矩阵1E和1F取代0E和0F。然后求第二轴及第二个成分。重复上述步骤，直至满足要求。若在计算完第M个成分后计算终止。则有011221MMMIIIETPTPTPTP，11100MKKNNIMJIKJKMIJFOKATAT。（5）还原变量。由于12,MTTT均可表示为01020,PEEE的组合，因此可得到KYFOK关于0JJXE的回归方程形式，即1110101MKKIINNPPMKIKJJIKMJJIJIJYAXAX式中，MJ表示由标准化后的变量12,PXXX线性组合第M个成分MT时，JX的组合系数。Y，X是经过标准化后的变量。然后按照标准化的逆过程还原Y和X7。结合多项式回归

38、来实现偏最小二乘非线性回归分析方法，仍满足偏最小二乘线性回归分析的基本性质24性质1成分HT与同阶的残差向量是直交的，即对于任给的H，有0HHTE。性质2成分1,HTT之间是相互直交的，即对于任给的HH，有10HTT。性质3成分HT与其后续的残差项均是直交的，即对于任给的1H，有10HTE。性质4当1H时，主轴HW与后续的残差向量1E之间有关系式10HWE。性质5当1H时，主轴HW与后续回归系数向量正交，即10HWP。性质6轴1W与2W之间是相互正交的，即10HWW。从上述性质可以看出，从原自变量中抽取的成分之间是相互正交的。因此，就不会遇到多重相关性问题，并且每个成分所携带的信息不是相重叠的

39、，后续抽取的信息对前面的信息能起到直交互补的作用7。将多项式回归和偏最小二乘回归分析方法有机的结合起来，发挥了其各自的优点。偏最小二乘回归分析方法，可以有效地克服自变量间的多重相关性及观测样本点较少的困难，且具有变量筛选的功能；而只要因变量与自变量间存在相关关系，就可以通过多项式回归来进行拟合分析。偏最小二乘非线性回归分析满足偏最小二乘线性回归分析的基本性质。偏最小二乘线性回归是当偏最小二乘非线性回归分析中因变量对自变量成分的回归为一次多项式（即为线性）时的特例7。原则上只要因变量与自变量间存在相关关系，就可以做多项式回归，不过多项式的次数较高则振动就较大，稳定性差，所以通常不超过三次。结合偏

40、最小二乘回归和多项式回归来实现非线性回归的分析，其算法简单可靠，收敛速度快，建立的模型稳健且可获得较高的精度7。3最小二乘法的应用由测量数据求得经验方程或提取参数，称为回归问题，是实验数据处理的重要内容。用图解法处理回归问题虽有许多优点，但因为它不是建立在严格的统计理论基础上的数据处理方法，在连线时有一定的主观随意性，结果会因人而异，它只是一种粗略的数据处理方法；用逐差法求多项式的系数也是一种回归方法，但它受到自变量必须等间距变化的限制。31用最小二乘法处理回归问题假设所研究的两个变量X和Y之间存在着线性相关的关系，回归方程为一条直线2501YBBX（1）由实验测得的一组数据是IX，IY1,2

41、,IN，现在要解决的问题是怎样根据这组数据来确定（1）式中的系数0B和1B。我们讨论最简单的情况，假设（1）系数误差已经修正，即每个测量值都是等精度的；（2）N次测量值的条件相同，所以误差符合正态分布，这样才可以使用最小二乘法原理；（3）如果IX，IY都有误差，只要把误差较小的作为变量X，使不确定度得计算变得简单即可8。由于测量的分散性，实验点不可能都落在一条直线上。对于我们所拟合的直线，和某一个IX相对应的IY与直线在Y方向的残差为01IIIIVYYYBBX。（2）如图31所示，根据最小二乘法原理220111NNIIIIISYVYBBX。（3）如果21NIIV的值小，那么标准偏差SY就小，能

42、够使SY最小的直线就是我们所要拟合的直线。由（2）式可见，0B和1B决定IV的大小，能够使21NIIV为最小值的0B和1B的值就是回归方程的系数8。图831残差示意图26使（3）式中SY为极小值的条件是00SB，10SB，2200SB，2210SB。（4）式中IX，IY是测量值，变量是0B和1B，分别对0B和1B求偏导数20111020NNIIIIIVYBBXB，（5）20111120NNIIIIIIVYBBXXB。（6）由（4）、（5）式可解得022IIIIIIIXYXXYBNXX，（7）122IIIIIINXYXYBNXX。（8）再由（4）式对0B和1B求二阶导数后，可知2200SB，22

43、10SB，这样（7）和（8）式给出的0B和1B对应于21NIIV的极小值，即用最小二乘法对拟合直线所得的两个参量斜率和截距。于是，就求得了直线的回归方程（1）式8。如果实验是在已经线性函数关系下进行的，那么用上述最小二乘法线性拟合，可得出最佳直线及其截距0B、斜率1B，从而得出回归方程。如果实验是要通过X，Y的测量值寻找经验公式，则还应判断由上述一元线性拟合所找出的线性回归方程是否恰当，这可用下列相关系数R来判别22IIIIXXYYRXXYY。相关系数R的数值大小表示了相关程度的好坏，如图32所示，若1R表示变量X，Y完全线性相关，拟合直线通过全部实验点，当1R时，实验点的线性不好，R越小线性

44、27越差，0R表示X与Y完全不相关8。图832相关程度示意图32例题讲解例9323用最小二乘法求中学数学中直线型经验公式的最佳近似解一个弹簧的长度L和它悬挂的重量W间的关系如下W24681012L8910112120131139求关于L、W的经验公式。解设所求的经验公式为LKWB。把表中各数据代入此方程得方程组28268,4101,6112,8120,10131,12139KBKBKBKBKBKB由最小二乘法原理知364425192,426692KBKB解得0497,8054KB。例9322实验数据的最小二乘法拟合在落体运动中，物体的位移S与时间T的关系可表为2012TSSVGT0S表出位移，V表初速，G为重力加速度。在一次落体实验中，得到如下数据T（秒）00102030405S（厘米）0617041076012051751试根据以上数据确定0S和V、G。解现在要用五个试验点拟合的是二次多项式5,21NM，即2012TSAAAT。有最小二乘法的曲线拟合原理知1234560617041076012051751SSSYSSS

展开阅读全文