1、1(20_届)本科毕业设计信息与计算科学最小二乘法及其应用2正文目录摘要和关键字21最小二乘法的定义及其基本公式211最小二乘法的定义212最小二乘法的基本公式42几种最小二乘法的介绍及其应用521整体最小二乘法522递推最小二乘法723泛最小二乘法724非线性最小二乘法83最小二乘法的应用931最小二乘法在水位推算中的应用932用最小二乘法预测医院住院人数1133利用最小二乘法检验外商直接投资与中国经济增长的关系134总结15谢辞15主要参考文献15摘要和关键字的英文173最小二乘法及其应用摘要;数值方法是高等代数的重要组成部分。本文先介绍数值方法中最小二乘法的定义及其基本公式,接着介绍了从
2、最小二乘法扩展开的整体最小二乘法,递推最小二乘法,泛最小二乘法,非线性最小二乘法。最后例举几个最小二乘法在实际中的应用,直接的反应了最小二乘法的的作用。关键字;最小二乘法、递推、泛、非线性1最小二乘法的定义及其基本公式11最小二乘法的定义1在自然科学、社会科学等领域内,为确定客观存在着的变量之间的函数关系,需根据大量的实验、观测或社会调查所得的数据建立函数关系式。这些数据中往往带有随机的误差,但有时却无法重新采集。如果利用这些数据按插值法球函数关系近似表达式,必然将不合理的误差(形象地称作“噪声”)带入函数关系式中来。如测试某物体的直线运动,得到,得到一组数据(IT,IS)I0,1,M,将其描
3、在坐标平面上,如图1,由于测试有误差,所以数据点没能落在一条直线上。显然,再用插值法求运动方程,会得出不符合实际的结果,必须寻求新的方法。(图1)根据OTS平面上测试点的分布情况,可以画出很多条靠近这些点的直线,其方程都可以表示为STATB,(1)其中A,B为待定参数。我们要从形如(1)的所有直线中,找出一条用某种度量标准来衡量为最靠近所有数据点(IT,IS)I0,1,M的直线。令IISTIS,用I表示测试数据(IT,IS)的重度,称为权系数,通常用42220MIII20MIIIISTS。作为衡量ST与数据点(IT,IS)I0,1,M偏离大小的度量标准,通常用定(1)式中的待定参数比较方便。我
4、们将上述问题推广至一般情形。设(IX,IS)I0,1,M为给定的一组数据,II0,1,M为个点的权系数(通常要求诸I0),要求在函数类SPAN0X,1X,NX中,求一函数SX0NJJJAX(NM),(2)满足2220MIIIISXY20MINMIIISISXY,(3)其中SX0NJJJAX为中任意函数。称按条件(3)求函数SX的方法为数据拟合的最小二乘法,简称最小二乘法。并称SX为最小二乘解,SX为拟合函数。下面我们用一个例题来更加详细的了解最小二乘法的用法。首先利用法方程公式中的内积0,MJKIJIKIIXX,0,MKIJKIIFYX。(4)例1求拟合下列数据的最小二乘解。I0123456I
5、X00020406081012IY09192833405765解(1)可以再坐标平面上描出点(IX,IY)(I0,1,6)。5(2)根据散点的分布情况,选用线性函数001PXAAX作拟合函数故取01X,1XX。(3)建立法方程组,这里1,6,1INM。现在可以利用公式(4)计算601100,42IIIX,62110,364IIIX,600,251IIIFY,610,2018IIIIFXY,法方程组为01742251423642018AA。用直接三角分解法解得0A0843,1A457。从而10843457PXX为所求最小二乘法。平方误差6122200,05081IIKKIKYAF。12最小二乘法
6、的基本公式最小二乘法的误差基本公式如下2XX2YY(2222XYXYXYXY)XY2XY2YX22NXYXY22NXY22NXY22NXYXY22NXY。22XX2X22XX22X2X222NX22NX2X22NX。2几种最小二乘法的介绍及其应用21整体最小二乘法2针对在直线拟合中,因变量选取不同拟合的结果又差异现象,可采用整体最小二乘法进行直线拟合。6直线方程可表示为IYIAXB(I1,2,M)(5)式中,(IX,IY)为测点坐标,A为直线的斜率,B为Y轴的截距,A、B为待估参数,0A、0B为他们的近似值。令0AAA,0BBB,以Y作为因变量,以X为自变量,误差方程为001YIIIIAVXA
7、XBYB。(6)误差方程矩阵表达式AXLV。(7)其中12111MXXAX,0101020200MMAXBYAXBYLAXBY,12YYYMVVVV,AXB。按最小二乘法则MINTVV,即21MINMIIIAXBY。(8)其最小二乘法为1TTXAAAL。(9)其因变量残差VAXL。(10)单位权中误差02TVVM。(11)实际工程中也有采用横坐标X为因变量,纵坐标Y为自变量进行拟合,这时直线方程可表示为12IIXKYK(I1,2,M)。(12)如果考虑到直线方程(7)中自变量X的误差,直线的条件方程可以表示为IYIIXIYVAXVBI1,2,M。13相应误差方程(7)中的设计矩阵AL和观测向量
8、L都含有误差,则误差方程可以按EIV模型描述ALAEXLE(14)式中,AE、LE分别表示设计矩阵A和观测向量L的误差。注意大搜设计矩阵A中,一列元素为固定值1,这是一个混合最小二乘问题,应按混合最小二乘法求解。令12AAA式中1111TA,212TMAXXX。构造增广矩阵CAL,并对其作QR三角分解CQR(15)式中,Q为正交阵,R为上7三角阵,则TTRQCQ1A2AL111212220LLRRRRR(16)可将方程分为两个部分11121LRBRAR。(17)222LRAR。(18)这里,11R,12R,22R,1LR,2LR均为标量。在求解参数时,首先采用整体最小二乘法求解方程(18)获得
9、参数A,然后回代代方程(17)按普通最小二乘法求解参数B。构造增广矩阵RC22R2LR,并对其进行奇异值分解TRCUN式中122121UUU,122121VVV,1212,DIAG。参数A整体最小二乘法解围2122222222TTLARRRR19回代到方程(17)求的参数B111112LBRRRA。(20)也可以按下式求解1220001TTAAAALB。(21)未知数为00ABAAAXBBB。通过以上分析可以得到采用整体最小二乘法拟合直线同时顾及了自变量和因变量的误差,无论选取那种自变量模型及其结果都是完全一致的,和普通最小二乘法相比,采用整体最小二乘法拟合直线能够获得最佳的拟合效果。22递推
10、最小二乘法3在计算机算法中,一般使用的最小二乘一次完成算法适合理论分析。在具体的实际使用过程中,不仅占用的内存量大,还不适合在线辨识。为了减少计算量,减少数据在计算机所占的存储量,也为了有可能实时地辨识出动态系统的特性,在用最小二乘法进行参数辨识的时候,把它转化成一种既经济又有效的参数递推辨识。所谓的递推最小二乘辨识,就是当被辨识系统在运行时,每取得一次新的观测数据后,就在前一次估计的结果的基础上,利用新引入的观测数据对前次估计的结果,根据递推算法进行修正,从而递推地得出参数估计值。这样,随着新的观测数据的逐次引入,一次8接着一次的进行参数估计,直到参数估计到达满意的精确程度为止。最小二乘递推
11、算法的基本思想可以概括为新的估计值K老的估计值1K修正项。递推最小二乘法在一些工程建设中应用比较广泛这里我们简单举个桥梁建设的例子来说明下。一般在进行桥梁建设之前,我们都会得到桥梁的一些基本数据,只有得到这些数据后我们才可以进行下一步。首先进行桥梁施工力学分析,评估桥梁力学参数对监控目标的敏感性,其次根据各参数的敏感性分为主要涉及参数和次要设计参数,并结合实际桥梁施工过程中各参数发生偏差大小的可能性,以选取合适的最小二乘法辨识的力学参数。一般选取混泥土弹性模量、混凝土徐变系数、有效预应力系数作为重点辨识参数。由此我们可以建立一般的参数调整向量1,2,3T式中1为混凝土弹性模量的调整系数;2为混
12、凝土徐变的调整系数;3为有效预应力的调整系数。接着我们可以用以上公式根据一般数据进行误差的计算与分析。在实际监控中,由于新的监测信息随着工程进展而不断反馈,所以一般的监控系统都采用最小二乘法的递推算法,不必重新对大量旧数据算一遍,而是设法在原先预测的基础上加入新信息以修正,从而得到新的参数预计值。23泛最小二乘法4可以考虑线形回归模型2,0,NYXEEECOVEI22其中Y为1N向量;X为NP设计矩阵,E为1N误差向量;NI为N阶单位阵,为1P的未知回归系数向量;的最小二乘法为1XXXY。泛最小二乘法则为MINEEKQ(23)其中K是给定非负纯量因子,在极化过程中对E和起平衡作用,成为平衡因子
13、,Q为适当给定的正定矩阵,称为正规化举阵。我们可以运用(23)估计(22)式的参数,有LAGRANGE乘法构造函数2EEKQHYXE。分别令0,0E,可得0HEXHKQ。则1,KQXXKQXY,,KQ为的泛最小二乘估计。泛最小二乘估计的基本性质9性质1泛最小二乘法估计,KQ是有偏估计。性质2泛最小二乘法估计是最小二乘法估计的一种压缩设计。由于最小二乘法只有在小的特征根所对应的特征向量的方向上的估计才是不精确的,而在大的特征根所对应的特征向量的方向上是精确的,可见泛最小二乘估计对最小二乘估计进行了过度的压缩。24非线性最小二乘法5非线性最小二乘法是以误差的平方和最小为准则来估计非线性静态模型参数
14、的一种参数估计方法。设非线性系统的模型为,YFX。式中Y是系统的输出,X是输入,是参数(他们可以是向量)。这里的非线性是指对参数的非线性模型,不包括输入输出变量随时间的变化关系。在估计参数时模型的形式F是已知的,经过N次试验取得数据1122,NNXYXYXY。估计参数的准侧(或称目标函数)选为模型的误差平方和非线性最小二乘法求是求使Q达到极小的参数估计值A。21,NKKKQYFX。由于F的非线性,所以不能像线性最小二乘法那样用求多元函数极值的办法来得到参数估计值,而需要采用复杂的优化算法来求解。常用的算法有两类,一类是搜索算法,另一类是迭代算法。搜索算法的思路是按一定的规则选择若干组参数值,分
15、别计算它们的目标函数值并比较大小;选出使目标函数值最小的参数值,同时舍弃其他的参数值;然后按规则补充新的参数值,再与原来留下的参数值进行比较,选出使目标函数达到最小的参数值。如此继续进行,直到选不出更好的参数值为止。以不同的规则选择参数值,即可构成不同的搜索算法。常用的方法有单纯形搜索法、复合形搜索法、随机搜索法等。迭代算法是从参数的某一初始猜测值出发,然后产生一系列的参数点,如果这个参数序列收敛到使目标函数极小的参数点A,那么对充分大的N就可用N作为A。迭代算法的一般步骤是给出初始猜测值,并置迭代步数I1。确定一个向量V作为第I步的迭代方向。用寻优的方法决定一个标量步长。检查停机规则是否满足
16、,如果不满足,则将I加1再从开始重复;如果满足,则取为A。典型的迭代算法有牛顿拉夫森法、高斯迭代算法、麦夸特算法、变尺度法等。非线性最小二乘法除可直接用于估计静态非线性模型的参数外,在时间序列建模、连续动态模型的参数估计中,也往往遇到求解非线性最小二乘问题。103最小二乘法的应用31最小二乘法在水位推算中的应用6由于潮汐现象,海面作周期性的升降运动,水深测量是在这个不断升降的海面上进行的。为了保证航行的安全,需要获得海图图截水深,这就要求进行水位改正。水位改正数据通常是通过设立验潮站进行水位观测得到的,在近岸边通常采用水尺或验潮并来测量,远海采用抛设验潮仪方式来获取。考虑通过利用沿岸验潮站和海
17、上验潮站的同步潮位观测数据,通过相似性分析,建立两者之间的关系,医此来推算海上验潮站的水位,为水位改正服务。采用最小二乘法,以实现基准传递、潮时差确定以及水尺零点的确定。利用最小二乘法进行水位传递,首先必须判断验潮站间潮汐性质的相关性。假设A、B两潮位站在时间段12,NN内进行同步观测,两站观测所得水位时分别为12,NXXX和12,NYYY。依次做出两站的水位曲线,通过计算两条水位曲线的相似程度,来判断和分析两站潮汐的相似性。从离散数学原理可知,两曲线的相似程度是由一定采样值的相关系数决定的。为了衡量曲线相似程度,考虑采用误差能量方程212221121/1,NNXYNNQNNXRNN。(24)
18、式中,12,XYRNN为NX与NY在12,NN时间内的相关系数,可表达为222111221212,/NNNXYNNNNNNNNNNRNNXYXY。(25)从式(24)中可以看出R接近1时,误差能量较小,R1时,相对误差能量为0,说明曲线完全相似;R为0时,相对误差能量最大,说明曲线不相似。利用误差能量理论,根据潮汐曲线的相关系数。即可以判断性质的相似性。当关系系数接近1时,表示两个验潮站的潮汐性质相似,相反之则相似性差。若长期验潮站和临时验潮站水位序列分别CI,DI。潮位曲线关系如图2所示11图2潮位曲线关系X表示两站的潮差比,Y为两站间潮波传播延迟系数(潮时差),Z为基准面偏差,则两个曲线之
19、间的关系可以用线性关系来表达DIXCIYZ。(26)实际水位观测序列是离散的,体现了不同分潮叠加及非潮汐作用共同影响下的复杂形式。为了得到式(26)个参数的解,在计算时,首先取前两个参数的近似值0X,0Y对分别为1和0,然后对该式线性化,行成矩阵形式VAXL。(27)式中,00ILXCIYDI。A矩阵的第I行元素为000,/,1CIYXCIYY,前二项用函数插值法得到,而未知数向量为,TXXYZ。在最小二乘意义下,对式(27)求解。获得X后,则式(26)中的3个参量为,TXXYZ。(28)先将式(28)中确定的,XYZ值作为初始值,形成式(27)的矩阵形式,再次作为近似值迭代求解。将每次解得新
20、的,XYZ值与上一次得到的,XYZ值求差,直到满足限差的时候为止。32用最小二乘法预测医院住院人数7首先我们从某医院资料中得到以下数据1996199719981999200020012002200320042005年次1234567891012出院人数/千人次1156312037121851265129521543717721160891747617451某院1996年2005年出院人次数根据上表的数据,以时间作为X,出院人数作为Y轴,可以再直角坐标系中作散点图(图略)。可见随着时间的向后推移,出院人数在增长,出院人数Y与时间X呈直线关系。所以可以用最小二乘法建立回归模型。建立直线回归模型设回
21、归直线方程为YABX,2/BXXYYXX,AYBX。下表为出院人数Y与时间X关系计算表年次出院人数Y2X2YXY1115611337011562120341448924073121991484736564126516160025060512952516775647661544362383092627177249314031240581609642588612871917488130541157281017451003045417451合计551455638521759886473从上表可以求得B10,A906,所以回归方程为Y906X。接着我们可以用T检验对回归系数的显著性进行检验。剩余标准差
22、2/2YSYYN,回归系数标准误差2BYSSXX。13/326005,82305BBTBST。则P005,说明回归系数B有统计学意义,X与Y线性相关。然后我们可以对出院人数进行预测和区间预测当X11,12,13式,分别对2006年,2007年,2008年和2009年出院人数进行点预测。由于点预测也存在误差。它随着A的波动而改变,而A的波动大小可用其标准差NS来衡量221/AYSSNXXX187,预测范围为由AYS求得,见下表预测年份2006200720082009年次11121314预测值/千人次2006210622062306预测范围/千人次1829219319192293201923932
23、1192493实际出院人数182191970124924根据上表我们还可以对2009年所需病床数进行预测。我们得知2009年的出院人数在2306千人次左右,浮动的话是(2119,2493)千人次之间,由此我们参考国家对医院年平均病床周占标准区间为(18,23),根据平均病床周转次(次)出院人/平均开放病床数,得出平均开房病床数的区间为(1002,1281)张。33利用最小二乘法检验外商直接投资与中国经济增长的关系8为了直观表述外商直接投资与中国经济增长的关系,利用最小二乘法模型并19832006年中国GDP和实际利用外资额的数据进行检验,研究外商直接投资对中国经济增长的影响。首先我们建立模型选
24、取19832006年我国的实际使用FDI和GDP得年度数据为样本。(A)年份实际使用外资金额/亿美元GDP/亿元年份实际使用外资金额/亿美元GDP/亿元19839165957419953752157494919841419720671996417266685051419851956898911997452577314271986224410201419984546476967219872314119545199940319805794198831941492232000407148825401989339316917820014687895727919903487185984200252743
25、1039353199143662166252003535051167412199211008266519200460630136584319932751534560520056033018319201994337674667002006695002094070我们可以根据以上数据画出坐标图(图略),得到FDI、GDP大体呈线性关系,因此按照古典假定前提下的最小二乘法可建立计量经济模型为12IIYX。其中,IY为变量序列的因变量(GDP),1、2为估计参数,IX是自变量(FDI)。然后我们必须对模型进行检验现实经济中,多数经济变量是非平稳的,在回归分析中可能导致伪回归而使结果无效。对各变量时间序
26、列数据(如上表)分别取对数以消除趋势,并进行回归分析(置信度95),结果见以下3表。计量经济模型的回归统计结果(B)MULTIPLER096907987RSQUARE093911579ADJUSTEDRSQUARE093634832STDERROR011803277OBSERVATIONS24计量经济模型的方差(C)DFSSMSF回归分析1472689647268963393416残差220306451001393015总计235033348计量经济模型的参数估计(D)COEFFICIENTSSTDERRORTSTATPVALUELOWER95UPPER95INTERCEPT308759792
27、00853133619142424E2129106694573264526096185947407012410900380671842123738E1506222948590780187根据回归结果,参数估计如下3087597920701541090085313003806736191421842123IIYXT2R093911579F3393416DF23所估计参数2为070124109,说明外商直接投资每增加1个单位,可导致国民生产总值相差070124109个单位,这与经济学中边际贡献率的意义相符。数据回归分析中2R093911579,即可决系数为093911579,说明所建模型整体上对样
28、本数据拟合较好,也即解释变量(PDI)对被解释变量(GDP)的绝大部分增长作出了解释。对回归系数T检验针对010H和020H,由表D和数据回归分析可以看到,估计的回归系数1的标准误差和T值分别是10085313SE,13619142T2标准误差和T值分别是20038067SE,21842123T。取005A,查T分布表得到临界值23T2069因136191422069T,所以拒绝010H,而2T1842123,所以也拒绝020H。说明FDI和GDP的时间序列取对数可看成平衡序列,二者之间存在协整关系。4总结数值方法在数学计算方法中是一门重要的课程,而最小二乘法作为其中一种重要的计算方法在实际生
29、活中得到广泛的应用,本文着重介绍了最小二乘法在实际生活中的应用,而其中又加入了最小二乘法的扩展使得我们能更明白此计算方法但仍然需要继续改进让我们更加的了解到最小二乘法的应用能力。当然由于知识缺乏连贯性,许多地方有很多不足,需要继续探讨。16致谢本论文是在马正义老师的悉心指导下完成的,在此表示衷心的感谢。主要参考文献1施吉林,刘淑珍,陈桂芝编计算机数值方法,第3版M北京高等教育出版社200941031202丁克良,沈云中,欧吉坤整体最小二乘法直线拟合J辽宁工程技术大学学报,2010,290145473桂玉枝,唐云清递推最小二乘法再桥梁线形预测和调整中的应用J现代交通技术,2010,7014043
30、4孙锦萍,胡建华泛最小二乘法的改进及其容许性J纯粹数学与应用数学,2009,250160625黄仁宏,傅惠南非线性最小二乘法在金刚石研磨振动信号处理中的应用J机电工程技术,2009,380091151636汪连贺,柯灏最小二乘法在水位推算中的应用J测绘信息与工程,2010,350151527党娜,刘智红,李磊磊用最小二乘法预测医院住院人数A中国医院协会病案管理专业委员会第十八届学术会议论文集C,20098崔艳娟,赵琛利用最小二乘法检验外商直接投资与中国经济增长的关系J大连工业大学学报,2008,270795969高法文我国股市长期记忆性实证研究基于小波最小二乘法J消费导刊,2008,57591
31、0韩武,刘宗兵,刘娟,王琳曲线拟合的最小二乘法获取设备故障率J,2008,3605050711李彬,戴怡,石秀敏,刘朝华扩充最小二乘法在数控机床伺服系统模型参数估计中的应用J机床与液压,2010,380310813612李世飞,王平,沈振康利用移动最小二乘法进行深度图像曲面拟合J吉林大学学报工学版,2010,400123023313谢军,潘涛,陈洁梅,陈华舟,任小焕血糖近红外光谱分析的SAVITZKYGOLAY平滑模式与偏最小二乘法因子数的联合优选J分析化学研究报告,2010,3834234614林成森编著数值分析,第1版M北京科学出版社,2006189196,35737115周铁,徐树方,张
32、文平,李铁军编著计算方法,第1版M北京清华大学出版社,2006123136,19219616F施依德编著,罗亮生,包雪松,王国英译,林应举校数值分析,第2版M北京科学出版社,200220222917韩国栋,武瑛最小二乘法的研究型教学J科技信息,2010,2742943018王义鑫,刘事莲基于最小二乘法的高速公路线形拟合方法J山西建筑,2009,352330030119祁向前,刘国栋,钟广锐基于最小二乘法平差建筑物模型的空间节约J山西建筑,2010,360634734820葛建军,韩龙我国第三产业利润的行情差异分析基于分层线性模型与最小二乘法的比较J贵州财经学院学报,2010,02566117T
33、HELEASTSQUARESMETHODANDITSAPPLICATIONABSTRACTNUMERICALMETHODSISANIMPORTANTPARTOFHIGHERALGEBRATHISARTICLEFIRSTINTRODUCEDINTHELEASTSQUARESNUMERICALMETHODDEFINITIONANDTHEBASICFORMULA,THENINTRODUCEDTHEOPENINGFROMTHELEASTSQUARESEXPANSIONOFTHEOVERALLLEASTSQUARES,RECURSIVELEASTSQUARESMETHOD,THEPANLEASTTWOMULTIPLICATION,NONLINEARLEASTSQUARESMETHODFINALLY,SEVERALEXAMPLESINTHELEASTSQUAREMETHODINPRACTICALAPPLICATIONS,ADIRECTRESPONSETOTHEROLEOFTHELEASTSQUAREMETHODKEYWORDSLEASTSQUARES,RECURSIVE,PAN,NONLINEAR