回归分析方法-数学建模学习资源网站.ppt

上传人:ga****84 文档编号:449424 上传时间:2018-10-08 格式:PPT 页数:232 大小:3.41MB
下载 相关 举报
回归分析方法-数学建模学习资源网站.ppt_第1页
第1页 / 共232页
回归分析方法-数学建模学习资源网站.ppt_第2页
第2页 / 共232页
回归分析方法-数学建模学习资源网站.ppt_第3页
第3页 / 共232页
回归分析方法-数学建模学习资源网站.ppt_第4页
第4页 / 共232页
回归分析方法-数学建模学习资源网站.ppt_第5页
第5页 / 共232页
点击查看更多>>
资源描述

1、一. 一元数据处理方法,二. 多元数据处理方法,三.如何写好建模竞赛论文,数据处理专题,数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。,1.插值 2.拟合及线性回归,1. 一元数据处理方法,在解决实际问题的生产(或工程)实践和科学实验过程中,通常需要通过研究某些变量之间的函数关系来帮助我们认识事物的内在规律和本质属性,而这些变量之间的未知函数关系又常常隐含在从试验、观测得到的一组数据之中。因此,能否根据一组试验观测数据找

2、到变量之间相对准确的函数关系就成为解决实际问题的关键,例如在工程实践和科学实验中,常常需要从一组试验观测数据(xi ,yi ) ,i = 0,1,.,n之中找到自变量x与因变量y 之间的函数关系,一般可用一个近似函数y = f (x)来表示。函数y = f (x)的产生办法因观测数据和要求不同而异,通常可采用数据拟合与函数插值两种办法来实现。 数据拟合主要是考虑到观测数据受随机观测误差的影响,进而寻求整体误差最小、能较好反映观测数据的近似函数y = f (x),此时并不要求所得到的近似函数y = f (x)满足yi= f (xi) , i = 0,1,n。 函数插值则要求近似函数y = f (

3、x)在每一个观测点 xi 处一定要满足y i= f (xi) , i = 0,1,n ,在这种情况下,通常要求观测数据相对比较准确,即不考虑观测误差的影响。,在实际问题中,通过观测数据能否正确揭示某些变量之间的关系,进而正确认识事物的内在规律与本质属性,往往取决于两方面因素。其一是观测数据的准确性或准确程度,这是因为在获取观测数据的过程中一般存在随机测量误差,导致所讨论的变量成为随机变量。其二是对观测数据处理方法的选择,即到底是采用插值方法还是用拟合方法,插值方法之中、拟合方法之中又选用哪一种插值或拟合技巧来处理观测数据。插值问题忽略了观测误差的影响,而拟合问题则考虑了观测误差的影响。但由于观

4、测数据客观上总是存在观测误差,而拟合函数大多数情况下是通过经验公式获得的,因此要正确揭示事物的内在规律,往往需要对大量的观测数据进行分析,尤为重要的是进行统计分析。统计分析的方法有许多,如方差分析、回归分析等。,数据拟合虽然较有效地克服了随机观测误差的影响,但从数理统计的角度看,根据一个样本计算出来的拟合函数(系数),只是拟合问题的一个点估计,还不能完全说明其整体性质。因此,还应该对拟合函数作区间估计或假设检验,如果置信区间太大或包含零点,则由计算得到的拟合函数系数的估计值就毫无意义。这里所采用的统计分析方法就是所谓的回归分析。另外还可用方差分析的方法对模型的误差作定量分析。 对于插值方法,本

5、文简单介绍最常用的插值法的基本结论及其Matlab实现问题。由于数据拟合问题必须作区间估计或假设检验,所以除了介绍最基本的数据拟合方法最小二乘法的基本结论及其Matlab实现问题外,我们专门介绍了对数值拟合问题进行区间估计或假设检验的统计方法。,即介绍回归分析方法及其Matlab实现。 数据处理问题通常情况下只是某个复杂实际问题的一个方面或部分内容,因而这里所介绍的数据处理方法函数插值和数据拟合的方法(包括回归分析)通常只能解决实际问题中的部分问题计算问题。一般来说,对实际问题进行数学建模需要用到多方面知识,只有很少的情况下可以单独使用本章所介绍的内容,故我们最后以修改后的美国91年数学建模A

6、题为例说明如何使用数值计算知识建立数学模型,从而解决实际问题的方法。,1、插 值 法,在生产和实验中,常常需要根据一张表格表示的函数推算该表中没有的函数值.解决此类问题的简单途径之一利用插值法。,插值在数学发展史上是一个老问题,它是和Gauss, Lagrange, Newton等在著名数学家连在一起的。它最初来源于天体计算由若干观测值计算人一时刻星球的位置。现在,插值法在工程技术和数据处理有许多直接应用,而且也是数值积分、数值微分的基础。,1.1 插值概念与基础理论,1.1.1 插值问题的提法,对于给定的函数表,(其中 在a,b上连续, x0,x1,xn 是 a,b上的 n+1个互异的点),

7、在某函数类(x) 中求一个函数(x) ,使,(xi)=yi , (i=0,1,2,n) (2),(1),并用函数(x) 作为函数 y=f(x) 的近似函数,即y= f(x) (x) , ( xa,b ),这类问题称为插值问题。 a,b称为插值区间, x0 , x1, . , xn 称为插值节点,(2)称为插值条件,插值条件是选择近似函数的标准,满足此条件的近似函数 (x) 称为插值函数, f(x) 称为被插值函数。,函数类(x) 有多种取法,常用的有代数多项式、三角函数和有理函数。,最简单的插值函数是代数多项式,相应的插值问题称为多项式插值。,最简单的插值函数是代数多项式,相应的插值问题称为多

8、项式插值。,1.2 插值多项式的求法,在前面讨论插值多项式的存在唯一性时,实际上已提供了它的一种求法,即通过求解线性方程组来确定其系数ai (i=0,1,2,n),但是这种方法不仅计算量大,而且因不能获得简明的表达式而给理论和应用研究带来不便。在这里我们学习两种简便而实用的求答。,1.2.1 拉格朗日插值多项式,在线性代数中知道,所有次数不超过n次的多项式构成一个n+1维线性空间。其基有各种不同的取法。因此尽管满足条件(4)的n次插值多项式是唯一的,然而它的表达式可以有多种不同的形式。如果取满足条件:,的一组n次多项式,作为上述,线性空间的基,则容易看出,因此,由n+1个代数多项式,线性生成的

9、多项式(10)就是满足插值条件的n次插值多项式。,(10),(9),满足条件(9)的多项式,称为n+1个节点的n次基本插值多项式(或n次基函数),显然,求拉格朗日多项式的关键是求n次插值基函数。,因此,可设,因为,为n次多项式,且,两种特殊的Lagrange插值多项式,1.线性插值(两点插值),最简单的插值是线性插值(此时n=1), 这时插值问题就是求一次多项式,P1(x)=a0+a1x,使它满足条件,P1(x0)=y0 , P1(x1)=y1 ,这时,于是线性插值多项式为,即,它就是通过M0(x0,y0)和M1(x1,y1)两点的线段.,2.抛物插值,线性插值仅仅用两个节点以上的信息,精确度

10、较差。为了提高精确度,我们进一步考察以下三点的插值问题(n=2):,这时,由此得到抛物插值多项式,抛物插值又称三点插值.,例1 已知,的函数表,并估计误差。,分别用拉格朗日线性和抛物线插值求,的近似值,,%lagrange插值法的程序function y=lagrange(x0,y0,x);n=length(x0);m=length(x);for i=1:mz=x(i);s=0.0;for k=1:np=1.0;for j=1:nif j=kp=p*(z-x0(j)/(x0(k)-x0(j);endends=p*y0(k)+s;endy(i)=s;end,clearx0=10 11 12 13

11、 14 ;y0=2.3026 2.3979,2.4849,2.5649 2.6391;x=10:0.1:15;y=lagrange(x0,y0,x);plot(x0,y0,+,x,y),1901年龙格(Runge) 给出一个例子: 定义在区间-1,1上,这是一个光滑函数,它的任意阶导数都存在,对它在-1,1上作等距节点插值时,插值多项式情况,见图:,从图中,可见,在靠近-1或1时,余项会随n值增大而增大,如P12(0.96)=36!但f(0.96)=0.25,从图中,还可发现,在0附近插值效果是好的,即余项较小,另一种现象是插值多项式随节点增多而振动更多。 这种插值多项式当节点增加时反而不能更

12、好地接近被插之数的现象,称为龙格现象。,上述现象和定理,告诉我们用高次插值多项式是不妥当的,从数值计算上可解释为高次插值多项式的计算会带来舍入误差的增大,从而引起计算失真。那么如何提高插值精度呢?采用分段插值是一种办法。实践上作插值时一般只用一次、二次最多用三次插值多项式。,分段线性插值的构造:,设f(x)是定义在a,b上的函数,在a,b上节点 a= x0 x1x2xn-1xn=b, 的函数值为 y0 , y1 ,y2 ,yn-1 ,yn 。,(x)在每个子区间xi , xi+1(i=0,1,2,n-1)上是一次插 值多项式;,这种分段低次插值称为分段线性插值.在几何上就是用折线段带代替曲线,

13、故分段线性插值又称为折线插值.,1.2.2 分段线性插值,分段线性插值:matalb调用格式:yi=interp1(x,y,xi,linear),x,y为插值节点,xi为待求节点,分段线性插值曲线图:,曲线的光滑性较差,在节点处有尖点,但如果增加节点的数量,减小步长,会改善插值效果,例1 已知,的函数表,并估计误差。,分别用拉格朗日线性和抛物线插值求,的近似值,,clearx0=10 11 12 13 14 ;y0=2.3026 2.3979,2.4849 2.5649 2.6391 ;x=10:0.1:15;y1=interp1(x0,y0,x,linear);yy1=interp1(x0,

14、y0,11.5,linear); y2=interp1(x0,y0,x,cubic);yy2=interp1(x0,y0,11.5,cubic);subplot(1,2,1)plot(x0,y0,+,x,y1,11.5,yy1,rO)title(Piecewise linear)subplot(1,2,2)plot(x0,y0,+,x,y2,11.5,yy2,rO)title(Piecewise cubic),分段二次插值即:选取跟节点x最近的三个节点xi-1,xi, xi+1进行二次插值,即在区间xi-1, xi+1,取:这种分段的低次插值叫分段二次插值,在几何上就是用分段抛物线代替y=f(

15、x),故分段二次插值又和分段抛物插值。,matlab调用格式yi=interp1(x,y,xi,cubic) %二次多项式插值,什么是样条:,是 指飞机或轮船等的制造过程中为描绘出光滑的外形曲线(放样)所用的工具,样条本质上是一段一段的三次多项式拼合而成的曲线,在拼接处,不仅函数是连续的,且一阶和二阶导数也是连续的,1946年,Schoenberg将样条引入数学,即所谓的样条函数,1.3 三次样条插值,-(1),定义1.,1.4.1、三次样条插值函数,clearx0=0 1 2 3;y0=0 0.5 2 1.5;x=0:0.1:3;pp1=csape(x0,y0,complete);y3=pp

16、val(pp1,x);%计算插值函数在x处的值plot(x0,y0,+,x,y3,r),一维插值总结 插值函数一般是已知函数的线性组合或者称为加权平均。在已知数据点较少时,插值技术在工程实践和科学实验中有着广泛而又十分重要的应用。例如在信息技术中的图像重建、图像放大过程中为避免图像失真、扭曲而增加的插值补点,建筑工程的外观设计,化学工程试验数据与模型分析,天文观测数据、地理信息数据的处理,社会经济现象的统计分析等方面,插值技术的应用是不可或缺的。插值技术(或方法)远不止这里所介绍的这些,但在解决实际问题时,对于一位插值问题而言,前面介绍的插值方法已经足够了。剩下的问题关键在于什么情况下使用、怎

17、样使用和使用何种插值方法的选择上。拉格朗日插值函数在整个插值区间上有统一的解析表达式,其形式关于节点对称,光滑性好。但缺点同样明显,这主要体现在高次插值收敛性差(龙格现象);增加节点时前期计算作废,导致计算量大;一个节点函数值的微小变化(观测误差存在)将导致整个区间上插值函数都发生改变,因而稳定性差等几个方面。因此拉格朗日插值法多用于理论分析,在采用拉格朗日插值方法进行插值计算时通常选取n 7。分段线性插值函数(仅连续)与三次样条插值函数(二阶导数连续)虽然光滑性差,但他们都克服了拉格朗日插值函数的缺点,不仅收敛性、稳定性强,而且方法简单实用,计算量小。因而应用十分广泛。,2、数 据 拟 合,

18、在科学计算中经常要建立实验数据的数学模型。给定函数的实验数据,需要用比较简单和合适的函数来逼近(或拟合)实验数据。这种逼近的特点是:(a) 适度的精度是需要的;(b) 实验数据有小的误差;(c) 对于某些问题,可能有某些特殊的信息能够用来选择实验数据的数学模型。逼近离散数据的基本方法就是曲线拟合,常采用最小二乘拟合,曲线拟合问题的数学描述是,已知一组(二维)数据(xi,yi ) ,i = 1,2,。,n(即平面上的n个点(xi, yi ) ,i = 1,2,。,n), x i 互不相同。寻求一个函数(曲线) y = f (x),使f (x)在某种准则下与所有数据点最为接近,即曲线拟合得最好。最

19、小二乘拟合分为线性最小二乘拟合和非线性最小二乘拟合。,2.1线性最小二乘拟合(多项式拟合)方法在线性最小二乘拟合中,用的较多的是多项式拟合。如果取 r1( x), , rm+1( x) =1, ,xm ,即用m 次多项式拟合给定数据,则Matlab中有现成的函数 a=polyfit(x0,y0,m),其中输入参数x0,y0为要拟合的数据,m为拟合多项式的次数,输出参数a为拟合多项式y=amxm+a1x+a0系数a= am, , a1, a0。多项式在x处的值y可用下面的函数计算 y=polyval(a,x)。例4 某乡镇企业1990-1996年的生产利润如下表:,年份 1990 1991 19

20、92 1993 1994 1995 1996利润(万元) 70 122 144 152 174 196 202试预测1997年和1998年的利润。,解 作已知数据的的散点图,x0=1990 1991 1992 1993 1994 1995 1996;y0=70 122 144 152 174 196 202;plot(x0,y0,*)发现该乡镇企业的年生产利润几乎直线上升。因此,我们可以用y = a1 x + a0 作为拟合函数来预测该乡镇企业未来的年利润。编写程序如下:x0=1990 1991 1992 1993 1994 1995 1996;y0=70 122 144 152 174 19

21、6 202;a=polyfit(x0,y0,1)y97=polyval(a,1997)y98=polyval(a,1998)求得a1 = 20 ,a0 = -4.0705104 ,1997年的生产利润y97=233.4286,1998年的生产利润y98=253.9286。,2 非线性最小二乘拟合Matlab的优化工具箱中提供了两个求非线性最小二乘拟合的函数:curvefit和leastsq。使用这两个命令时,都要先建立M文件fun.m,但它们定义f (x)的方式是不同的。,1 curvefit设已知xdata=(xdata1,xdata2,xdatan ),ydata=(ydata1,ydat

22、a2,ydatan ),curvefit用以求含参量x(向量)的向量值函数F(x,xdata)=(f(x,data1), ,f(x,xdata n ) T中的参变量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,输入格式为:(1)x=curvefit(fun,x0,xdata,ydata);(2)x=curvefit(fun,x0,xdata,ydata,options);(3)x=curvefit(fun,x0,xdata,ydata,options, grad);(4)x,options=curvefit(fun,x0,xdata,ydata,);(5)x,opti

23、ons,funval=curvefit(fun,x0,xdata,ydata,);(6)x,options,funval,Jacob=curvefit(fun,x0,xdata,ydata,).输出目标函数值格式:f=fun(x,xdata).其中x0为迭代初值,options为控制参数。,3 非线性最小二乘拟合Matlab的优化工具箱中提供了两个求非线性最小二乘拟合的函数:curvefit和leastsq。使用这两个命令时,都要先建立M文件fun.m,但它们定义f (x)的方式是不同的。,1 curvefit设已知xdata=(xdata1,xdata2,xdatan ),ydata=(yd

24、ata1,ydata2,ydatan ),curvefit用以求含参量x(向量)的向量值函数F(x,xdata)=(f(x,data1), ,f(x,xdata n ) T中的参变量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,输入格式为:(1)x=curvefit(fun,x0,xdata,ydata);(2)x=curvefit(fun,x0,xdata,ydata,options);(3)x=curvefit(fun,x0,xdata,ydata,options, grad);输出目标函数值格式:f=fun(x,xdata).其中x0为迭代初值,options为

25、控制参数。,2 leastsq设已xdata=(xdata1,xdata2,xdatan ),ydata=(ydata1,ydata2,ydatan ),leastsq 用以求含参量x(向量)的向量值函数,输入格式为:(1)x= leastsq (fun,x0,options);(2)x= leastsq (fun,x0,options, grad);,例5 用下面一组数据拟合函数c(t) = a + be-0.02kt 中的参数a,b, k 。,t 100 200 300 400 500 600 700 800 900 1000cj103 4.54 4.99 5.35 5.65 5.90 6

26、.10 6.26 6.39 6.50 6.59,1 用命令curvefit。此时 F(x,tdata)=(a+b e-0.02kt1,a+be-0.02kt10)T,x=(a,b,k)(1) 编写M文件curvefun1.mfunction f=curvefun1(x,tdata)f=x(1)+x(2)*exp(-0.02*x(3)*tdata) %其中x(1)=a;x(2)=b;x(3)=k;(2) 输入命令tdata=100:100:1000cdata=1e03*4.54,4.99,5.35,5.65,5.90,6.10,6.26,6.39,6.50,6.59;x0=0.2,0.05,0.

27、005;x=curvefit(curvefun1,x0,tdata,cdata)f=curvefun1(x,tdata)即拟合得a=0.0070,b=-0.0030,k=0.0066,变量之间的关系,确定性关系,相关关系,确定性关系,身高和体重,相关关系,相关关系的特征是:变量之间的关系很难用一种精确的方法表示出来.,2.1.1 引言,2.2.回归分析方法,确定性关系和相关关系的联系,由于存在测量误差等原因,确定性关系在实际问题中往往通过相关关系表示出来;另一方面,当对事物内部规律了解得更加深刻时,相关关系也有可能转化为确定性关系.,回归分析处理变量之间的相关关系的一种数学方法,它是最常用的数

28、理统计方法.,回归分析的任务根据试验数据估计回归函数;讨论回归函数中参数的点估计、区间估计;对回归函数中的参数或者回归函数本身进行假设检验;利用回归函数进行预测与控制等等.,一元线性回归,多元线性回归,回归分析方法,数学模型及定义,模型参数估计,检验、预测与控制,可线性化的一元非线性回归(曲线回归),数学模型及定义,模型参数估计,多元线性回归中的检验与预测,逐步回归分析,2.2一元线性回归分析,例1 测16名成年女子的身高与腿长所得数据如下:,以身高x为横坐标,以腿长y为纵坐标将这些数据点(xi,yi)在平面直角坐标系上标出.,散点图,2.2.1 数学模型,一元线性回归分析的主要任务是:,、,

29、2.2.2 模型参数估计,(1)回归系数的最小二乘估计,其中,称Qe为残差平方和或剩余平方和. 可以证明:,2.2.3 回归方程的显著性检验,F检验法,可以用三种不同方法进行检验,它们的本质是相同的这里介绍,回归系数的置信区间,线性回归matlab,b=regress( Y, X ),1确定回归系数的点估计值:,b为一元函数y系数的估计值,3画出残差及其置信区间: rcoplot(r,rint),2求回归系数的点估计和区间估计、并检验回归模型: b, bint,r,rint,stats=regress(Y,X,alpha),例1 测16名成年女子的身高与腿长所得数据如下:,clearx=143

30、 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164;X=ones(16,1) x;Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;b,bint,r,rint,stats=regress(Y,X);b,bint,statsrcoplot(r,rint)figure(2)z=b(1)+b(2)*x;plot(x,Y,k+,x,z,r)F=finv(0.95,1,14)%及求F0.05(1,16-2),b = -16.0730 0.7194bint = -33.7071 1.

31、5612 0.6047 0.8340stats = 0.9282 180.9531 0.0000,F0.05(1,16-2)=4.6,1.2.4 预测与控制,(1)预测:对固定的x值预测相应的y值,例1 测16名成年女子的身高与腿长所得数据如下:,请你预测一下身高为170cm时该女子的腿长应该是在什么范围(置信度为0.05),clearx0=170x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164;y0=-16.073+0.7194*x0;t=tinv(0.975,16-2);Lxx=sum(x-mean(x).2

32、)d=sum(r.2)/14*t*sqrt(1+1/16+(x0-mean(x)/Lxx)yy=y0-d,y0+d,clearx=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164;X=ones(16,1) x;Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;b,bint,r,rint,stats=regress(Y,X);x0=170x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164

33、;y0=-16.073+0.7194*x0;t=tinv(0.975,16-2);Lxx=sum(x-mean(x).2)d=sum(r.2)/14*t*sqrt(1+1/16+(x0-mean(x)/Lxx)yy=y0-d,y0+d,(2)控制,1.3 可线性化的一元非线性回归曲线回归,例2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀, 容积不断增大.我们希望知道使用次数与增大的容积之间的关 系.对一钢包作试验,测得的数据列于下表:,散点图,此即非线性回归或曲线回归问题(需要配曲线),配曲线的一般方法是:,通常选择的六类曲线如下:,二. 多元数据处理方法,1、二维插值2、多元回归分析

34、3、聚类分析4、主成分分析,二维插值的定义,第一种(网格节点):,已知 mn个节点,第二种(散乱节点):,注意:最邻近插值一般不连续。具有连续性的最简单的插值是分片线性插值。,最邻近插值,二维或高维情形的最邻近插值,与被插值点最邻近的节点的函数值即为所求。,将四个插值点(矩形的四个顶点)处的函数值依次简记为:,分片线性插值,f (xi, yj)=f1,f (xi+1, yj)=f2,f (xi+1, yj+1)=f3,f (xi, yj+1)=f4,插值函数为:,第二片(上三角形区域):(x, y)满足,插值函数为:,注意:(x, y)当然应该是在插值节点所形成的矩形区域内。显然,分片线性插值

35、函数是连续的;,分两片的函数表达式如下:,第一片(下三角形区域): (x, y)满足,双线性插值是一片一片的空间二次曲面构成。双线性插值函数的形式如下:,其中有四个待定系数,利用该函数在矩形的四个顶点(插值节点)的函数值,得到四个代数方程,正好确定四个系数。,双线性插值,要求x0,y0单调;x,y可取为矩阵,或x取行向量,y取为列向量,x,y的值分别不能超出x0,y0的范围。,z=interp2(x0,y0,z0,x,y,method),用MATLAB作网格节点数据的插值,nearest 最邻近插值linear 双线性插值cubic 双三次插值缺省时, 双线性插值,例:测得平板表面3*5网格点

36、处的温度分别为: 82 81 80 82 84 79 63 61 65 81 84 84 82 85 86 试作出平板表面的温度分布曲面z=f(x,y)的图形。,输入以下命令:x=1:5;y=1:3;temps=82 81 80 82 84;79 63 61 65 81;84 84 82 85 86;mesh(x,y,temps),1.先在三维坐标画出原始数据,画出粗糙的温度分布曲图.,2以平滑数据,在x、y方向上每隔0.2个单位的地方进行插值.,再输入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi,yi,cubic);mesh(xi,yi

37、,zi)画出插值后的温度分布曲面图.,通过此例对最近邻点插值、双线性插值方法和双三次插值方法的插值效果进行比较。,插值函数griddata格式为:,cz =griddata(x,y,z,cx,cy,method),用MATLAB作散点数据的插值计算,要求cx取行向量,cy取为列向量。,nearest 最邻近插值linear 双线性插值cubic 双三次插值v4- Matlab提供的插值方法缺省时, 双线性插值,例 在某海域测得一些点(x,y)处的水深z由下表给出,船的吃水深度为5英尺,在矩形区域(75,200)*(-50,150)里的哪些地方船要避免进入。,4.作出水深小于5的海域范围,即z=

38、5的等高线.,3、作海底曲面图,实验作业,山区地貌:在某山区测得一些地点的高程如下表:(平面区域1200=x=4000,1200=y=3600),试作出该山区的地貌图和等高线图,并对几种插值方法进行比较。,1.4 多元线性回归,多元线性回归在工程上更为有用。,1.4.1数学模型及定义,1.4.2模型参数估计,解得估计值,1.4.4多元线性回归中的检验与预测,(残差平方和),F检验法,(2)预测,(A)点预测,(B)区间预测,1.5 逐步回归分析,实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效地选择重

39、要变量的方法。它是在多元线性回归的基础上派生出来的一种算法技巧。,“最优”的回归方程就是包含所有对Y有影响的变量, 而不包含对Y影响不显著的变量回归方程。,如果采用的自变量越多,则回归平方和越大,残差平方和越小,然而较多的变量来拟合回归方程,得到的防策划能够稳定性差,用它作预测可靠性差,精度低另一方面,如果采用了y 影响较小的变量而遗漏了重要变量,可导致估计量产生偏崎和不一致性为此,我们希望得到“最优”的回归方程,(4)“有进有出”的逐步回归分析。,(1)从所有可能的因子(变量)组合的回归方程中选择最优者;,(2)从包含全部变量的回归方程中逐次剔除不显著因子;,(3)从一个变量开始,把变量逐个

40、引入方程;,选择“最优”的回归方程有以下几种方法:,以第四种方法,即逐步回归分析法在筛选变量方面较为理想.,这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。,逐步回归分析法的思想:,从一个自变量开始,视自变量Y作用的显著程度,从大到小地依次逐个引入回归方程。,当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。,引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。,对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。,1.1多元线性回归,b=regress( Y, X ),1)确定回归系数的

41、点估计值:,1. MATLAB统计工具箱中的回归分析命令,对一元线性回归,取p=1即可.,3、画出残差及其置信区间: rcoplot(r,rint),2)求回归系数的点估计和区间估计、并检验回归模型: b, bint,r,rint,stats=regress(Y,X,alpha),例1,解:,1、输入数据: x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164; X=ones(16,1) x; Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;,2、回归分析及检验

42、: b,bint,r,rint,stats=regress(Y,X) b,bint,stats,To MATLAB(liti11),题目,3、残差分析,作残差图: rcoplot(r,rint),从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点.,4、预测及作图:z=b(1)+b(2)*x plot(x,Y,k+,x,z,r),返回,To MATLAB(liti12),1.2多 项 式 回 归,(1)一元多项式回归,1)确定多项式系数的命令:p,S=poly

43、fit(x,y,m),2)一元多项式回归命令:polytool(x,y,m),A、回归:,y=a1xm+a2xm-1+amx+am+1,此命令产生一个交互式的画面,画面中有拟合曲线和y的置信区间。通过左下方的Export菜单,可以输出回归系数等。,一元多项式回归也可以化为多元线性回归来解。,法一,直接作二次多项式回归: t=1/30:1/30:14/30; s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48; p,S=polyfit(t,s,2),To MATLAB(l

44、iti21),得回归模型为 :,法二,化为多元线性回归:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;T=ones(14,1) t (t.2);b,bint,r,rint,stats=regress(s,T);b,stats,To MATLAB(liti22),得回归模型为 :,Y=polyconf(p,t,S) plot(t,s,k+,t,Y,r),预测及作图,To MATLAB(liti23),1.6.3多元二项式回归,命令

45、:rstool(x,y,model, alpha),命令rstool产生一个交互式画面,画面中有m个图形,这m个图形分别给出了一个独立变量xi(另m-1个变量取固定值)与y的拟合曲线,以及y的置信区间。可以通过键入不同的xi值来获得相应的y值。,例3 设某商品的需求量与消费者的平均收入、商品价格的统计数 据如下,建立回归模型,预测平均收入为800、价格为6时 的商品需求量.,解,直接用多元二项式回归:x1=1000 600 1200 500 300 400 1300 1100 1300 300;x2=5 7 6 6 8 7 5 4 3 9;y=100 75 80 70 50 65 90 100 110 60;x=x1 x2; rstool(x,y,purequadratic),

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。