1、随机性模型及MATLAB 统计工具箱在建模中的应用,确定性模型和随机性模型,随机因素可以忽略,随机因素影响可以简单地以平均值的作用出现,随机因素影响必须考虑,概率模型,统计回归模型,马氏链模型,概 率 模 型,例: 报童的利润,为了获得最大的利润,报童每天应购进多少份报纸?,162天报纸需求量的调查,报童早上购进报纸零售,晚上将未卖掉的报纸退回。,购进价b(=0.8元),零售价a (=1元),退回价c(=0.75元),售出一份赚 a-b,退回一份赔 b-c,136 214 195 219 224 197 213 187 187 230 172 227 157 114 156,问题分析,购进太多
2、卖不完退回赔钱,购进太少不够销售赚钱少,应根据需求确定购进量,每天需求量是随机的,目标函数应是长期的日平均利润,= 每天收入的期望值,随机性优化模型,需求量的随机规律由162天报纸需求量的调查得到,模型建立,设每天购进 n 份,日平均收入为 G(n),求 n 使 G(n) 最大,已知售出一份赚 a-b;退回一份赔 b-c,r视为连续变量,模型建立,模型建立,结果解释,取n使,a-b 售出一份赚的钱 b-c 退回一份赔的钱,MATLAB 统计工具箱常用命令(一),MATLAB 统计工具箱常用命令(一),y=normpdf(1.5,1,2) 正态分布x=1.5的概率密度 (=1, =2),y=fc
3、df(1,10, 50) F分布x= 1的分布函数 (自由度n1=10, n2=50),y =tinv(0.9,10) 概率=0.9的逆t分布 (分位数, 自由度n=10),由 计算 n,用MATLAB 统计工具箱求解报童模型,根据数据确定需求量的概率分布 p(x),baotongdata.m,baotong1.m,回 归 模 型,1. 在快速静脉注射的给药方式下,研究血药浓度(单位体积血液中的药物含量)的变化规律。,问题,2. 给定药物的最小有效浓度和最大治疗浓度,设计给药方案 (每次注射剂量, 间隔时间) 。,分析,半对数坐标系(semilogy)下c(t)的图形,理论:用一室模型研究血药
4、浓度变化规律,负指数规律,xueyao1.m,实验数据作图,3.血液容积v, t=0注射剂量d, 血药浓度立即为d/v,2.药物排除速率与血药浓度成正比,比例系数k(0),模型假设,1.机体看作一个房室,室内血药浓度均匀一室模型,模型建立,由假设2,由假设3,给药方案 设计,设每次注射剂量D, 间隔时间,血药浓度c(t) 应c1 c(t) c2,初次剂量D0 应加大,给药方案记作,给定c1=10, c2=25,为确定 只需确定参数 k,v,参数估计,由实验数据拟合曲线c(t)以估计k,v,xueyao2.m,思考:取对数化为线性最小二乘, 对结果有影响吗?,c1=10, c2=25,给药方案
5、设计,直线拟合:a=polyfit(x,y,1),b=polyfit(x,z,1),同一条直线 y=0.33x+0.96(z=0.33x+0.96),从拟合到回归,x= 0 1 2 3 4 , y= 1.0 1.3 1.5 2.0 2.3 ( + 号)x= 0 1 2 3 4 , z= 0.6 1.95 0.9 2.85 1.8 (*号),问题:你相信哪个拟合结果?怎样给以定量评价?,得到a= 0.33 0.96b= 0.33 0.96,收集一组包含因变量和自变量的数据;选定因变量与自变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;利用统计分析方法对不同的模型进行比较,找出与数据拟合
6、得最好的模型;判断得到的模型是否适合于这组数据, 诊断有无不适合回归模型的异常数据;利用模型对因变量作出预测或解释。,回归分析的主要步骤,2004 B题 电力市场的输电阻塞管理,确定各线路上潮流关于各发电机组出力的近似表达式,当前时段各发电机组出力 p1(0), , pn(0), 线路潮流 uj(0),答卷中的问题:没有常数项 a0;没有统计检验,例1: 血压与年龄、体重指数、吸烟习惯,体重指数 = 体重(kg) / 身高(m) 的平方,吸烟习惯: 0表示不吸烟,1表示吸烟,建立血压与年龄、体重指数、吸烟习惯之间的回归模型,模型建立,血压y,年龄x1,体重指数x2,吸烟习惯x3,y与x1的散点
7、图,y与x2的散点图,线性回归模型,回归系数0, 1, 2, 3 由数据估计, 是随机误差,MATLAB 统计工具箱常用命令(二),b=regress(y,X) b,bint,r,rint,s=regress(y,X,alpha),输入: y因变量(列向量), X1与自变量组成的矩阵,Alpha显著性水平(缺省时设定为0.05),s: 3个统计量:决定系数R2,F值, F(1,n-2)分布大于F值的概率p,p时回归模型有效.,rcoplot(r,rint),残差及其置信区间作图,MATLAB7.0版本 s增加一个统计量: 剩余方差s2.,模型求解,剔除异常点(第2点和第10点)后,xueya0
8、1.m,例2 软件开发人员的薪金,资历 从事专业工作的年数;管理 1=管理人员,0=非管理人员;教育 1=中学,2=大学,3=更高程度,建立模型研究薪金与资历、管理责任、教育程度的关系,分析人事策略的合理性,作为新聘用人员薪金的参考,分析与假设,y 薪金,x1 资历(年),x2 = 1 管理人员,x2 = 0 非管理人员,1=中学2=大学3=更高,资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用,教育,线性回归模型,a0, a1, , a4是待估计的回归系数,是随机误差,模型求解,R2,F, p 模型整体上可用,资历增加1年薪金增长546,管理人员薪金多6883,中学程度薪金比更高
9、的少2994,大学程度薪金比更高的多148,a4置信区间包含零点,解释不可靠!,xinjindata.m xinjin.m,残差分析方法,结果分析,残差,e 与资历x1的关系,e与管理教育组合的关系,残差全为正,或全为负,管理教育组合处理不当,残差大概分成3个水平, 6种管理教育组合混在一起,未正确反映,应在模型中增加管理x2与教育x3, x4的交互项,进一步的模型,增加管理x2与教育x3, x4的交互项,R2,F有改进,所有回归系数置信区间都不含零点,模型完全可用,消除了不正常现象,异常数据(33号)应去掉,e x1,e 组合,去掉异常数据后的结果,e x1,e 组合,R2: 0.957 0
10、.999 0.9998F: 226 554 36701 置信区间长度更短,残差图十分正常,最终模型的结果可以应用,xinjindata2.m xinjin1.m,模型应用,制订6种管理教育组合人员的“基础”薪金(资历为0),中学:x3=1, x4=0 ;大学:x3=0, x4=1; 更高:x3=0, x4=0,x1= 0; x2 = 1 管理,x2 = 0 非管理,大学程度管理人员比更高程度管理人员的薪金高,大学程度非管理人员比更高程度非管理人员的薪金略低,例3 商品销售量与价格,某厂生产的一种电器的销售量y与竞争对手的价格x1及本厂的价格x2有关,该商品在10个城市的销售记录如下,根据数据建
11、立y与x1和x2的模型, 对得到的模型和系数进行检验。 若某市本厂产品售价160(元),竞争对手售价170(元),预测该市的销售量.,将(x1,y),(x2,y)各10个点分别画图,y与x2有较明显的线性关系,y与x1之间的关系难以确定,需要对模型y=f(x1,x2)作几种尝试,用统计分析决定优劣。,例3 商品销售量与价格,b,bint,r,rint,stats=regress(Y,X,alpha),例3 商品销售量与价格,一次函数的回归模型,结果不是太好: =0.05时模型有效,但 =0.01时模型不能用; R2 较小; 1的置信区间包含零点。,shangpin.m,MATLAB 统计工具箱
12、常用命令(三),rstool (x,y, model,alpha),xnm矩阵, n是数据容量, yn维列向量,alpha显著性水平,多元二项式回归,model从以下4个模型中选取: (设m=2),例3 商品销售量与价格,x1=; x2=; x=x1 x2; y=;rstool(x,y, quadratic),Export向工作区传送参数:beta-回归系数,rmse-剩余标准差s,residuals-残差(向量);,以剩余标准差 rmse 最小为标准,比较4种模型,Model: linear purequadratic interaction quadratic rmse: 18.7362
13、16.6436 19.1626 18.6064, =(-312.5871 7.2701 -1.7337 -0.0228 0.0037),例3 商品销售量与价格,变量选择,影响因变量的因素:,自变量x1, x2, xm及其简单函数, 如,将所有影响显著的因素都纳入回归模型; 最终的模型尽量简单, 即包含尽量少的因素。,变量选择的标准,从候选集合S=x1,xk中选出一子集S1 (含pk个自变量)与因变量y构造回归模型, 其优劣由s2度量.,影响显著的自变量进入模型时,Q明显下降,s减小; 影响很小的自变量进入模型时,Q下降不大,p的增加 会使s变大.,变量选择与逐步回归,逐步回归,从候选集合中确定
14、一初始子集; 从子集外(候选集合内)中引入一个对y影响显著的; 对集合中的变量进行检验,剔除影响变得不显著的; 迭代式地进行引入和剔除,直到不能进行为止。,选择衡量影响显著程度的统计量,通常用偏F统计量; 适当选取引入变量的显著性水平in和剔除变量的out。,引入新的变量后原来模型内影响显著的变量变得不显著,从而被剔除 自变量之间存在较强相关性的结果.,某些自变量之间的相关性很强,回归系数的置信区间较大,多重共线性,矩阵XTX病态,MATLAB 统计工具箱常用命令(四),逐步回归 stepwise (x,y,inmodel,penter,premove),x候选变量集合的nk 数据矩阵(n是数据容量, k是变量数目); y因变量数据向量(n维); Inmodel初始模型中包括的候选变量集合的指标(矩阵x的列序数,缺省时设定为全部候选变量); penter引入变量的显著性水平(缺省时设定为0.05); premove剔除变量的显著性水平(缺省时设定为0.10)。,输出交互式画面,例 儿童的体重与身高和年龄,可能存在二次函数关系,体重y,身高x1,体重y,年龄x2,例 儿童的体重与身高和年龄,ertong.m,初始结果,最终结果,谢谢大家!,
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。