第四章动态规划初步第一节问题概览一、问题的表述与变分法和最优控制相比,动态规划处理离散时间与不确定性问题更有优势。在本章中,我们将简介在确定性下的动态规划的初步知识。我们从下面的问题开始:V -(x(o)=max艺ptU(x(t),x(t+1)(pi)x(t+1)00ot=os.tx(t+1)GG(x(t),对所有的时间tx(o)给定。约束说明在x(t)时x(t+1)的值。x(t)是状态变量,x(t+1)可以看作是t时的控制变量。所以该约束说明给定状态变量如何确定控制变量。U是瞬时回报(实值函数),U不独立依赖于时间。我们是要得到最优值序列x*(t+1)卜以使得V*(x(0)最大,x*(t+1)卜被称t=ot=o为最优计划(plan),V*(X是值函数。我们把问题P1的形式称为序贯(sequenceproblem)问题。显而易见,V*(x(0)与初始的x(0)相关,即不同的x(0)会导致不同的最优值。下面是一个该问题形式的具体例子:例1:maxptU(c(t)c(t),k(t)t=os.tk(t+1)=