1、动态规划与离散系统最优控制 (1/3)第 6章 动态规划与离散系统最优控制q 前面讨论了 连续系统 最优控制问题的基于经典变分法和 庞特里亚金 的极大值原理的两种求解方法。 所谓连续系统 ,即系统方程是用线性或非线性 微分 方程描述的动态系统。 该类系统的控制问题是与传统的控制系统和控制元件的模拟形式实现相对应 , 如模拟运算放大器件、模拟自动化运算仪表、模拟液压放大元件等。随着计算机技术及其计算机控制技术的发展 , 离散系统 的最优控制问题也必然成为最优控制中需深入探讨的控制问题 , 而且成为现代控制技术更为关注的问题。动态规划与离散系统最优控制 (2/3)q 离散系统的控制问题为人们所重视
2、的原因有二 ,1) 连续系统在实现控制时,在应用 计算机控制技术、数字控制技术时 , 须经采样后成为离散化系统 , 再加以控制 如许多现代工业控制领域的实际计算机控制问题。2) 有些实际控制问题本身即为离散系统 , 如某些经济计划系统、人口系统的时间坐标只能以小时、天或月等标记 ; 再如机床加工中心的时间坐标是以一个事件 (如零件加工活动 )的发生或结束为标志的。动态规划与离散系统最优控制 (3/3)q 本节将介绍 解决离散系统最优控制 的 有效工具 贝尔曼动态规划 , 以及线性离散系统的二次最优控制问题。 内容为 最优性原理与离散系统的动态规划法 线性离散系统的二次型最优控制最优性原理与离散
3、系统的动态规划法 (1/3)6.1 最优性原理与离散系统的动态规划法q 基于对多阶段决策过程的研究结果 , 贝尔曼在 20世纪 50年代首先提出了求解 离散多阶段决策 优化问题 的动态规划法。 多阶段决策优化问题 方法在许多领域得到应用和发展 , 如在生产计划、资源配置、信息处理、模式识别等方面都有成功的应用。 本节介绍将动态规划优化方法应用于 动态系统的最优控制 问题 , 构成最优控制的两种主要求解方法之一的最优控制动态规划法。最优性原理与离散系统的动态规划法 (2/3)q 动态规划的核心是贝尔曼最优性原理 这个原理归结为一个基本的递推公式。求解多阶段决策问题时 , 要从末端开始 , 逆向递
4、推 , 直至始端 。 动态规划的离散基本形式 受到问题的维数的限制 , 应用有一定的局限性。但对于求解决线性离散系统的 二次型性能指标 的最优控制问题特别有效。 至于连续系统的最优控制问题的动态规划法 , 不仅是一种可供选择的有 充分性 的最优控制求解法 ,它还揭示了动态规划与变分法、极大值原理之间的关系 , 具有重要的理论价值。最优性原理与离散系统的动态规划法 (3/3)q 下面分别介绍 多阶段决策问题 最优性原理一般问题的问题描述 离散系统的动态规划法多阶段决策问题 (1/12)1. 多阶段决策问题q 在讨论动态规划法之前 ,先考察一个简单的最短时间行车问题 ,简称行车问题。q例 如图 1
5、0所示 , 某交通工具从 S站出发 , 终点为 F 站 , 全程可分为 4段。中间可能经过 的各站及站间的行车时间均已标记在图上 。图 10 某行车路线图 试求最短行车时间的行车路线。多阶段决策问题 (2/12)q 由 S站出发至终点 F站可有多种不同的行车路线 , 沿各种行车路线所耗费的时间不同。 为使总的行车时间最短 ,司机在路程的前 3段要作出 3次决策。p 首先,一开始司机要在经过 x1(1)站还是 x2(1)站两种情况中作出决策。到 x1(1)站或 x2(1)后 , 又面临下一站是经过 x1(2)站还是x2(2)站的第 2次决策。p 同样 ,在后续的每个阶段都要作出类似的决策。多阶段
6、决策问题 (3/12) 因此 ,计算 8种不同的行车路线所耗费的总行车时间 ,取最小者即可求出最短时间行车路线。 若行车问题需作决策的阶段数 n较大 ,每次决策中可供选择的方案较多时 ,用上述的 穷(枚)举法 来解决最短行车时间问题 计算量非常大 。 一般说来 ,用 穷举法 计算时间与作决策的 阶段数 n和每次决策中 可供选择的方案数 成 指数关系 , 即通常所称的指数爆炸、维数灾难。多阶段决策问题 (4/12)q 通过分析发现 , 另一种求最短时间行车路线方法的是 : 从最后一阶段开始 ,先分别算出x1(3)站和 x2(3)站到终点 F的最短时间(成本) ,并分别记为Jx1(3)和 Jx2(3)。实际上 , 最后一 阶段 没有选择的余地。 因此 ,由图 10可求得Jx1(3)=4, Jx2(3)=3