马尔科夫决策过程(MDP )目录 强化学习简介 马尔科夫决策过程 值迭代和策略迭代 马尔科夫模型的创建简介 在强化学习中,提供了一个回报函数,用于告诉learning agent的 行动做的是好是坏。例如对于一个四足爬行机器人,向前移动给它奖 励,翻到或者向后退就给予惩罚。 强化学习可用于自动驾驶、手机网络的路由选择、营销策略的选择 以及工厂控制等领域。马尔科夫决策过程 S0(始) S1 S2 S3 S4 S5 S6 S7 S8(终)马尔科夫决策过称为 整个决策过程的回报为 如果回报函数只与状态有关,则回报为 最优回报 根据Bellman equations,可以得到下式 最优策略得到最优策略 在知道马尔科夫五元组的情况下,可以通过两种算法得到最优策略 ,即值迭代和策略迭代 这里只考虑有限状态和有限动作的情况。值迭代 两种更新值函数的方法 首先为所有状态计算新的V(s), 全部计算完成后,再一次性的替换原先旧的 V(s).(同步更新) 每计算出一个V(s), 就用新的V(s)值替换旧的V(s)值。(异步更新) 计算出最优值函数后,就可以根据下式计算最优策略策略迭代值迭代与策略迭代的区别