马尔科夫决策过程ppt课件.pptx

上传人:晟*** 文档编号:9620969 上传时间:2021-12-15 格式:PPTX 页数:16 大小:1.48MB
下载 相关 举报
马尔科夫决策过程ppt课件.pptx_第1页
第1页 / 共16页
马尔科夫决策过程ppt课件.pptx_第2页
第2页 / 共16页
马尔科夫决策过程ppt课件.pptx_第3页
第3页 / 共16页
马尔科夫决策过程ppt课件.pptx_第4页
第4页 / 共16页
马尔科夫决策过程ppt课件.pptx_第5页
第5页 / 共16页
点击查看更多>>
资源描述

马尔科夫决策过程(MDP )目录 强化学习简介 马尔科夫决策过程 值迭代和策略迭代 马尔科夫模型的创建简介 在强化学习中,提供了一个回报函数,用于告诉learning agent的 行动做的是好是坏。例如对于一个四足爬行机器人,向前移动给它奖 励,翻到或者向后退就给予惩罚。 强化学习可用于自动驾驶、手机网络的路由选择、营销策略的选择 以及工厂控制等领域。马尔科夫决策过程 S0(始) S1 S2 S3 S4 S5 S6 S7 S8(终)马尔科夫决策过称为 整个决策过程的回报为 如果回报函数只与状态有关,则回报为 最优回报 根据Bellman equations,可以得到下式 最优策略得到最优策略 在知道马尔科夫五元组的情况下,可以通过两种算法得到最优策略 ,即值迭代和策略迭代 这里只考虑有限状态和有限动作的情况。值迭代 两种更新值函数的方法 首先为所有状态计算新的V(s), 全部计算完成后,再一次性的替换原先旧的 V(s).(同步更新) 每计算出一个V(s), 就用新的V(s)值替换旧的V(s)值。(异步更新) 计算出最优值函数后,就可以根据下式计算最优策略策略迭代值迭代与策略迭代的区别

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 演示文稿

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。