强化学习基本知识(共7页).doc

上传人:晟*** 文档编号:8470460 上传时间:2021-11-22 格式:DOC 页数:7 大小:162KB
下载 相关 举报
强化学习基本知识(共7页).doc_第1页
第1页 / 共7页
强化学习基本知识(共7页).doc_第2页
第2页 / 共7页
强化学习基本知识(共7页).doc_第3页
第3页 / 共7页
强化学习基本知识(共7页).doc_第4页
第4页 / 共7页
强化学习基本知识(共7页).doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

精选优质文档-倾情为你奉上 强化学习基础知识作为人工智能领域、机器学习(Machine Learnig)热点研究内容之一的强化学习(Reinforcement Learning,RL),旨在通过在无外界“教师”参与的情况下,智能体(Agent)自身通过不断地与环境交互、试错,根据反馈评价信号调整动作,得到最优的策略以适应环境。一、Markov决策过程(MDP)强化学习的来源是马尔科夫决策过程:M=Markov性的意思是x取x(1),x(2),x(3).x(n)所得到x(n+m)的分布与x只取x(n)所得到的x(n+m)的分布相同,既是说未来状态的分布只与当前状态有关,而与过去状态无关。(无后效性)若转移概率函数P(s,a,s)和回报函数r(s,a,s)与决策时间t无关,即不随时间t的变化而变化,则MDP称为平稳MDP。当前状态s所选取的动作是由策略h决定:S*A0,1 A=(s)在状态s下用策略所选取的动作。动作后的结果是由值函数以评估,它是由Bellman公式得到。(折

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 表格模板

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。