强化学习基本知识(共7页).doc

上传人：晟*** 文档编号：8470460 上传时间：2021-11-22 格式：DOC 页数：7 大小：162KB

下载相关举报

第1页 / 共7页

第2页 / 共7页

第3页 / 共7页

第4页 / 共7页

第5页 / 共7页

点击查看更多>>

资源描述

精选优质文档-倾情为你奉上强化学习基础知识作为人工智能领域、机器学习(Machine Learnig)热点研究内容之一的强化学习(Reinforcement Learning,RL)，旨在通过在无外界“教师”参与的情况下，智能体(Agent)自身通过不断地与环境交互、试错，根据反馈评价信号调整动作，得到最优的策略以适应环境。一、Markov决策过程（MDP）强化学习的来源是马尔科夫决策过程：M=Markov性的意思是x取x(1),x(2),x(3).x(n)所得到x(n+m)的分布与x只取x(n)所得到的x(n+m)的分布相同，既是说未来状态的分布只与当前状态有关，而与过去状态无关。（无后效性）若转移概率函数P（s,a,s）和回报函数r(s,a,s)与决策时间t无关，即不随时间t的变化而变化，则MDP称为平稳MDP。当前状态s所选取的动作是由策略h决定：S*A0,1 A=(s)在状态s下用策略所选取的动作。动作后的结果是由值函数以评估，它是由Bellman公式得到。（折

展开阅读全文

相关资源