精选优质文档-倾情为你奉上 强化学习基础知识作为人工智能领域、机器学习(Machine Learnig)热点研究内容之一的强化学习(Reinforcement Learning,RL),旨在通过在无外界“教师”参与的情况下,智能体(Agent)自身通过不断地与环境交互、试错,根据反馈评价信号调整动作,得到最优的策略以适应环境。一、Markov决策过程(MDP)强化学习的来源是马尔科夫决策过程:M=Markov性的意思是x取x(1),x(2),x(3).x(n)所得到x(n+m)的分布与x只取x(n)所得到的x(n+m)的分布相同,既是说未来状态的分布只与当前状态有关,而与过去状态无关。(无后效性)若转移概率函数P(s,a,s)和回报函数r(s,a,s)与决策时间t无关,即不随时间t的变化而变化,则MDP称为平稳MDP。当前状态s所选取的动作是由策略h决定:S*A0,1 A=(s)在状态s下用策略所选取的动作。动作后的结果是由值函数以评估,它是由Bellman公式得到。(折