深度强化学习 神经网络与深度学习 https:/nndl.github.io/神经网络与深度学习 2 一个例子神经网络与深度学习 3 强化学习 智能体(Agent) 感知外界环境的状态(State)和奖励反馈(Reward),并 进行学习和决策。智能体的决策功能是指根据外界环境的 状态来做出不同的动作(Action),而学习功能是指根据 外界环境的奖励来调整策略。 环境(Environment) 智能体外部的所有事物,并受智能体动作的影响而改变其 状态,并反馈给智能体相应的奖励。神经网络与深度学习 4 强化学习中的基本要素 环境的状态集合:S; 智能体的动作集合:A; 状态转移概率:p(s|s,a),即智能体根据当前 状态s做出一个动作a之后,下一个时刻环境 处于不同状态s的概率; 即时奖励:R : S A S R,即智能体根据 当前状态做出一个动作之后,环境会反馈给 智能体一个奖励,这个奖励和动作之后下一 个时刻的状态有关。神经网络与深度学习 5 强化学习 强化学习问题可以描述为一个智能体从与环境的交 互中不断学习以完成特定目标(比如取得最大奖励 值)。 强化学习就是智能体不断与环境