价值函数

动作价值函数

最优动作价值函数

一个状态的最优动作价值由两部分组成,一部分离开状态 s 的即刻奖励,另一部分则是所有能到达的状态 s’ 的最优状态价值

状态价值函数

最优状态价值函数

一个状态的最优状态价值等于从该状态出发采取的所有动作产生的最优动作价值中最大的那个最优动作价值

估计价值函数(TD算法)

单步-多步-蒙特卡洛

Q学习(用于DQN)

  • 估计最优动作价值函数

  • TD目标:

SARSA算法(用于Actor-Critic中的Critic)

  • 估计动作价值函数

  • TD目标: