Q学习与SARSA|Candy的小破站

价值函数

动作价值函数

最优动作价值函数

一个状态的最优动作价值由两部分组成，一部分离开状态 s 的即刻奖励，另一部分则是所有能到达的状态 s’ 的最优状态价值

状态价值函数

最优状态价值函数

一个状态的最优状态价值等于从该状态出发采取的所有动作产生的最优动作价值中最大的那个最优动作价值

估计价值函数（TD算法）

单步-多步-蒙特卡洛

Q学习（用于DQN）

估计最优动作价值函数
TD目标：

SARSA算法（用于Actor-Critic中的Critic）

估计动作价值函数
TD目标：

The cover picture of the previous content

策略学习

The cover picture of the next content

LeetCode93：复原IP地址

陈陈陈xy