策略梯度方法

要得到更好的策略,即让该策略下,状态价值均值很大

可以用梯度上升去更新策略网络,对状态价值均值求导可转换为对策略网络求导

无法直接求出这个期望,因为不知道状态 S 概率密度函数,可以使用采样的方式去近似,g(s, a; θ) 是策略梯度 ∇θJ(θ) 的无偏估计

处理Q(S,A)有两种办法

  • REINFORCE,蒙特卡洛,直接用回报代替Q(同策略)

  • Actor-Critic中,用Critic估计Q(使用SARSA,也是同策略)

  • Critic存在自举问题,引入目标网络解决

引入基线提高策略梯度方法的表现

基线

引入一个b

带基线的REINFORCE

引入一个状态价值网络代替 b 作为基线

带基线的Actor-Critic(A2C)

同样引入一个状态价值网络代替 b 作为基线,经过公式推导,只需要一个状态价值网络即可,不需要动作价值网络:

同样,仍存在自举问题,可以引入目标网络