SAC

SAC是一种actor-critic架构为基础的策略学习的强化学习并不是基于策略梯度来更新策略网络，而是通过最大化奖励和熵来更新策略网络，是一种off-policy的强化学习引入了最大熵和一个可学习的调节参数alpha来平衡探索与利用，设定一个熵阈值，如果小于阈值，增大alpha，提高探索引入

python代码题

python脚本，读取命令行参数并打开txt文件 import sys def read_file(path): try: with open(path,'r') as file: content = file.read() return content except File

PPO

是一种基于策略梯度的强化学习方法是TRPO的一个改进的版本，都引入了对策略更新幅度（保证了策略的稳定单调提升），只不过TRPO采用的是硬约束的形式，得使用二阶优化方法（比如共轭梯度），效率低，PPO将硬约束变成了软约束为了实现对策略更新幅度的软约束，ppo通常在目标函数里面剪切新旧策略的比率，或

强化学习八股

1：在RLHF中，PPO、DPO、GRPO有什么区别，loss是什么样的、各自的优缺点是啥共同点：三者都属于策略优化的方法 PPO（近端策略优化）：是一种在线强化学习的方法（但是因为限定了更新的幅度，所以可以利用部分之前的数据），构建奖励模型，依赖Critic模型

QAC、A2C、A3C 算法对比

QAC、A2C、A3C 均是 on policy 的强化学习算法 QAC、A2C、A3C 均是基于策略的强化学习算法，以 actor-critic 为基础架构，其中 actor 为策略网络，critic 为评价 actor 中当下策略的网络 actor 的目的是从 critic 网络得到高评价，cr

DDPG、SAC、A3C 算法对比

在线策略强化学习，离线策略强化学习，离线强化学习

强化学习可以分为在线策略强化学习，离线策略强化学习，离线强化学习无论是在线策略（on-policy）算法还是离线策略（off-policy）算法，都有一个共同点：智能体在训练过程中可以不断和环境交互，得到新的反馈数据。二者的区别主要在于在线策略算法会直接使用这些反馈数据，而离线策略算法会先将数据存

SAC-Lag

SAC

策略学习

策略梯度方法要得到更好的策略，即让该策略下，状态价值均值很大可以用梯度上升去更新策略网络，对状态价值均值求导可转换为对策略网络求导无法直接求出这个期望，因为不知道状态 S 概率密度函数，可以使用采样的方式去近似，g(s, a; θ) 是策略梯度 ∇θJ(θ) 的无偏估计

Q学习与SARSA

价值函数动作价值函数最优动作价值函数一个状态的最优动作价值由两部分组成，一部分离开状态 s 的即刻奖励，另一部分则是所有能到达的状态 s’ 的最优状态价值