强化学习对抗训练|Candy的小破站

ROBUST REINFORCEMENT LEARNING ON STATE OBSERVATIONS WITH LEARNED OPTIMAL ADVERSARY

中文：基于学习的最优对手的状态观测下的稳健强化学习

解决问题：作者提出了一种交替训练框架（ATLA），在训练过程中在线训练对手和代理，强化学习代理通过学习最优对抗者来最大化自身鲁棒性

对手：破坏RL代理的状态观测，最大化地降低代理的奖励

ATLA

首先固定智能体的策略，优化对手的策略，使其找到能使智能体表现最差的攻击
然后固定对手的策略，优化智能体的策略，使其在这最恶劣的环境中学会最优的对策

智能体特点

引入历史信息，将LSTM应用到RL智能体的策略网络,使得策略不仅仅依赖当前的状态观测
对策略函数进行正则化，使得智能体在面对扰动后的状态观测时，策略输出的变化尽可能小

Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning

中文：无攻击的有效对抗性训练:最坏情况感知稳健强化学习

解决问题：提出了一种新的鲁棒训练框架

不确定环境下，仅仅考虑自然状态下的回报是不够的，提出一种最坏攻击贝尔曼算子，估计策略在遭受攻击时的最坏情况动作值（避免通过大量样本显式学习最优攻击者）
critic网络引入最坏攻击Bellman算子进行训练，策略优化时，使用对抗性攻击下的最坏回报代替了自然状态下的未来回报
引入基于价值的状态正则化，对状态的重要性进行度量，从而对策略施加不同程度的正则化

est：最坏攻击critic网络的损失函数（估计最坏情况动作值）
wst：策略优化的损失函数
reg：状态正则化的损失函数

The cover picture of the previous content

背包问题总结

The cover picture of the next content

LeetCode121：买卖股票的最佳时机（二维dp）

陈陈陈xy