ROBUST REINFORCEMENT LEARNING ON STATE OBSERVATIONS WITH LEARNED OPTIMAL ADVERSARY

中文:基于学习的最优对手的状态观测下的稳健强化学习

解决问题:作者提出了一种交替训练框架(ATLA),在训练过程中在线训练对手和代理,强化学习代理通过学习最优对抗者来最大化自身鲁棒性

对手:破坏RL代理的状态观测,最大化地降低代理的奖励

ATLA

  • 首先固定智能体的策略,优化对手的策略,使其找到能使智能体表现最差的攻击

  • 然后固定对手的策略,优化智能体的策略,使其在这最恶劣的环境中学会最优的对策

智能体特点

  • 引入历史信息,将LSTM应用到RL智能体的策略网络,使得策略不仅仅依赖当前的状态观测

  • 对策略函数进行正则化,使得智能体在面对扰动后的状态观测时,策略输出的变化尽可能小

Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning

中文:无攻击的有效对抗性训练:最坏情况感知稳健强化学习

解决问题:提出了一种新的鲁棒训练框架

  • 不确定环境下,仅仅考虑自然状态下的回报是不够的,提出一种最坏攻击贝尔曼算子,估计策略在遭受攻击时的最坏情况动作值(避免通过大量样本显式学习最优攻击者)

  • critic网络引入最坏攻击Bellman算子进行训练,策略优化时,使用对抗性攻击下的最坏回报代替了自然状态下的未来回报

  • 引入基于价值的状态正则化,对状态的重要性进行度量,从而对策略施加不同程度的正则化

  • est:最坏攻击critic网络的损失函数(估计最坏情况动作值)

  • wst:策略优化的损失函数

  • reg:状态正则化的损失函数