论文解析链接:https://zhuanlan.zhihu.com/p/558087806

技术报告链接:https://zhuanlan.zhihu.com/p/1919784812291526799

知乎上p神有了详细的解读,针对一些补充,做了更详细的解释:

  • 在s_t采取了动作a_t之后,若用户下拉,则s_t转移到s_t+1,否则回合结束

  • 模型输入是两个已经排序好的队列:一个自然结果的队列,一个广告的队列。输出是把它们混合成一个序列。文章要做的就有点像归并排序,并不改变他们内部的顺序。

  • 作者是基于离线数据来学习的。如果不考虑distributional shift 的问题,其实一般的 off-policy 算法就能直接被用来做离线强化学习。为什么不考虑 distribution shift 并且使用标准的强化学习算法呢?

    • 因为在包括广告推荐等一系列的实际应用中,需要更多地强调智能体去适应 context,而不是去控制状态转移。

    • 由于 context(比如什么样的用户在什么样的地方打开 app)是智能体不可控的,因此不管使用什么样的策略,都不会使得线上部署时遇到的 context/state 分布和离线数据集离的更远或者更近。这种情况下,通常的离线强化学习算法(控制智能体不走出数据集)并不适用。相反,在这些应用里面,我们更强调的是离线到在线的泛化。