论文下载:https://arxiv.org/abs/1909.03602
创新点
作者提出了一种自然结果和插入广告的平衡,也就是用户体验和平台收益的trade-off(之前的强化学习应用于广告系统,通常只会考虑广告带来的收益最大化,并不会考虑广告给用户造成的影响)
推荐列表中是否需要插入广告、插入什么广告、在什么位置插入广告
模型
DQN架构
传统的模型具有一定缺陷:
(a)无法确定插入哪个广告
(b)遍历每个广告每个位置,时间复杂度太高
作者提出了一个新的DQN架构
遍历每个广告,每遍历一次输出L+2个打分,0为不插入广告
state
用户浏览的推荐序列、用户浏览的广告序列、上下文信息、当前推荐序列
序列可以用别的模型处理
论文中作者用GRU处理用户浏览的推荐序列与用户浏览的广告序列(取最后一步),当前推荐序列全部拼起来经过全连接层(也可以使用CNN)
action
(广告,位置),0为不插入
但是遍历只遍历每个广告
reward
广告收益和用户体验两个维度:
用户体验如下: