论文下载:https://arxiv.org/abs/1909.03602

创新点

  • 作者提出了一种自然结果和插入广告的平衡,也就是用户体验和平台收益的trade-off(之前的强化学习应用于广告系统,通常只会考虑广告带来的收益最大化,并不会考虑广告给用户造成的影响)

  • 推荐列表中是否需要插入广告、插入什么广告、在什么位置插入广告

模型

DQN架构

传统的模型具有一定缺陷:

  • (a)无法确定插入哪个广告

  • (b)遍历每个广告每个位置,时间复杂度太高

作者提出了一个新的DQN架构

  • 遍历每个广告,每遍历一次输出L+2个打分,0为不插入广告

state

  • 用户浏览的推荐序列、用户浏览的广告序列、上下文信息、当前推荐序列

  • 序列可以用别的模型处理

  • 论文中作者用GRU处理用户浏览的推荐序列与用户浏览的广告序列(取最后一步),当前推荐序列全部拼起来经过全连接层(也可以使用CNN)

action

  • (广告,位置),0为不插入

  • 但是遍历只遍历每个广告

reward

  • 广告收益和用户体验两个维度:

  • 用户体验如下: