广告插入-CrossDQN

论文解析链接：https://zhuanlan.zhihu.com/p/558087806 技术报告链接：https://zhuanlan.zhihu.com/p/1919784812291526799 知乎上p神有了详细的解读，针对一些补充，做了更详细的解释：在s_t采取了动作a_t之后，若用户

广告插入-概述

基础知识广告和自然结果通常是同一类型当前的广告位分配方法主要可以分为两大类，固定位插入方法和动态位置插入方法。固定位的插入方法显然是一种次优的结果，例如，对于所有人广告都是固定的插入在[3,6,9]这几个位置，这样的策略并没有考虑用户的个性化信息，容易被用户感知，从而导致快划或者跳出。动态位

论文下载：https://arxiv.org/abs/1909.03602 创新点作者提出了一种自然结果和插入广告的平衡，也就是用户体验和平台收益的trade-off（之前的强化学习应用于广告系统，通常只会考虑广告带来的收益最大化，并不会考虑广告给用户造成的影响）推荐列表中是否需要插入广告、插入

ESMM模型提出背景：一种新的CVR预估模型，用于解决真实场景中CVR预估面临的数据稀疏以及样本选择偏差这两个关键问题数据稀疏：作为CVR训练数据的点击样本数量远小于CTR预估训练使用的曝光样本样本选择偏差：转化是在点击之后才“有可能”发生的动作，传统CVR模型通常以点击数据为训练集，其中点击