推荐系统八股
1、DIN的注意力机制和transformer的注意力机制有啥区别 注意力范围:DIN是局部注意力,只计算了候选物品和历史行为的一个相关性,但是Transformer是全局计算了 计算方式不一样:DIN的话是将两个向量拼接或者相减,然后通过全连接层,Transformer是通过计算QKV矩阵,然后点
1、DIN的注意力机制和transformer的注意力机制有啥区别 注意力范围:DIN是局部注意力,只计算了候选物品和历史行为的一个相关性,但是Transformer是全局计算了 计算方式不一样:DIN的话是将两个向量拼接或者相减,然后通过全连接层,Transformer是通过计算QKV矩阵,然后点
召回阶段 命中率 预测准确的正样本数 / 所有预测为正样本的数量 召回率 预测准确的正样本数 / 所有正样本数 排序阶段 AUC 从物理意义来说,ROC曲线的面经,ROC曲线即横坐标是假阳率,纵坐标是
对LSTM的一个改进,提高计算效率 将LSTM的输入门、遗忘门、输出门,变为了两个门 输入门表示需要记住当前的多少信息,遗忘门表示需要遗忘过去的多少信息,这两个会合并为一个细胞状态,输出门就表示需要输出多少合并后的记忆 GRU将原本的输入门和遗忘门变成了一个更新门,然后将细胞状态和隐藏状态合并了,重
两个模型都是用来预测CTR点击率的 点击率是0-1的 在一定程度上都是在时间序列数据基础上进行建模 DIN 在建模中引入了attention机制,然后引入了小批量自适应正则化和Dice激活函数
1、LoRA微调的矩阵初始化怎么初始化 LoRA微调使用低秩分解,将参数矩阵的变化量,分解成两个更小的矩阵B和A 其中B初始化为0,A初始化为高斯分布 B初始化为0,是为了保证训练刚开始的时候,
python脚本,读取命令行参数并打开txt文件 import sys def read_file(path): try: with open(path,'r') as file: content = file.read() return content except File
1:在RLHF中,PPO、DPO、GRPO有什么区别,loss是什么样的、各自的优缺点是啥 共同点:三者都属于策略优化的方法 PPO(近端策略优化):是一种在线强化学习的方法(但是因为限定了更新的幅度,所以可以利用部分之前的数据),构建奖励模型,依赖Critic模型
1:为什么使用多头注意力,为啥不使用一个头 表达能力:多头注意力可以更好的捕捉序列中的不同信息,不同的头可以分别去关注序列中的不同内容 计算效率:如果使用一个注意力头,要达到一个比较好的效果,需要一个维度比较大的矩阵,计算复杂度高,多头注意力虽然有多个矩阵,但是是可以并行计算的,效率比较高
1、激活函数 为什么需要激活函数:深度学习模型本质上是对函数的拟合,但是神经网络层都是线性,无法进行非线性建模,所以需要引入非线性的激活函数 特点:非线性、可微性(不然无法反向传播)、单调性) 为什么通常需要单调性:1、若不单调,反向传播更新时,导数有正有负,梯度方向不稳定;2、可能出现多个极小值,
定义:通常用于图像、视频、语音等信号数据的分类和识别任务。其核心思想是通过卷积、池化等操作来提取特征,将输入数据映射到一个高维特征空间中,再通过全连接层对特征进行分类或回归。 核心是卷积层与池化层 卷积层:保留数据的特征(通过滑动卷积核(或滤波器)对输入图像进行处理) 池化层:池化层通常跟在卷积层之