OneRec解读

1：论文背景

大模型指令微调

概述数据集构建训练策略

对LSTM的一个改进，提高计算效率将LSTM的输入门、遗忘门、输出门，变为了两个门输入门表示需要记住当前的多少信息，遗忘门表示需要遗忘过去的多少信息，这两个会合并为一个细胞状态，输出门就表示需要输出多少合并后的记忆 GRU将原本的输入门和遗忘门变成了一个更新门，然后将细胞状态和隐藏状态合并了，重

两个模型都是用来预测CTR点击率的点击率是0-1的在一定程度上都是在时间序列数据基础上进行建模 DIN 在建模中引入了attention机制，然后引入了小批量自适应正则化和Dice激活函数

1、LoRA微调的矩阵初始化怎么初始化 LoRA微调使用低秩分解，将参数矩阵的变化量，分解成两个更小的矩阵B和A 其中B初始化为0，A初始化为高斯分布 B初始化为0，是为了保证训练刚开始的时候，

python脚本，读取命令行参数并打开txt文件 import sys def read_file(path): try: with open(path,'r') as file: content = file.read() return content except File

1：为什么使用多头注意力，为啥不使用一个头表达能力：多头注意力可以更好的捕捉序列中的不同信息，不同的头可以分别去关注序列中的不同内容计算效率：如果使用一个注意力头，要达到一个比较好的效果，需要一个维度比较大的矩阵，计算复杂度高，多头注意力虽然有多个矩阵，但是是可以并行计算的，效率比较高

定义：通常用于图像、视频、语音等信号数据的分类和识别任务。其核心思想是通过卷积、池化等操作来提取特征，将输入数据映射到一个高维特征空间中，再通过全连接层对特征进行分类或回归。核心是卷积层与池化层卷积层：保留数据的特征（通过滑动卷积核（或滤波器）对输入图像进行处理）池化层：池化层通常跟在卷积层之

加性注意力和乘性注意力，其实只是两种不同的计算方式加性注意力提出于编码解码结构，乘性注意力提出于transformer 加性注意力通过一个前馈神经网络（feed-forward network）计算查询（query）和键（key）之间的相似点积注意力通过计算查询（query）和键（key）的点积