GRU

对LSTM的一个改进,提高计算效率 将LSTM的输入门、遗忘门、输出门,变为了两个门 输入门表示需要记住当前的多少信息,遗忘门表示需要遗忘过去的多少信息,这两个会合并为一个细胞状态,输出门就表示需要输出多少合并后的记忆 GRU将原本的输入门和遗忘门变成了一个更新门,然后将细胞状态和隐藏状态合并了,重


DIN和DIEN

两个模型都是用来预测CTR点击率的 点击率是0-1的 在一定程度上都是在时间序列数据基础上进行建模 DIN 在建模中引入了attention机制,然后引入了小批量自适应正则化和Dice激活函数


大语言模型八股

1、LoRA微调的矩阵初始化怎么初始化 LoRA微调使用低秩分解,将参数矩阵的变化量,分解成两个更小的矩阵B和A 其中B初始化为0,A初始化为高斯分布 B初始化为0,是为了保证训练刚开始的时候,


python代码题

python脚本,读取命令行参数并打开txt文件 import sys def read_file(path): try: with open(path,'r') as file: content = file.read() return content except File


Transformer八股

1:为什么使用多头注意力,为啥不使用一个头 表达能力:多头注意力可以更好的捕捉序列中的不同信息,不同的头可以分别去关注序列中的不同内容 计算效率:如果使用一个注意力头,要达到一个比较好的效果,需要一个维度比较大的矩阵,计算复杂度高,多头注意力虽然有多个矩阵,但是是可以并行计算的,效率比较高


CNN

定义:通常用于图像、视频、语音等信号数据的分类和识别任务。其核心思想是通过卷积、池化等操作来提取特征,将输入数据映射到一个高维特征空间中,再通过全连接层对特征进行分类或回归。 核心是卷积层与池化层 卷积层:保留数据的特征(通过滑动卷积核(或滤波器)对输入图像进行处理) 池化层:池化层通常跟在卷积层之


加性注意力和乘性注意力

加性注意力和乘性注意力,其实只是两种不同的计算方式 加性注意力提出于编码解码结构,乘性注意力提出于transformer 加性注意力通过一个前馈神经网络(feed-forward network)计算查询(query)和键(key)之间的相似 点积注意力通过计算查询(query)和键(key)的点积


DataLoader(数据迭代器)

自定义数据集类必须是 Dataset 的子类 from torch.utils.data import Dataset, DataLoader class TrajData(Dataset): """ 用于处理变长轨迹数据的自定义数据集类 """ def __in


注意力机制

深度学习在进行训练时,可能会用到多个数据,但是各个数据的重要程度是不同的,例如在 RNN 的介绍中,对 c1, c2, c3 的计算,实际上就是一种注意力机制,aij 表示重要程度 具体来说,注意力机制是通过如下的结构实现的:


Transformer

Transformer其实也是一个 Encoder-Decoder 模式 其实也是由 RNN 改进而来,用 multi-head attention 机制取代了传统的 RNN 网络,传统的RNN网络需要一个时刻一个时刻的顺序输入数据,距离的依存关系需要经过多个时间步骤才能联系到一起,从而容易造成难以