- 博客(200)
- 收藏
- 关注
原创 随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)
随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)
2023-12-08 17:58:01 1489
转载 标准self-attention的几个变种的理解【token对token”是必须的吗】【必须有softmax吗】
在自动摘要这个任务上,标准注意力效果比较好,但是对话生成这个任务上,结果则反过来:标准的自注意力是最差的,Dense(D)和Random(R)是最好的,而当Dense和Random混合了标准的自注意力后(即 D+V 和 R+V),效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势,而几个Synthesizer看起来是标准注意力的“退化”,但事实上它们互不从属,各有优势。
2023-10-30 17:08:50 242
转载 multihead attention增强表达能力,解决“低秩瓶颈”
第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》,它明确地指出了Multi-Head Attention里边的表达能力瓶颈,并提出通过增大key_size的方法来缓解这个瓶颈。它能增加Attention的表达能力,并且不改变模型整体的hidden_size,计算量上也只是稍微增加了一点通常Q,K,V分别是对输入矩阵X进行不同W矩阵投影,
2023-10-30 16:52:12 238
原创 大模型LLM相关面试题整理
LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择,以下是一种常见的大模型LLM的架构介绍:Transformer架构:大模型LLM常使用Transformer架构,它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。
2023-10-20 14:12:32 2053
原创 怎么让英文大语言模型支持中文?--构建中文tokenization--继续预训练--指令微调
1、使用sentencepiece训练一个中文的词表。2、使用transformers加载sentencepiece模型。3、怎么合并中英文的词表,并使用transformers使用合并后的词表。4、在模型中怎么使用新词表。
2023-10-18 14:48:49 990
原创 大模型LLM相关面试题整理-训练集-训练经验-微调
综上所述,全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前,建议先评估所需的显存量,并确保训练设备具备足够的显存来支持训练过程。13b的占用大约50G内存,在64G内存上,i9 12900h运行缓慢7b的占用约26G内存,在64G内存上,i9 12900h运行、响应速度还可以,全参数finetune至少需要4倍的数据。
2023-10-17 19:55:35 2043 1
原创 大模型LLM相关面试题整理-PEFT
PEFT(Performance Estimation and Modeling for Fine-Tuning)是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能,并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能,提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验,从而节省时间和计算资源。数据采样:从原始数据集中采样一小部分数据用于性能估计。
2023-10-17 19:40:51 974 4
原创 大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm
绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中,绝对位置编码常用于处理文本序列,特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中,位置编码使用了正弦和余弦函数的组合来表示相对位置信息,但它并没有提供绝对位置的信息。这意味着,如果将输入序列的位置进行重新排序或删除/添加元素,模型将无法正确地理解序列的新位置。为了解决这个问题,绝对位置编码被引入到Transformer模型中。
2023-10-17 19:37:10 1179
原创 向量相似检索优化(乘积量化(PQ,)
倒排索引(Inverted File System,IVF)乘积量化(PQ, Product Quantization)
2023-10-12 11:21:39 89
原创 位置编码与外推性[bias(Alibi/KERPLE/Sandwich)+插值 + ROPE/RERope + keynorm。与长度外推性]
长度外推性=train short, test longtrain short:1)受限于训练成本;2)大部分文本的长度不会特别长,训练时的max_length特别特别大其实意义不大(长尾)。test long:这里long是指比训练时的max_length长,希望不用微调就能在长文本上也有不错的效果。
2023-09-21 14:59:13 1703
原创 大模型训练之加速篇 -attention优化【稀疏attention->线性化attention->分块计算->简化attention->Transformer-VQ】
加速
2023-09-21 10:27:10 1952
原创 大模型训练之加速篇 -> peft(Lora->ReLORA->Vera->Dora->LISA) -> accelerator -> deepspeed (Zero)
加速。大模型
2023-09-20 17:29:54 760
翻译 大模型训练之计算量和内存优化篇------混合精度/量化/FSDP&cpu offload/Gradient Checkpointing
大模型训练显存和计算量优化
2023-05-24 19:59:40 2229
原创 大模型训练之并行篇-------数据并行/模型并行(层间层内)/流水并行
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning 发表在SC 21,同样是进行offload,ZeRO-Offload更侧重单卡场景,而ZeRO-Infinity则是典型的工业界风格,奔着极大规模训练去了。层间模型并行则是对模型层进行切分,业界也有很多做框架的公司管它叫Pipeline并行,但是我的观点是层间模型并行只有真的流水起来了才能够叫Pipeline并行。典型例子就是1D的Megatron。
2023-03-29 15:58:54 4520
原创 预训练范式提示学习方法一览(PET, Prefix-tuning,P-tuning,prompt tuning, PPT,SPoT, Prompt-tuning鲁棒性研究)
prompt 训练
2023-02-07 16:49:32 1731
原创 leetcode---距离计算
1131. 绝对值表达式的最大值给你两个长度相等的整数数组,返回下面表达式的最大值:|arr1[i] - arr1[j]| + |arr2[i] - arr2[j]| + |i - j|其中下标 i,j 满足 0 <= i, j < arr1.length。按照数学中将abs展开多种情况分析,数学解...
2022-11-25 15:04:52 675
原创 leetcode--序列化与反序列化
剑指 Offer 37. 序列化二叉树请实现两个函数,分别用来序列化和反序列化二叉树。你需要设计一个算法来实现二叉树的序列化与反序列化。这里不限定你的序列 / 反序列化算法执行逻辑,你只需要保证一个二叉树可以被序列化为一个字符串并且将这个字符串反序列化为原始的树结构。提示:输入输出格式与 LeetCode 目前使用的方式一致,详情请参阅 LeetCode 序列化二叉树的格式。你并非必须采取这种方式,你也可以采用其他的方法解决这个问题。# Definition for a binary tre
2022-11-25 15:04:38 81
转载 梯度惩罚:输入梯度惩罚& 参数梯度惩罚&两者之间的关系
输入的梯度惩罚:【对输入样本加扰动】【虚拟对抗】参数的梯度惩罚【FLooding】对输入样本施加ϵ∇xL(x,y;θ)的对抗扰动,一定程度上等价于往loss里边加入“梯度惩罚”梯度惩罚说“同类样本不仅要放在同一个坑内,还要放在坑底”过小的学习率是否可取呢?
2022-10-12 11:26:43 1932
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人