自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(200)
  • 收藏
  • 关注

原创 mamba->jamba

mamba模型

2024-04-17 15:14:48 737

原创 随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)

随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)

2023-12-08 17:58:01 1489

原创 中文分词演进(查词典,hmm标注,无监督统计)新词发现

中文分析&新词发现

2023-12-08 17:13:47 1327

原创 generation的重复性问题

解决大模型的重复性问题

2023-11-21 16:52:24 534

转载 标准self-attention的几个变种的理解【token对token”是必须的吗】【必须有softmax吗】

在自动摘要这个任务上,标准注意力效果比较好,但是对话生成这个任务上,结果则反过来:标准的自注意力是最差的,Dense(D)和Random(R)是最好的,而当Dense和Random混合了标准的自注意力后(即 D+V 和 R+V),效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势,而几个Synthesizer看起来是标准注意力的“退化”,但事实上它们互不从属,各有优势。

2023-10-30 17:08:50 242

转载 multihead attention增强表达能力,解决“低秩瓶颈”

第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》,它明确地指出了Multi-Head Attention里边的表达能力瓶颈,并提出通过增大key_size的方法来缓解这个瓶颈。它能增加Attention的表达能力,并且不改变模型整体的hidden_size,计算量上也只是稍微增加了一点通常Q,K,V分别是对输入矩阵X进行不同W矩阵投影,

2023-10-30 16:52:12 238

原创 大模型LLM相关面试题整理

LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择,以下是一种常见的大模型LLM的架构介绍:Transformer架构:大模型LLM常使用Transformer架构,它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。

2023-10-20 14:12:32 2053

原创 怎么让英文大语言模型支持中文?--构建中文tokenization--继续预训练--指令微调

1、使用sentencepiece训练一个中文的词表。2、使用transformers加载sentencepiece模型。3、怎么合并中英文的词表,并使用transformers使用合并后的词表。4、在模型中怎么使用新词表。

2023-10-18 14:48:49 990

原创 大模型LLM相关面试题整理-训练集-训练经验-微调

综上所述,全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前,建议先评估所需的显存量,并确保训练设备具备足够的显存来支持训练过程。13b的占用大约50G内存,在64G内存上,i9 12900h运行缓慢7b的占用约26G内存,在64G内存上,i9 12900h运行、响应速度还可以,全参数finetune至少需要4倍的数据。

2023-10-17 19:55:35 2043 1

原创 大模型LLM相关面试题整理-PEFT

PEFT(Performance Estimation and Modeling for Fine-Tuning)是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能,并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能,提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验,从而节省时间和计算资源。数据采样:从原始数据集中采样一小部分数据用于性能估计。

2023-10-17 19:40:51 974 4

原创 大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm

绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中,绝对位置编码常用于处理文本序列,特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中,位置编码使用了正弦和余弦函数的组合来表示相对位置信息,但它并没有提供绝对位置的信息。这意味着,如果将输入序列的位置进行重新排序或删除/添加元素,模型将无法正确地理解序列的新位置。为了解决这个问题,绝对位置编码被引入到Transformer模型中。

2023-10-17 19:37:10 1179

原创 向量相似检索优化(乘积量化(PQ,)

倒排索引(Inverted File System,IVF)乘积量化(PQ, Product Quantization)

2023-10-12 11:21:39 89

原创 位置编码与外推性[bias(Alibi/KERPLE/Sandwich)+插值 + ROPE/RERope + keynorm。与长度外推性]

长度外推性=train short, test longtrain short:1)受限于训练成本;2)大部分文本的长度不会特别长,训练时的max_length特别特别大其实意义不大(长尾)。test long:这里long是指比训练时的max_length长,希望不用微调就能在长文本上也有不错的效果。

2023-09-21 14:59:13 1703

原创 大模型训练之加速篇 -attention优化【稀疏attention->线性化attention->分块计算->简化attention->Transformer-VQ】

加速

2023-09-21 10:27:10 1952

原创 大模型训练之加速篇 -> peft(Lora->ReLORA->Vera->Dora->LISA) -> accelerator -> deepspeed (Zero)

加速。大模型

2023-09-20 17:29:54 760

转载 RLHF优化

RLHF优化

2023-09-14 17:11:17 128

原创 peft代码解读:Prefix Tuning/LoRA/P-Tuning/Prompt Tuning

peft

2023-06-28 15:09:58 2126 4

翻译 大模型训练之计算量和内存优化篇------混合精度/量化/FSDP&cpu offload/Gradient Checkpointing

大模型训练显存和计算量优化

2023-05-24 19:59:40 2229

原创 GRPC 环境安装

cmakegrpc环境

2023-05-10 15:55:21 489

原创 大模型训练之并行篇-------数据并行/模型并行(层间层内)/流水并行

ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning 发表在SC 21,同样是进行offload,ZeRO-Offload更侧重单卡场景,而ZeRO-Infinity则是典型的工业界风格,奔着极大规模训练去了。层间模型并行则是对模型层进行切分,业界也有很多做框架的公司管它叫Pipeline并行,但是我的观点是层间模型并行只有真的流水起来了才能够叫Pipeline并行。典型例子就是1D的Megatron。

2023-03-29 15:58:54 4520

原创 NER 任务以及联合提槽任务

NER & cls联合提取

2023-03-29 15:18:47 568

原创 hugginface相关数据集整理

数据集

2023-03-21 17:14:54 674

原创 图网络模型 GCN->GAT

ZGCN0)W1【两层的GCN Layer】

2023-03-20 15:59:40 1116

转载 马科夫过程(MP) -> 马尔科夫奖励过程(MRP) -> 马尔科夫决策过程(MDP)

马尔可夫

2023-02-21 20:17:57 681

原创 强化学习基础

强化学习

2023-02-15 17:05:33 1266

原创 预训练范式提示学习方法一览(PET, Prefix-tuning,P-tuning,prompt tuning, PPT,SPoT, Prompt-tuning鲁棒性研究)

prompt 训练

2023-02-07 16:49:32 1731

原创 逻辑推理阅读理解任务及方法

阅读理解

2022-11-25 15:26:06 1018

原创 FFN -> GLU -> GAU

FFN优化

2022-11-25 15:24:58 2323

原创 leetcode---距离计算

1131. 绝对值表达式的最大值给你两个长度相等的整数数组,返回下面表达式的最大值:|arr1[i] - arr1[j]| + |arr2[i] - arr2[j]| + |i - j|其中下标 i,j 满足 0 <= i, j < arr1.length。按照数学中将abs展开多种情况分析,数学解...

2022-11-25 15:04:52 675

原创 leetcode--序列化与反序列化

剑指 Offer 37. 序列化二叉树请实现两个函数,分别用来序列化和反序列化二叉树。你需要设计一个算法来实现二叉树的序列化与反序列化。这里不限定你的序列 / 反序列化算法执行逻辑,你只需要保证一个二叉树可以被序列化为一个字符串并且将这个字符串反序列化为原始的树结构。提示:输入输出格式与 LeetCode 目前使用的方式一致,详情请参阅 LeetCode 序列化二叉树的格式。你并非必须采取这种方式,你也可以采用其他的方法解决这个问题。# Definition for a binary tre

2022-11-25 15:04:38 81

原创 文本攻击textattack->openattack

文本攻击

2022-11-25 14:25:54 1394

原创 生成模型finetune相关框架

finetune

2022-11-17 16:08:33 736

原创 大模型相关资料整理

深度大模型

2022-11-16 20:21:19 4069 2

转载 词云怎么做

python词云生成

2022-11-14 14:42:48 830

转载 Global Pointer

NER

2022-10-13 20:10:32 929

转载 attention与FFN复杂度&模型内存占用估计

复杂度

2022-10-13 19:41:21 1346

转载 seq2seq+前缀树约束生成

检索,生成

2022-10-12 15:39:54 166

转载 梯度惩罚:输入梯度惩罚& 参数梯度惩罚&两者之间的关系

输入的梯度惩罚:【对输入样本加扰动】【虚拟对抗】参数的梯度惩罚【FLooding】对输入样本施加ϵ∇xL(x,y;θ)的对抗扰动,一定程度上等价于往loss里边加入“梯度惩罚”梯度惩罚说“同类样本不仅要放在同一个坑内,还要放在坑底”过小的学习率是否可取呢?

2022-10-12 11:26:43 1932

转载 相似问生成和相似句检索能力 ::: simbert -> roformer-sim (simbertv2)

语义相似任务

2022-10-11 18:02:50 1088

转载 训练1000层的transformer

transformer深层训练理论分析实现

2022-10-11 14:57:25 212

python打印圣诞树,christmas

基础版:用*打印 升级版:turtle画出来 终极版:pygame加载音乐动态

2023-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除