zhurui_xiaozhuzaizai-CSDN博客

原创随机分词与tokenizer(BPE-＞BBPE-＞Wordpiece-＞Unigram-＞sentencepiece-＞bytepiece)

随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)

2023-12-08 17:58:01 1489

转载标准self-attention的几个变种的理解【token对token”是必须的吗】【必须有softmax吗】

在自动摘要这个任务上，标准注意力效果比较好，但是对话生成这个任务上，结果则反过来：标准的自注意力是最差的，Dense（D）和Random（R）是最好的，而当Dense和Random混合了标准的自注意力后（即 D+V 和 R+V），效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势，而几个Synthesizer看起来是标准注意力的“退化”，但事实上它们互不从属，各有优势。

2023-10-30 17:08:50 242

转载 multihead attention增强表达能力，解决“低秩瓶颈”

第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》，它明确地指出了Multi-Head Attention里边的表达能力瓶颈，并提出通过增大key_size的方法来缓解这个瓶颈。它能增加Attention的表达能力，并且不改变模型整体的hidden_size，计算量上也只是稍微增加了一点通常Q,K,V分别是对输入矩阵X进行不同W矩阵投影，

2023-10-30 16:52:12 238

原创大模型LLM相关面试题整理

LLM（Large Language Model，大型语言模型）是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择，以下是一种常见的大模型LLM的架构介绍：Transformer架构：大模型LLM常使用Transformer架构，它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成，每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构，适用于处理大规模语言数据。

2023-10-20 14:12:32 2053

原创怎么让英文大语言模型支持中文？--构建中文tokenization--继续预训练--指令微调

1、使用sentencepiece训练一个中文的词表。2、使用transformers加载sentencepiece模型。3、怎么合并中英文的词表，并使用transformers使用合并后的词表。4、在模型中怎么使用新词表。

2023-10-18 14:48:49 990

原创大模型LLM相关面试题整理-训练集-训练经验-微调

综上所述，全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前，建议先评估所需的显存量，并确保训练设备具备足够的显存来支持训练过程。13b的占用大约50G内存，在64G内存上，i9 12900h运行缓慢7b的占用约26G内存，在64G内存上，i9 12900h运行、响应速度还可以，全参数finetune至少需要4倍的数据。

2023-10-17 19:55:35 2043 1

原创大模型LLM相关面试题整理-PEFT

PEFT（Performance Estimation and Modeling for Fine-Tuning）是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能，并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能，提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验，从而节省时间和计算资源。数据采样：从原始数据集中采样一小部分数据用于性能估计。

2023-10-17 19:40:51 974 4

原创大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm

绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中，绝对位置编码常用于处理文本序列，特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中，位置编码使用了正弦和余弦函数的组合来表示相对位置信息，但它并没有提供绝对位置的信息。这意味着，如果将输入序列的位置进行重新排序或删除/添加元素，模型将无法正确地理解序列的新位置。为了解决这个问题，绝对位置编码被引入到Transformer模型中。

2023-10-17 19:37:10 1179

原创向量相似检索优化（乘积量化(PQ,）

倒排索引(Inverted File System,IVF)乘积量化(PQ, Product Quantization)

2023-10-12 11:21:39 89

原创位置编码与外推性[bias(Alibi/KERPLE/Sandwich)+插值 + ROPE/RERope + keynorm。与长度外推性]

长度外推性=train short, test longtrain short：1）受限于训练成本；2）大部分文本的长度不会特别长，训练时的max_length特别特别大其实意义不大（长尾）。test long：这里long是指比训练时的max_length长，希望不用微调就能在长文本上也有不错的效果。

2023-09-21 14:59:13 1703

原创大模型训练之加速篇 -attention优化【稀疏attention-＞线性化attention-＞分块计算-＞简化attention-＞Transformer-VQ】

加速

2023-09-21 10:27:10 1952

原创大模型训练之加速篇 -＞ peft(Lora-＞ReLORA-＞Vera-＞Dora-＞LISA) -＞ accelerator -＞ deepspeed (Zero)

加速。大模型

2023-09-20 17:29:54 760

转载 RLHF优化

RLHF优化

2023-09-14 17:11:17 128

原创 peft代码解读:Prefix Tuning/LoRA/P-Tuning/Prompt Tuning

peft

2023-06-28 15:09:58 2126 4

翻译大模型训练之计算量和内存优化篇------混合精度/量化/FSDP&cpu offload/Gradient Checkpointing

大模型训练显存和计算量优化

2023-05-24 19:59:40 2229

原创 GRPC 环境安装

cmakegrpc环境

2023-05-10 15:55:21 489

原创大模型训练之并行篇-------数据并行/模型并行(层间层内)/流水并行

ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning 发表在SC 21，同样是进行offload，ZeRO-Offload更侧重单卡场景，而ZeRO-Infinity则是典型的工业界风格，奔着极大规模训练去了。层间模型并行则是对模型层进行切分，业界也有很多做框架的公司管它叫Pipeline并行，但是我的观点是层间模型并行只有真的流水起来了才能够叫Pipeline并行。典型例子就是1D的Megatron。

2023-03-29 15:58:54 4520

原创 NER 任务以及联合提槽任务

NER & cls联合提取

2023-03-29 15:18:47 568

原创 hugginface相关数据集整理

数据集

2023-03-21 17:14:54 674

原创图网络模型 GCN-＞GAT

ZGCN0)W1【两层的GCN Layer】

2023-03-20 15:59:40 1116

转载马科夫过程（MP) -＞马尔科夫奖励过程（MRP） -＞马尔科夫决策过程（MDP）

马尔可夫

2023-02-21 20:17:57 681

原创强化学习基础

强化学习

2023-02-15 17:05:33 1266

原创预训练范式提示学习方法一览（PET， Prefix-tuning，P-tuning，prompt tuning， PPT，SPoT， Prompt-tuning鲁棒性研究）

prompt 训练

2023-02-07 16:49:32 1731

原创逻辑推理阅读理解任务及方法

阅读理解

2022-11-25 15:26:06 1018

原创 FFN -＞ GLU -＞ GAU

FFN优化

2022-11-25 15:24:58 2323

原创 leetcode---距离计算

1131. 绝对值表达式的最大值给你两个长度相等的整数数组，返回下面表达式的最大值：|arr1[i] - arr1[j]| + |arr2[i] - arr2[j]| + |i - j|其中下标 i，j 满足 0 <= i, j < arr1.length。按照数学中将abs展开多种情况分析，数学解...

2022-11-25 15:04:52 675

原创 leetcode--序列化与反序列化

剑指 Offer 37. 序列化二叉树请实现两个函数，分别用来序列化和反序列化二叉树。你需要设计一个算法来实现二叉树的序列化与反序列化。这里不限定你的序列 / 反序列化算法执行逻辑，你只需要保证一个二叉树可以被序列化为一个字符串并且将这个字符串反序列化为原始的树结构。提示：输入输出格式与 LeetCode 目前使用的方式一致，详情请参阅 LeetCode 序列化二叉树的格式。你并非必须采取这种方式，你也可以采用其他的方法解决这个问题。# Definition for a binary tre

2022-11-25 15:04:38 81