- 博客(224)
- 资源 (1)
- 收藏
- 关注
原创 转化延迟预估
转化数据延迟久,但实时反馈至关重要涉及到模型预估准度,进而影响客户成本。more现状:超过12h的转化被视为负例,12h以内的为正例,这样会导致模型低估。P转化∣点击未转化点击延迟≤12h的转化延迟12h的转化延迟≤12h的转化。
2024-04-09 01:01:24 343
原创 Gumbel Softmax
Argmax是不可求导的,Gumbel Softmax允许模型能从网络层的离散分布(比如类别分布categorical distribution)中稀疏采样的这个过程变得可微,从而允许反向传播时可以用梯度更新模型参数。more。
2024-04-08 01:15:37 306
原创 PEFT-LISA
LISA是LoRA的简化版,但其抓住了LoRA微调的核心,即LoRA侧重更新LLM的底层embedding和顶层head。more。
2024-04-03 01:36:29 252
原创 大模型融合方法-DARE
LLM在SFT之后会产生大量的冗余参数(delta参数),阿里团队提出DARE方法来消除delta参数,并将其合并到PRE模型中,从而实现多源模型能力的吸收。mt∼Bernoullipδt1−mt⊙δtδtδt1−pθDAREtδtθPREEnotmaskxEmaskpp∗x传统的模型融合只是对神经元进行加权求和,这样会导致模型能力骤降。DARE方法通过dropout避免了这种问题。
2024-03-30 17:39:04 644
原创 多标签分类新建模方法
常见的多标签分类方法是同时生成多个标签的logits,然后接一个sigmoid激活函数做二分类。该方法简单直接,但忽略了标签之间的相关性。虽然业界针对该问题提出了很多解决思路,但大多是任务特定,通用性不强,也不够优雅。Transformer decoder倒是可以序列输出多个标签,但却加入了位置偏差。而标签之间是没有位置关系的,谁先谁后无所谓,只要输出全就行。这样也导致数据集不好构造。more。
2024-03-18 02:31:23 419
原创 ViT的若干细节
ViT证明了Transformer架构在CV领域的可行性,以后Transformer将大一统各领域。NLP的成功经验非常有潜力迁移到CV领域,比如scaling law,大数据+大模型的范式将开拓出CV的新一片天地。大数据+大模型真的是既无脑又有效,通过这种方式让Transformer自己去学习到特定领域的归纳偏置。可以说Transformer下限比CNN低,但上限又是CNN无法企及的。
2024-03-03 18:54:58 836
原创 CUDA编程模型
参照数学坐标系,grid的规格是43,block的规格是32more对于CUDA编程模型,本质上还是要掌握并行编程思想。每一个矩阵元素运算,都是由一条线程执行。我们要做的就是找到线程坐标位置及其对应的矩阵元素,然后执行计算逻辑。const;if!printf;exit1;编译。
2024-02-29 03:27:08 395
原创 MIND解读
这篇paper的核心是胶囊网络,该网络采用了动态路由算法自动对用户历史行为序列进行聚类,提取出多个兴趣向量,代表用户的不同兴趣。当用户再有新的交互时,通过胶囊网络,还能实时的改变用户的兴趣表示向量,做到在召回阶段的实时个性化。more。
2024-02-28 03:01:00 832
原创 TDM检索技术讲解
召回的任务是从海量商品库中挑选出与用户最相关的topK个商品。传统的召回检索时间复杂度是ON,而阿里的TDM通过对全库商品构建一个树索引,将时间复杂度降低到OlogN。more。
2024-02-27 02:19:47 840
原创 新一代粗排系统COLD
为了让粗排支持交叉特征来提升模型性能,同时又为了降低引入交叉特征、复杂模型所带来的预估延迟和资源消耗,阿里团队提出了COLD,在模型效果和算力间取得了平衡。more。
2024-02-21 01:55:24 321
原创 FLIP解读
title: FLIP解读toc: trueFLIP由CLIP改进而来,其思想非常简单,通过在图片侧mask掉相当比例的patch(无须重构patch),实现速度和准确性的双重提升。more。
2024-02-07 02:14:11 420
原创 SENet在双塔中的应用
ENet并不能将user侧和item侧的特征交互提前或者使其获得更深层次的交互,user侧和item侧的特征交互仍然只发生在最后的内积那一步,这是由其双塔结构导致的。SENet的作用是提前将各侧的重要特征升权,不重要特征降权。
2024-02-06 01:50:51 410
原创 top命令
当前时间系统运行时间当前登录用户数系统负载,即任务队列的平均长度。三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值进程总数正在运行的进程数睡眠的进程数停止的进程数僵尸进程数us用户空间占用CPU百分比sy内核空间占用CPU百分比ni用户进程空间内改变过优先级的进程占用CPU百分比id空闲CPU百分比wa 等待输入输出的CPU时间百分比hi硬件CPU中断占用百分比si软中断占用百分比st虚拟机占用百分比内存物理内存总量。
2024-01-29 02:05:52 361
原创 alfred自定义谷歌翻译workflow
如果要实现自定义workflow,则必须安装付费版的alfred,囊中羞涩的话可以自行淘宝。自定义步骤如下:more。
2024-01-23 22:16:02 496
原创 Mixtral Moe代码解读
title: Mixtral Moe代码解读toc: true一直对稀疏专家网络好奇,有些专家没被选中,那么梯度是否为0,这一轮被选中有梯度,下一轮没被选中无梯度,模型可以训练收敛吗?more。
2024-01-11 02:51:13 541
原创 Win11+Docker搭建CUDA开发环境
最近入门了CUDA编程,先记录下搭建环境过程。more由于在windows和wsl上折腾了好久,装cuda、cudnn、cmake、gcc等软件,还经常遇到依赖、版本许多问题,最终污染了系统环境。在朋友的安利下,采用docker容器开发方案,试一下真香。
2023-12-24 18:27:25 1015
原创 DPO讲解
PPO算法的pipeline冗长,涉及模型多,资源消耗大,且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法,去掉了RW训练和RL环节,只需要加载一个推理模型和一个训练模型,直接在偏好数据上进行训练即可:[外链图片转存中…(img-zz2PfNyG-1702835338094)]moreLDPOπθ;
2023-12-18 01:49:24 1488
原创 常见的LLM推理加速解决方案
KV Cacheint量化PagedAttentionGQASpeculative DecodingcodeAccelerating Generative AI with PyTorch II: GPT, FastFast Inference from Transformers via Speculative Decoding参考PyTorch造大模型“加速包”,不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一
2023-12-03 17:39:27 535
原创 Flash-Attention
这是一篇硬核的优化Transformer的工作。众所周知,Transformer模型的计算量和储存复杂度是ON2。尽管先前有了大量的优化工作,比如LongFormer、Sparse Transformer、Reformer等等,一定程度上减轻了Transformer的资源消耗,但对Transformer的性能有所折损,且扩展性不强,不能泛化到其它领域、以及复杂结构的叠加。more。
2023-10-16 02:38:37 421
原创 Self-Instruct
本篇工作利用LLM的生成能力,来产生大量指令数据集(指令、输入、输出),无需人工标注数据。千万不要误解成了模型自己生成输入和标签,然后自己学习,自娱自乐。其中,在对任务判别的时候,需要区分是输出优先还是输入优先。
2023-10-13 02:20:58 96
原创 召回和排序的样本构造问题
精排正样本:曝光点击负样本:曝光未点击粗排正样本:曝光点击负样本:如果只复用精排的负样本,粗排模型对精排模型的拟合就会出现比较大的偏差。因为粗排打分高的item可能会被精排打低分,导致不能下发曝光。而精排的正负样本量很少,粗排只见到了精排的样本,对于自己打分高的item,并不知道其正负属性,在下一次打分中,可能仍然会对其打高分。因此除了精排的负样本,仍然需要从精排未下发的item中负采样一部分,作为粗排的负样本。召回正样本:曝光点击负样本:曝光未点击+全库随机负采样。召回线上面临的
2023-09-14 01:23:23 88
原创 KV Cache
大模型推理加速的一个常用技术是KV Cache,在不牺牲任何计算精度的前提下,通过空间换时间,提高推理性能。注意,这里的Cache概念非常简单,跟浏览器缓存、CPU缓存不是一个概念。more在生成式模型的推理过程中,假设给定一个输入文本,模型会输出一个长度为N的文本,但是该过程执行了N次推理。因为模型每次推理只输出一个token,然后将输出token与输入tokens拼接在一起,作为下一次推理的输入,这样不断反复直到遇到终止符。
2023-09-13 02:30:19 510
原创 Multi Query Attention & Group Query Attention
Multi Query Attention(MQA)在2019年就被提出来了,用于推理加速,但在当时并没有受到很多关注,毕竟一张2080就能跑Bert-base了。随着LLM的大火,MQA所带来的收益得以放大。more。
2023-09-13 02:28:46 1970
原创 GAN,VAE,Diffusion对比
GAN优点生成的图片逼真缺点由于要同时训练判别器和生成器这两个网络,训练不稳定GAN主要优化目标是使图片逼真,导致图片多样性不足GAN的生成是隐式的,由网络完成,,不遵循概率分布,可解释性不强VAE优点学习的概率分布,可解释性强,图片多样性足缺点产生图片模糊Diffusion生成的图片逼真数学可解释性强缺点训练成本高昂、速度慢,需要多步采样参考DALLE2该视频讲到了GAN、VAE、DVAE、VQ-VAE、Diffusion、DDPM、Im
2023-06-24 21:46:54 1465
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人