自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(3887)
  • 收藏
  • 关注

转载 无位置编码(NoPE)也有长度泛化问题?首个针对NoPE的长度外推方法

来自:FudanNLP基于Transformer的大型语言模型(LLM)展示了强大的文本理解能力,颠覆了整个NLP领域的应用范式。然而,在长度有限文本上预训练的语言模型却无法像人类一样泛化到任意长度文本,如何解决长度泛化问题成为了LLM的一项主要挑战。目前主流的长度泛化工作认为:Transformer模型中显式的位置编码(例如旋转位置编码RoPE)带来了长度泛化问题,并试图 1. 提出新型可泛化的...

2024-04-24 14:42:33 7

转载 一文看懂 LLaMA 中的旋转式位置编码(Rotary Position Embedding)

来自:GiantPandaCV旋转式位置编码(RoPE)最早是论文[1]提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。而目前很火的 LLaMA 模型也是采用该位置编码方式。接下来结合代码和论文来解读一下 RoPE。基本概念首先论文中定义一个长度为 N 的输入序列为:其中 wi 表示输入序列中第 i 个 token,而...

2024-04-24 14:42:33 13

转载 2024 || 将任何Decoder-only的大模型(LLM)转换为文本Embedding编码器

深度图学习与大模型LLM(小编):今天给大家介绍一篇题为《LLM2Vec: 大型语言模型是强大的文本编码器》的论文-也就是说把LLM转为embedding 模型。这篇论文提出了一种简单的无监督方法 LLM2Vec,可以将任何仅解码器的大型语言模型(LLM)转换为强大的文本编码器。该方法包含三个简单的步骤:1)启用双向注意力,2)掩码下一token预测,以及3)无监督对比学习。实验结果表明,LLM2...

2024-04-24 14:42:33 9

转载 100+论文与创新点!SLAM+路径规划资料合集

今天分享slam+路径规划超全资料合集。无偿分享,扫码即可下载。资料包括:103篇slam论文来自ICRA2024等顶会,分为视觉slam、语义slam、物体级slam、多机器人协作slam。35个路径规划创新思路下滑查看全部34个路径规划创新思路使用粒子的动态环境中的连续占用映射以骨架为引导用于快速覆盖复杂3D场景的无人机路径规划框架具有交互速度障碍形状奖励的强化学习分布式多机器人导航具有分...

2024-04-24 14:42:33 1

转载 张俊林:聊聊对LLAMA-3、大模型开源与闭源以及合成数据的看法

作者:张俊林,新浪微博新技术研发负责人声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://www.zhihu.com/question/653373334/answer/3471466524编辑:青稞AILLAMA-3的发布是大模型开源届的大事,蹭下热度,在这里谈下有关LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法。一.LLAMA-3的基本情况模型结构与LLAMA-2...

2024-04-22 10:03:22 36

转载 Transformer本可以深谋远虑,但就是不做

机器之心报道机器之心编辑部语言模型是否会规划未来 token?这篇论文给你答案。「别让 Yann LeCun 看见了。」Yann LeCun 表示太迟了,他已经看到了。今天要介绍的这篇 「LeCun 非要看」的论文探讨的问题是:Transformer 是深谋远虑的语言模型吗?当它在某个位置执行推理时,它会预先考虑后面的位置吗?这项研究得出的结论是:Transformer 有能力这样做,但在实践中不...

2024-04-22 10:03:22 20

转载 ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练

来源:机器之心PaperWeekly本文从一个独特的视角解释了现有多模态大模型幻觉产生的原因。随着生成模型(如 ChatGPT、扩散模型)飞速发展,一方面,生成数据质量越来越高,到了以假乱真的程度;另一方面,随着模型越来越大,也使得人类世界的真实数据即将枯竭。面对这一处境,一个近期的研究热度是,能否利用生成模型生成的假数据来辅助学习?学界对此也产生了许多争论:到底是可以左脚踩右脚(bootsra...

2024-04-22 10:03:22 28

转载 《跨语言大模型》最新综述

大模型智能|原创作者 | 小夏跨语言大模型(MLLMs)能够利用强大的大型语言模型处理和回应多种语言的查询,在多语言自然语言处理任务中取得了显著的成功。尽管取得了这些突破,但仍然缺乏一份全面的调查总结该领域现有方法和最新发展。因此,在本文中,我们进行了深入的综述,并提供了一个统一的视角,总结了多语言大型语言模型领域的最新进展和新兴趋势。本文的贡献可以总结如下:(1)首次综述:据我们所知,我们首次按...

2024-04-18 22:03:45 44

转载 最强MOE开源:Mixtral 8x22B 发布!

来自:包包的算法笔记权重地址:https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1根据上传时间发现是一周之前,在Llama3正式放出来之前抢一个热度。根据网站开放的信息,我们有如下信息:Mixtral 8x22B 是我们Mixtral 的开放模型。它为人工智能社区设定了性能和效率的新标准。这是一个稀疏的专家混合(SMoE)模型,仅使...

2024-04-18 22:03:45 55

转载 Meta无限长文本大模型来了:参数仅7B,已开源

来自:机器之心谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。长文本是大语言模型一直在努力的方向。近日,谷歌提出的 Infini-Transformer 引入有效方法,可以将基于 Transformer 的大型语...

2024-04-18 22:03:45 47

转载 前紧后松:清华读博前两年的焦虑与成长

来自:丁司图从清华毕业入职腾讯没多久,我上个月作为今年新晋打工人的代表参加VALSE学生论坛,跟同学们分享了一些故事。司徒笔记这个专栏本来是用来聊学术的,不够轻松,似乎缺一些用来当作下饭伴侣或者如厕读物的文章。所以我想写几篇文章记录自己上学过程中的一些经历和感想,作为番外篇。如果甚至于能得到一些共鸣,我将不胜荣幸。2017年2月,我从南大提前来清华开始做本科毕设。2019年2月底,我中了第一篇CV...

2024-04-18 22:03:45 33

原创 对谷歌最新提出的Infini-transformer模型进行代码复现

知乎:Lil2J(已获授权)链接:https://zhuanlan.zhihu.com/p/692848185简介这篇文章主要内容为我个人对谷歌最新提出的Infini-transformer模型的个人见解,复现代码以及训练细节。项目已开源:https://github.com/jiahe7ay/infini-mini-transformer大家如果顺手的话能否给小弟的项目点个⭐️基座模型代码使用的...

2024-04-17 16:04:44 607

转载 Adaptive-RAG:根据难度自适应检索方案

来自:CS的陋室RAG的论文可谓是百花齐放,今天讲一篇有关自适应的RAG,这篇论文认为是不同难度的问题,RAG系统应该有不同的应对策略,因此搭建了这个自适应的RAG系统来适配不同难度的问题。论文:Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity。...

2024-04-17 16:04:44 63

转载 最新大模型论文研究论文合集,包含谷歌/苹果/亚马逊/港大、阿里最新研究报告!...

清华团队推出 MiniCPM:利用可扩展的训练策略挖掘小模型潜力;苹果MM1大模型:30B参数,多模态,在预训练指标上达到SOTA;亚马逊提出大规模视频语言对齐方法VidLA;英伟达参与,高效视频扩散模型CMD发布;谷歌、Stability AI新研究:由文本引导生成纹理3D服装;港大、阿里新研究:只需一张图,轻松即时定制个性化照片;上海 AI Lab 新研究:将 LVLM 分辨率提升到 4K H...

2024-04-17 16:04:44 46

转载 多篇顶会一作却申博失败?斯坦福博士生亲述:AI领域太卷

来自:机器之心「尽管我在顶级 ML 会议上发表了多篇一作论文,为开源项目做出了贡献,也在业界产生了影响,但我仍在为进入博士课程而苦苦挣扎。我被顶尖大学拒之门外,感到迷茫和疲惫。」「我开始怀疑自己,怀疑如果没有合适的人脉或家庭背景,光有强大的研究背景是否还不够。我正在考虑放弃攻读博士学位以及从事有价值研究的梦想。」在刚刚过去的周末,关于「AI 博士申请条件卷上天」的帖子成为了 Reddit 社区讨论...

2024-04-17 16:04:44 34

转载 清华开源RepoAgent:大模型驱动的项目级代码文档生成框架

来源:TsinghuaNLP@公众号声明:本文只做分享,版权归原作者,侵权私信删除!编辑:青稞AI在软件工程领域,代码文档的质量直接关系到开发效率和软件质量。然而,文档的生成和维护往往耗费大量的时间和资源,成为项目团队的一大负担。针对这一问题,我组联合中国人民大学和西门子公司的研究人员,共同提出开源框架RepoAgent。RepoAgent 底层由大型语言模型(LLM)驱动,旨在自动化生成、自动维...

2024-04-16 17:07:13 42

转载 1个月快速迈入AI大模型黄金赛道!

听说你想快速转行人工智能?企业想要快速落地大模型应用到现有业务?身边缺少真正懂AI技术的大佬带你学习?由清华大学顶尖人工智能博士专家组成的Llama中文社区授课团队将会助你一臂之力!!不仅有靠谱的课程,更有超值的服务!我们能够帮助你????1.快速掌握大模型全面理论知识 手把手耐心指导,助想转行的同学快速上手,顺利通过转行/求职面试。此外我们提供模拟面试和职业咨询等就业服务,帮助你更好规划职业生涯。我们...

2024-04-16 17:07:13 27

转载 大模型综述出书了

来自:RUC AI Box在2023年3月,我们发表了大语言模型综述文章《A Survey of Large Language Models》。这篇综述文章已经更新到第13个版本,包含了83页的正文内容,并收录了900余篇参考文献。该综述文章旨在系统地梳理大语言模型的研究进展与核心技术,讨论了大量的相关工作。自大语言模型综述的预印本上线以来,受到了不少读者的关注。自英文综述文章上线后,陆续有读者询...

2024-04-16 17:07:13 63

转载 大模型训练加速之FlashAttention系列:爆款工作背后的产品观

知乎:方佳瑞原文:https://zhuanlan.zhihu.com/p/664061672纯学术分享,侵删FlashAttention(FA)是一系列针对Transformer模型训练和推理加速方案。自从发布以来,历经了多次迭代,并借着其节省显存、加速计算、使用简单的特性,目前已经是大模型训练必备之良药。FA的论文,一年多就有242个引用,作为一个做底层优化的论文,也是前无古人了。不过仔细研究...

2024-04-16 17:07:13 45

转载 魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

RWKV 投稿量子位 | 公众号 QbitAI不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:提出了两种新的RWKV架构,即Eagle(RWKV-5)和Finch(RWKV-6)。这两种序列模型以RWKV-4架构为基础,然后作了改进。新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynami...

2024-04-15 18:09:33 44

转载 一文全面盘点算法工程师大模型微调技能图谱

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能,并制作了大模型微调技能图谱,希望可以帮助大家将知识体系梳理清楚,为未来在大模型的工作与科研道路上节省时...

2024-04-15 18:09:33 64

转载 多模态大模型的最优预训练范式

作者:AI小飞侠,CV算法工程师/多模态声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/685586296编辑:青稞AI目前主流的多模态大模型的训练基本都是分为预训练和微调两阶段来进行的。预训练阶段是为了让大语言模型(LLM)具有理解视觉信息的能力,也可以认为是将视觉特征空间对齐到文本空间。微调阶段就是使用特定领域的数据,通过全量参数...

2024-04-15 18:09:33 31

转载 HADES: 利用视觉弱点越狱多模态大语言模型

©作者|李依凡机构|中国人民大学研究方向|多模态大语言模型来自 | RUC AI Box本文提出了一种针对多模态大语言模型的越狱方法HADES,使用精心设计的图片隐藏和放大原有有害意图,利用图像侧是多模态大模型无害性对齐弱侧这一特点对模型进行攻击。实验结果显示HADES在基于对齐LLM构建的开源模型和强大的闭源模型上都能取得明显的攻击效果。注:本文使用的示例可能包含令人不适的内容。论文题目:Im...

2024-04-15 18:09:33 37

转载 RAG系统中答案无关的片段对LLMs生成结果有何影响?

写在前面来自:NLP工作站RAG(检索增强生成)通过检索系统找到用户问题相关的信息片段,利用大模型综合生成一个答案,极大解决了大模型幻觉、信息更新不及时等问题,已经成为了大模型落地的重要手段。但在检索过程中,往往会检索到与问题极度相似、但又不包含答案或包含干扰答案的片段,这些答案无关片段对大模型生成答案有何影响呢?今天正好刷到一篇相关文章,带给大家《How Easily do Irrelevant...

2024-04-14 23:04:25 39

转载 MOE vs MOT 让LLM更加有效

知乎:北方的郎链接:https://zhuanlan.zhihu.com/p/691070810翻译自:https://www.superannotate.com/blog/mixture-of-experts-vs-mixture-of-tokens事实证明,LLM的表现与模型大小和可扩展性呈正相关。这种扩展伴随着计算资源的扩展,也就是说,模型越大,成本就越高。基于参数计数的 LLM 性能这是该...

2024-04-14 23:04:25 45

转载 国内20家公司大模型岗位面试经验汇总

作者:林夕,阿里巴巴集团高级算法工程师,专注多模态大模型研究。声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/690801254编辑:青稞AI面试情况投过的公司:淘天,字节,蚂蚁,商汤,美团,夸克,腾讯,minimax,零一万物,阿里控股,潞晨科技,阿里巴巴国际,网易实验室,Momenta。Offer:淘天,字节AML,商汤,蚂蚁,美...

2024-04-14 23:04:25 44

转载 每日论文速递 | 邱锡鹏团队新作:探索LLM预训练的Data Mixing Laws

深度学习自然语言处理 分享整理:pp摘要:大语言模型的预训练数据由多个领域(如网络文本、学术论文、代码)组成,其混合比例对结果模型的能力有着至关重要的影响。现有的研究依靠启发式方法或定性策略来调整比例,而我们发现了模型性能的定量可预测性,即函数形式的混合比例,我们称之为数据混合定律。在实际运行之前,在样本混合物上拟合这些函数可以揭示模型在未见混合上的性能,从而指导选择理想的数据混合。此外,我们还提...

2024-04-10 17:07:24 72

转载 每日论文速递 | sDPO-不要一次就把对齐数据用完

深度学习自然语言处理 分享整理:pp摘要:https://arxiv.org/abs/2403.13269Q1: 这篇论文试图解决什么问题?A:这篇论文试图解决的问题是如何在大型语言模型(LLMs)的训练过程中,更有效地与人类偏好对齐。具体来说,它提出了一种名为逐步直接偏好优化(stepwise Direct Preference Optimization,简称sDPO)的方法,用于改进现有的直接...

2024-04-10 17:07:24 40

转载 教你从0开始发一篇SCI,科研小白必看!

今天向所有在2024以及未来几年内发论文的同学分享一些资料:23年各大顶会论文合集、80个代码中的即插即用模块、论文写作方法论、以及完成初稿后的论文润色。发论文,首先大家需要解决idea的问题。最有效,也是最简单的方法:多看文献多总结。只有多读文献,才能了解领域发展、找到现有的问题、思考总结出idea。今天分享过去的一年内CV、NLP、ML方向的各大顶会论文合集。涵盖CVPR2022-2023、I...

2024-04-10 17:07:24 27

转载 每日论文速递 | DeepMind提出SAFE,用LLM Agent作为事实评估器

深度学习自然语言处理 分享整理:pp摘要:大语言模型(LLM)在回答开放式话题的事实搜索提示时,经常会生成包含事实错误的内容。为了对模型在开放域中的长式事实性进行基准测试,我们首先使用 GPT-4 生成了 LongFact,这是一个由跨越 38 个主题的数千个问题组成的提示集。然后,我们提出可以通过一种我们称之为 "搜索增强事实性评估器"(Search-Augmented Factuality E...

2024-04-10 17:07:24 42

转载 长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免

机器之心报道作者:杜伟、陈萍Anthropic 发现一种新型越狱漏洞并给出了高效的缓解方案,可以将攻击成功率从 61% 降至 2%。刚刚,人工智能初创公司 Anthropic 宣布了一种「越狱」技术(Many-shot Jailbreaking)—— 这种技术可以用来逃避大型语言模型(LLM)开发人员设置的安全护栏。研究者表示,其对 Anthropic 自家模型以及 OpenAI、Google D...

2024-04-07 10:34:29 23

转载 RAG实践中的关键模块解析

作者:孙鹏飞,南京大学 · 计算机科学与技术,互联网行业从业人员声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/682253496编辑:青稞AI1. 背景介绍RAG(Retrieval Augmented Generation,检索增强生成 )方法是指结合了基于检索的模型和生成模型的能力,以提高生成文本的质量和相关性。该方法是Meta...

2024-04-07 10:34:29 61

转载 复旦MOSS团队:数据配比的scalinglaw

来自:包包算法笔记在前文我们提到过,大模型训练中数据的多样性和质量是最重要的两个维度,并且在结尾挖了一个大坑,希望有大佬愿意研究多样性的scaling laws。这次,复旦MOSS团队带着数据配比scaling laws就来了。题目:Data Mixing Laws: Optimizing Data Mixture by Predicting Language Modeling Performan...

2024-04-07 10:34:29 103

转载 全面解析LoRA、QLoRA、RLHF,PPO,DPO,Flash Attention、增量学习等大模型算法

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。作为算法工程师,面对如此飞快的技术迭代,是否感觉到自己的学习步伐有点跟不上技术的发展?而且对这些新兴技术的理解仅仅停留在应用层面上,实际上对背后的原理没有具体剖析过...

2024-04-07 10:34:29 197

转载 每日论文速递 | 一次编码平行解码:高效Transformer解码

深度学习自然语言处理 分享整理:pp摘要:基于Transformer的 NLP 模型功能强大,但计算成本较高,限制了应用场景。经过微调的编码器-解码器模型在专业领域很受欢迎,其性能优于 GPT-4 等大型通用解码器模型。我们为编码器-解码器模型引入了一种新的配置,它能提高结构化输出和问题解答任务的效率,在这些任务中,一个输入需要多个输出。我们的方法,即提示中解码器(PiD),对输入进行一次编码,对...

2024-04-04 18:01:52 45

转载 每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

深度学习自然语言处理 分享整理:pp摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战,我们提出了一个新颖的框架:从反思反馈中强化学习Reinforcement Learning from Reflective...

2024-04-04 18:01:52 55

转载 从 大模型接受弱智吧再教育 谈指令微调对齐

知乎:hzwer原文链接:https://zhuanlan.zhihu.com/p/690667537仅学术分享,侵删这两天一篇论文以离谱方式火了:CQIA:“用弱智吧数据训练的 AI 爆杀了所有中文平台”,原文链接在:https://arxiv.org/abs/2403.18058正好我们借着这篇论文来聊聊大模型对齐,接上一篇文章[LLM转行笔记02] GPT 大模型的能力突现本文主要观点:首...

2024-04-04 18:01:52 78

转载 每日论文速递 | NAACL'24:自生成翻译记忆缓解翻译持续学习遗忘问题

深度学习自然语言处理 分享整理:pp摘要:现代神经机器翻译系统在几种不同的语言中表现出强劲的性能,并在不断改进。然而,它们的持续学习能力仍然受到灾难性遗忘问题的严重限制。在这项工作中,我们利用encoder-decoder transformer的一个关键特性,即它们的生成能力,提出了一种持续学习神经机器翻译系统的新方法。我们展示了如何利用重放记忆,将模型本身作为并行句子的生成器,从而有效地学习由...

2024-04-04 18:01:52 43

转载 整理了2000篇2024年顶会论文合集【附下载】

众所周知,论文是人工智能学习的基石,因为论文展示了不同方向最新的研究成果,了解并且掌握这些学习成果,会对自己写论文助力不少。这次我整理了AAAI 2024 /CVPR 2024 / ICLR 2024 / WACV 2024 论文合集,总共2000多篇,论文内容涵盖了3D高斯、时序、大语言模型、多模态等方向,希望对大家的学习有所帮助。扫码回复“论文”领最新2024年2000篇顶会论文合集为了让大...

2024-04-03 15:44:13 87

转载 近期RAG技术总结和串讲(4w字RAG文章纪念)

来自:CS的陋室最近写的RAG内容已经挺多了,然而内容逐渐变得零散,我今天给大家总结一下RAG的有关内容,同时给大家把有关内容串起来。当然,串起来的更多是概述和摘记,让大家对RAG的基础有更整体的了解,详情大家可以根据需要再展开了解,我也会在合适的位置加上原文链接。之前的文章算下来是三万多字,加上这篇应该能超过4万了,也特此记录一下自己在RAG这块的学习和实践经验。内容目录:概念。从baselin...

2024-04-03 15:44:13 42

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除