自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(3903)
  • 收藏
  • 关注

转载 大语言模型对齐的四种方法!

作者:Asukka,北京邮电大学 AI院在读研究生原文:https://zhuanlan.zhihu.com/p/673853716编辑:青稞AI语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关注。目前,大模型的对齐工作中,RLHF算法是能够达到最优的结果,RLHF通过人类反馈和PPO算...

2024-05-07 22:16:43 9

转载 论文解读:KAN: Kolmogorov–Arnold Networks

五一假期刚开始没两天的时候,刷到了一篇火遍国内外AI圈的论文,叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣,在假期结束之前,抽个空读一下看看是怎么个事。读了之后发现,仅仅只是高数、线代和概率论这些数学知识是看不懂的,最好还需要了解一点数分方面的知识,反正我是借助了ChatGPT才能勉强看完,这里我就从一个简单的科普...

2024-05-07 22:16:43 244

转载 仅用250美元,Hugging Face技术主管手把手教你微调Llama 3

机器之心报道编辑:赵阳大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型进行微调。我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推...

2024-05-06 16:45:06 6

转载 图神经网络顶会论文代码+创新点!160篇合集

图神经网络是现在顶会的研究热点,与CV和NLP领域交叉,容易有创新点,是发论文的好方向。今天分享160篇图网方向论文与代码合集,方便大家学习,找到顶会idea!想发论文的同学们赶快扫下方二维码,资料全部无偿分享!48篇图网最新顶会高分论文AAAI2024 / ICLR2024 / NeurIPS2023 / ICML2023 / WWW2023 / KDD2023 / ICLR202349篇图网论...

2024-05-06 16:45:06 7

原创 深度解析DPO及其变体在多种任务上的表现如何,该如何选择

深度学习自然语言处理 原创作者:wkk单位:亚利桑那州立大学paper:Insights into Alignment:Evaluating DPO and its Variants Across Multiple TasksLink:https://arxiv.org/pdf/2404.14723今天,我要带大家深入了解一项关于大型语言模型(LLMs)的研究,这是由亚利桑那州立大学的Amir S...

2024-05-06 16:45:06 683

转载 全新神经网络架构KAN来了!

来自:量子位一种全新的神经网络架构KAN,诞生了!与传统的MLP架构截然不同,且能用更少的参数在数学、物理问题上取得更高精度。比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。不仅准确性更高,并且还发现了新的公式。要知道后者可是登上Nature封面的研究啊~在函数拟合、偏微分方程求解,甚至处理凝聚态物理方面的任务都比MLP效果要好。而在大模型问题的解决上...

2024-05-06 16:45:06 36

转载 EMNLP2024投稿群建立!

备注:昵称-学校/公司-EMNLP,进入投稿群id:DLNLPer,记得备注呦

2024-05-06 16:45:06 4

转载 全面解析RLHF,PPO,DPO,Flash Attention,增量学习等大模型算法

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能,并制作了大模型微调技能图谱,希望可以帮助大家将知识体系梳理清楚,为未来在大模型的工作与科研道路上节省时...

2024-04-30 17:19:43 49

原创 MSRA联合清华在LoRA相关工作最新进展—混合LoRA专家 (MoLE)

深度学习自然语言处理 原创作者:fanmetasy引言2022年提出的LoRA(Low-Rank Adaptation)已成为微调大型预训练模型的关键技术,其在多种任务中均展现了有效性。LoRA的模块化架构,推动了利用多个经过训练的LoRA模型进行协同组合的进一步研究,这能够提高各种任务的性能。然而,将训练好的LoRA模型进行有效组合会有一个巨大的挑战:使用线性算法组合可能导致原始预训练模型固有的...

2024-04-30 17:19:43 747

原创 OpenAI最新研究——利用指令层次结构应对LLM攻击

深度学习自然语言处理 原创作者:无穷小敏今天要给大家介绍一篇OpenAI的在今年4月19日发表的一篇研究,该研究提出了一种指令层次结构(instruction hierarchy),以减少LLM被攻击的风险,提高模型的鲁棒性。可能有些小伙伴平时更关注大模型的性能,但是大模型安全在工业界,特别是AI模型落地时,是非常重要的一个考量。例如之前很火的prompt攻击方式“奶奶漏洞”,通过让GPT扮演奶奶...

2024-04-27 16:20:11 1023

转载 COLING24 | GFaiR:基于归结反演的大语言模型逻辑推理系统

论文名称:Towards Generalizable and Faithful Logic Reasoning over Natural Language via Resolution Refutation论文作者:孙洲浩,丁效*,杜理,蔡碧波,高靖龙,刘挺,秦兵Arxiv:https://arxiv.org/abs/2404.01677原创作者:孙洲浩出处:哈工大SCIR1 引言基于自然语言的...

2024-04-27 16:20:11 30

原创 Bert类模型也具备指令遵循能力吗?

深度学习自然语言处理 原创作者:WinnieBERT模型,依托Transformer架构及其大规模预训练,为自然语言处理领域带来了深远的影响。BERT模型架构包含多层双向Transformer编码器,通过这种结构,BERT及其家族成员,如RoBERTa、ELECTRA、DeBERTa和XLM-R,能够深入学习并理解语言的上下文,尤其在自然语言理解任务上表现卓越。然而,关于BERT家族在文本生成方面...

2024-04-26 18:14:10 1005

转载 TIVE: 数据高效的视觉指令微调

©作者|刘子康机构|中国人民大学研究方向|多模态大语言模型来自:RUC AI Box视觉指令微调是构建多模态大语言模型(MLLM)的核心步骤。现有的视觉指令构造方法主要有两类:基于大语言模型自动化构造,或是基于已有的多模态数据集构造。当前表现最好的多模态大语言模型往往将这些指令混合进行微调。尽管如此,对这些来自不同任务域的指令进行简单的混合可能会引入较大的冗余,导致更高的训练成本以及潜在的性能损...

2024-04-26 18:14:10 16

转载 微软发布Phi-3大模型,3.8B击败chatgpt

来自:包包的算法笔记微软在4月23日发布了Phi-3,Phi-3用 3.8B 的小版本做到了 Mixtral-8x7B 一样的效果,换算到dense大约等于一个14B的水平。量化后大小约1.8G, 在 iPhone15 上一秒可以出 20 个 token。小版本训练用了3.3T token 训练,更大的模型用了4.5T token。在社交媒体上也得到了广泛的讨论。在reddit上有个有趣的帖子,...

2024-04-26 18:14:10 23

转载 小师妹我一个月进阶LLM的方法!

我们从2024.1月底到现在已经帮助大几十个同学进阶LLM了,课程优化了数遍,好评不断,期待你的加入~介绍下我们的小团队,分别是:23年面试近50场国内LLM大厂通过率100%拿到多个大厂人才计划offer的毕业生(试听课就是他~)上海某985本硕、外企算法工程师、知乎NLP领域万粉博主,近百篇LLM文章使很多同学受益某985一线95后年轻副教授,每年LLM论文发到手软,横向、纵向项目的领头人、L...

2024-04-25 14:58:48 28

原创 LLM能否依据角色的过去预测未来?一篇有趣的研究

作者:wkk深度学习自然语言处理 原创引言你是否想过,如果有一天,当你面临人生重大抉择时,有一个AI助手能够为你提供决策甚至能帮你做出决定?复旦大学和阿里巴巴的最新研究报告显示,大型语言模型(LLMs)正逐渐展现出其在模拟人类决策过程中的潜力。但它们真的能够替代人类,在关键时刻做出重要决策吗?本文将带你深入了解最新的研究成果,探索LLMs在模拟角色驱动决策方面的能力和局限。作者单位:复旦大学,阿里...

2024-04-25 14:58:48 745

转载 无位置编码(NoPE)也有长度泛化问题?首个针对NoPE的长度外推方法

来自:FudanNLP基于Transformer的大型语言模型(LLM)展示了强大的文本理解能力,颠覆了整个NLP领域的应用范式。然而,在长度有限文本上预训练的语言模型却无法像人类一样泛化到任意长度文本,如何解决长度泛化问题成为了LLM的一项主要挑战。目前主流的长度泛化工作认为:Transformer模型中显式的位置编码(例如旋转位置编码RoPE)带来了长度泛化问题,并试图 1. 提出新型可泛化的...

2024-04-24 14:42:33 47

转载 一文看懂 LLaMA 中的旋转式位置编码(Rotary Position Embedding)

来自:GiantPandaCV旋转式位置编码(RoPE)最早是论文[1]提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。而目前很火的 LLaMA 模型也是采用该位置编码方式。接下来结合代码和论文来解读一下 RoPE。基本概念首先论文中定义一个长度为 N 的输入序列为:其中 wi 表示输入序列中第 i 个 token,而...

2024-04-24 14:42:33 59

转载 2024 || 将任何Decoder-only的大模型(LLM)转换为文本Embedding编码器

深度图学习与大模型LLM(小编):今天给大家介绍一篇题为《LLM2Vec: 大型语言模型是强大的文本编码器》的论文-也就是说把LLM转为embedding 模型。这篇论文提出了一种简单的无监督方法 LLM2Vec,可以将任何仅解码器的大型语言模型(LLM)转换为强大的文本编码器。该方法包含三个简单的步骤:1)启用双向注意力,2)掩码下一token预测,以及3)无监督对比学习。实验结果表明,LLM2...

2024-04-24 14:42:33 59

转载 100+论文与创新点!SLAM+路径规划资料合集

今天分享slam+路径规划超全资料合集。无偿分享,扫码即可下载。资料包括:103篇slam论文来自ICRA2024等顶会,分为视觉slam、语义slam、物体级slam、多机器人协作slam。35个路径规划创新思路下滑查看全部34个路径规划创新思路使用粒子的动态环境中的连续占用映射以骨架为引导用于快速覆盖复杂3D场景的无人机路径规划框架具有交互速度障碍形状奖励的强化学习分布式多机器人导航具有分...

2024-04-24 14:42:33 23

转载 张俊林:聊聊对LLAMA-3、大模型开源与闭源以及合成数据的看法

作者:张俊林,新浪微博新技术研发负责人声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://www.zhihu.com/question/653373334/answer/3471466524编辑:青稞AILLAMA-3的发布是大模型开源届的大事,蹭下热度,在这里谈下有关LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法。一.LLAMA-3的基本情况模型结构与LLAMA-2...

2024-04-22 10:03:22 59

转载 Transformer本可以深谋远虑,但就是不做

机器之心报道机器之心编辑部语言模型是否会规划未来 token?这篇论文给你答案。「别让 Yann LeCun 看见了。」Yann LeCun 表示太迟了,他已经看到了。今天要介绍的这篇 「LeCun 非要看」的论文探讨的问题是:Transformer 是深谋远虑的语言模型吗?当它在某个位置执行推理时,它会预先考虑后面的位置吗?这项研究得出的结论是:Transformer 有能力这样做,但在实践中不...

2024-04-22 10:03:22 51

转载 ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练

来源:机器之心PaperWeekly本文从一个独特的视角解释了现有多模态大模型幻觉产生的原因。随着生成模型(如 ChatGPT、扩散模型)飞速发展,一方面,生成数据质量越来越高,到了以假乱真的程度;另一方面,随着模型越来越大,也使得人类世界的真实数据即将枯竭。面对这一处境,一个近期的研究热度是,能否利用生成模型生成的假数据来辅助学习?学界对此也产生了许多争论:到底是可以左脚踩右脚(bootsra...

2024-04-22 10:03:22 58

转载 《跨语言大模型》最新综述

大模型智能|原创作者 | 小夏跨语言大模型(MLLMs)能够利用强大的大型语言模型处理和回应多种语言的查询,在多语言自然语言处理任务中取得了显著的成功。尽管取得了这些突破,但仍然缺乏一份全面的调查总结该领域现有方法和最新发展。因此,在本文中,我们进行了深入的综述,并提供了一个统一的视角,总结了多语言大型语言模型领域的最新进展和新兴趋势。本文的贡献可以总结如下:(1)首次综述:据我们所知,我们首次按...

2024-04-18 22:03:45 54

转载 最强MOE开源:Mixtral 8x22B 发布!

来自:包包的算法笔记权重地址:https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1根据上传时间发现是一周之前,在Llama3正式放出来之前抢一个热度。根据网站开放的信息,我们有如下信息:Mixtral 8x22B 是我们Mixtral 的开放模型。它为人工智能社区设定了性能和效率的新标准。这是一个稀疏的专家混合(SMoE)模型,仅使...

2024-04-18 22:03:45 89

转载 Meta无限长文本大模型来了:参数仅7B,已开源

来自:机器之心谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。长文本是大语言模型一直在努力的方向。近日,谷歌提出的 Infini-Transformer 引入有效方法,可以将基于 Transformer 的大型语...

2024-04-18 22:03:45 74

转载 前紧后松:清华读博前两年的焦虑与成长

来自:丁司图从清华毕业入职腾讯没多久,我上个月作为今年新晋打工人的代表参加VALSE学生论坛,跟同学们分享了一些故事。司徒笔记这个专栏本来是用来聊学术的,不够轻松,似乎缺一些用来当作下饭伴侣或者如厕读物的文章。所以我想写几篇文章记录自己上学过程中的一些经历和感想,作为番外篇。如果甚至于能得到一些共鸣,我将不胜荣幸。2017年2月,我从南大提前来清华开始做本科毕设。2019年2月底,我中了第一篇CV...

2024-04-18 22:03:45 53

原创 对谷歌最新提出的Infini-transformer模型进行代码复现

知乎:Lil2J(已获授权)链接:https://zhuanlan.zhihu.com/p/692848185简介这篇文章主要内容为我个人对谷歌最新提出的Infini-transformer模型的个人见解,复现代码以及训练细节。项目已开源:https://github.com/jiahe7ay/infini-mini-transformer大家如果顺手的话能否给小弟的项目点个⭐️基座模型代码使用的...

2024-04-17 16:04:44 680

转载 Adaptive-RAG:根据难度自适应检索方案

来自:CS的陋室RAG的论文可谓是百花齐放,今天讲一篇有关自适应的RAG,这篇论文认为是不同难度的问题,RAG系统应该有不同的应对策略,因此搭建了这个自适应的RAG系统来适配不同难度的问题。论文:Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity。...

2024-04-17 16:04:44 99

转载 最新大模型论文研究论文合集,包含谷歌/苹果/亚马逊/港大、阿里最新研究报告!...

清华团队推出 MiniCPM:利用可扩展的训练策略挖掘小模型潜力;苹果MM1大模型:30B参数,多模态,在预训练指标上达到SOTA;亚马逊提出大规模视频语言对齐方法VidLA;英伟达参与,高效视频扩散模型CMD发布;谷歌、Stability AI新研究:由文本引导生成纹理3D服装;港大、阿里新研究:只需一张图,轻松即时定制个性化照片;上海 AI Lab 新研究:将 LVLM 分辨率提升到 4K H...

2024-04-17 16:04:44 75

转载 多篇顶会一作却申博失败?斯坦福博士生亲述:AI领域太卷

来自:机器之心「尽管我在顶级 ML 会议上发表了多篇一作论文,为开源项目做出了贡献,也在业界产生了影响,但我仍在为进入博士课程而苦苦挣扎。我被顶尖大学拒之门外,感到迷茫和疲惫。」「我开始怀疑自己,怀疑如果没有合适的人脉或家庭背景,光有强大的研究背景是否还不够。我正在考虑放弃攻读博士学位以及从事有价值研究的梦想。」在刚刚过去的周末,关于「AI 博士申请条件卷上天」的帖子成为了 Reddit 社区讨论...

2024-04-17 16:04:44 47

转载 清华开源RepoAgent:大模型驱动的项目级代码文档生成框架

来源:TsinghuaNLP@公众号声明:本文只做分享,版权归原作者,侵权私信删除!编辑:青稞AI在软件工程领域,代码文档的质量直接关系到开发效率和软件质量。然而,文档的生成和维护往往耗费大量的时间和资源,成为项目团队的一大负担。针对这一问题,我组联合中国人民大学和西门子公司的研究人员,共同提出开源框架RepoAgent。RepoAgent 底层由大型语言模型(LLM)驱动,旨在自动化生成、自动维...

2024-04-16 17:07:13 88

转载 1个月快速迈入AI大模型黄金赛道!

听说你想快速转行人工智能?企业想要快速落地大模型应用到现有业务?身边缺少真正懂AI技术的大佬带你学习?由清华大学顶尖人工智能博士专家组成的Llama中文社区授课团队将会助你一臂之力!!不仅有靠谱的课程,更有超值的服务!我们能够帮助你????1.快速掌握大模型全面理论知识 手把手耐心指导,助想转行的同学快速上手,顺利通过转行/求职面试。此外我们提供模拟面试和职业咨询等就业服务,帮助你更好规划职业生涯。我们...

2024-04-16 17:07:13 72

转载 大模型综述出书了

来自:RUC AI Box在2023年3月,我们发表了大语言模型综述文章《A Survey of Large Language Models》。这篇综述文章已经更新到第13个版本,包含了83页的正文内容,并收录了900余篇参考文献。该综述文章旨在系统地梳理大语言模型的研究进展与核心技术,讨论了大量的相关工作。自大语言模型综述的预印本上线以来,受到了不少读者的关注。自英文综述文章上线后,陆续有读者询...

2024-04-16 17:07:13 77

转载 大模型训练加速之FlashAttention系列:爆款工作背后的产品观

知乎:方佳瑞原文:https://zhuanlan.zhihu.com/p/664061672纯学术分享,侵删FlashAttention(FA)是一系列针对Transformer模型训练和推理加速方案。自从发布以来,历经了多次迭代,并借着其节省显存、加速计算、使用简单的特性,目前已经是大模型训练必备之良药。FA的论文,一年多就有242个引用,作为一个做底层优化的论文,也是前无古人了。不过仔细研究...

2024-04-16 17:07:13 59

转载 魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

RWKV 投稿量子位 | 公众号 QbitAI不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:提出了两种新的RWKV架构,即Eagle(RWKV-5)和Finch(RWKV-6)。这两种序列模型以RWKV-4架构为基础,然后作了改进。新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynami...

2024-04-15 18:09:33 66

转载 一文全面盘点算法工程师大模型微调技能图谱

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能,并制作了大模型微调技能图谱,希望可以帮助大家将知识体系梳理清楚,为未来在大模型的工作与科研道路上节省时...

2024-04-15 18:09:33 86

转载 多模态大模型的最优预训练范式

作者:AI小飞侠,CV算法工程师/多模态声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/685586296编辑:青稞AI目前主流的多模态大模型的训练基本都是分为预训练和微调两阶段来进行的。预训练阶段是为了让大语言模型(LLM)具有理解视觉信息的能力,也可以认为是将视觉特征空间对齐到文本空间。微调阶段就是使用特定领域的数据,通过全量参数...

2024-04-15 18:09:33 40

转载 HADES: 利用视觉弱点越狱多模态大语言模型

©作者|李依凡机构|中国人民大学研究方向|多模态大语言模型来自 | RUC AI Box本文提出了一种针对多模态大语言模型的越狱方法HADES,使用精心设计的图片隐藏和放大原有有害意图,利用图像侧是多模态大模型无害性对齐弱侧这一特点对模型进行攻击。实验结果显示HADES在基于对齐LLM构建的开源模型和强大的闭源模型上都能取得明显的攻击效果。注:本文使用的示例可能包含令人不适的内容。论文题目:Im...

2024-04-15 18:09:33 52

转载 RAG系统中答案无关的片段对LLMs生成结果有何影响?

写在前面来自:NLP工作站RAG(检索增强生成)通过检索系统找到用户问题相关的信息片段,利用大模型综合生成一个答案,极大解决了大模型幻觉、信息更新不及时等问题,已经成为了大模型落地的重要手段。但在检索过程中,往往会检索到与问题极度相似、但又不包含答案或包含干扰答案的片段,这些答案无关片段对大模型生成答案有何影响呢?今天正好刷到一篇相关文章,带给大家《How Easily do Irrelevant...

2024-04-14 23:04:25 64

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除