- 博客(990)
- 资源 (1)
- 收藏
- 关注
原创 详解各种LLM系列|LLaMA 2模型架构、 预训练、SFT内容详解 (PART1)
作者|Sunnyyyyy整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/670002922大家好,这里是 NewBeeNLP。之前我们分享了详解各种LLM系列|LLaMA 1 模型架构、预训练、部署优化特点总结今天来看看Llama 2,是Meta在LLaMA基础上升级的一系列从 7B到 70B 参数的大语言模型。Llama2 在各个榜单上精度全面超过...
2024-03-27 11:05:45 325
转载 OpenGraph: 通用图大模型
后台留言『交流』,加入NewBee讨论组论文:arxiv.org/abs/2403.01121代码:github.com/HKUDS/OpenGraph港大数据智能实验室主页: sites.google.com/view/chaoh研究背景图学习(Graph Learning)技术能够对复杂的关系数据进行挖掘和学习,在推荐系统、社交网络分析、引用网络和交通网络等多个领域都显示出了巨大的应用价值。图...
2024-03-26 11:05:18 3
转载 张俊林:揭去神秘面纱,Sora关键技术逆向工程图解
后台留言『交流』,加入NewBee讨论组文章作者:张俊林新浪微博新技术研发负责人内容来源:知乎@张俊林导读:Sora生成的视频效果好吗?确实好。Sora算得上AGI发展历程上的里程碑吗?我个人觉得算。我们知道它效果好就行了,有必要知道Sora到底是怎么做的吗?我觉得最好是每个人能有知情的选择权,任何想知道的人都能够知道,这种状态比较好。那我们知道Sora到底是怎么做出来的吗?不知道。马斯克讽刺...
2024-03-22 11:06:03 13
转载 【赠书】大语言模型训练优化秘籍
--文末赠书--在了解大语言模型训练优化秘籍之前,我们先来了解一下大语言模型训练面临的挑战,以此进行针对性的训练优化。大语言模型训练面临的挑战随着模型参数量规模的增大,资源和效率逐渐成为制约模型训练的因素。按照摩尔定律的预测,芯片的集成度每 18 ∼ 24 个月便会增加 1 倍,这意味着单位计算性能大约每两年翻1倍。模型参数量不超过10亿个时,对资源的需求未触达单机硬件的极限。随着大语言模型技...
2024-03-21 11:05:14 5
转载 业界分享 | NVIDIA大语言模型落地实践
后台留言『交流』,加入NewBee讨论组大家好,这里是 NewBeeNLP。今天分享 NVIDIA 在大语言模型领域的解决方案。包括三部分内容:1.第一部分是关于 NeMo Framework。NeMo Framework 是 NVIDIA 大语言模型的全栈解决方案,它通过不同组件完成生成式 AI 各个环节的任务,包括数据预处理、分布式训练、模型微调、模型推理加速及部署(TensorRT-LL...
2024-03-21 11:05:14 10
转载 Open-Sora全面开源!
源|机器之心后台留言『交流』,加入NewBee讨论组不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权...
2024-03-20 11:05:48 17
原创 大模型面试百问百答
作者|Codering整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/686761933后台留言『交流』,加入NewBee讨论组大家好,这里是 NewBeeNLP。今天分享大模型面试相关知识点,持续更新。 1. RAG技术体系的总体思路数据预处理->分块(这一步骤很关键,有时候也决定了模型的效果)->文本向量化->query向量化-&g...
2024-03-18 11:05:13 912
转载 Meta最新推荐算法:统一的生成式推荐第一次打败了分层架构的深度推荐系统?...
后台留言『交流』,加入NewBee讨论组大家好,这里是 NewBeeNLP。今天看看Meta的最新推荐算法论文,“统一的生成式推荐”(GR) 第一次在核心产品线替换掉了近十年推荐工业界长期使用的分层海量特征的模型范式。地址:https://arxiv.org/pdf/2402.17152.pdf作者:萧瑟链接:https://www.zhihu.com/question/646766849/ans...
2024-03-15 11:05:54 35
转载 台大李宏毅老师新课:生成式人工智能导论
后台留言『交流』,加入NewBee讨论组推荐台大李宏毅老师的新课生成式人工智能导论2024课程主页https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php第0讲课程内容说明视频课程slideshttps://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring-course-data/0223/0223...
2024-03-14 11:05:19 17
转载 LLM + GNN = ?
编辑|LRS 源|新智元后台留言『交流』,加入NewBee讨论组GraphEdit方法可以有效地去除图网络中的噪声连接,还能从全局视角识别节点间的依赖关系,在不同的实验设置中都被验证为有效且稳健。图结构学习(Graph Structure Learning, GSL)旨在通过生成新的图结构来捕捉图结构数据中节点之间的内在依赖性和交互关系。图神经网络(Graph Neural Networks, ...
2024-03-13 11:05:53 12
原创 当LLM面对囚徒困境,阁下又该如何应对?
作者|Conqueror712整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/682698121后台留言『交流』,加入 NewBee讨论组大家好,这里是 NewBeeNLP。今天分享 LLM 在博弈论框架下的 战略决策能力 。论文:Strategic Behavior of Large Language Models: Game Structure vs...
2024-03-11 11:05:55 842
转载 WWW'24 | 工业界大模型在搜广推应用梳理
大家好,这里是 NewBeeNLP。今天分享WWW 2024上的6篇与大模型相关的工业界搜广推工作。本次主要对文章做简要介绍和梳理,后续再详细分享。后台留言『交流』,加入NewBee讨论组阿里:淘宝搜索大模型应用于长尾搜索词改写 Large Language Model based Long-tail Query Rewriting in Taobao SearchWenjun Peng, Gui...
2024-03-10 11:04:46 26
转载 五年之内,博士会像今天的硕士一样井喷吗?
后台留言『交流』,加入NewBee讨论组近几年内,考研狂潮出现,大家对进一步提升学历的热情更加高涨......那么,五年之内,博士也会像硕士这样吗?引用几位知乎网友的高见,以及他们所经历或看到的故事,来和大家聊聊这个话题。源|百度学术作者:Luyao Zou一个流传很广的误解,就是博士的生活就是不断读书,读更难的书,学更难的知识,是个大号的本科。这是完全错误的。这种误解,就好像高中生幻想本科是...
2024-03-10 11:04:46 48
转载 离职创业一年,我才发现训练大模型有这么多坑
源|机器之心后台留言『交流』,加入NewBee讨论组Karpathy:中肯的,一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片,并搭建出追赶 Gemini pro/GPT 3.5 的 LLM?很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇,但真正走完「从零开始」这一流程的人很少。我们普遍认为,储备技术人才是前提,掌握核心算法是关键,但实际上,工程实践中冒出来的挑战...
2024-03-08 11:06:02 8
转载 美团优选 | 智能推荐算法工程师
美团优选 - 智能推荐算法工程师大家好,定期分享求职信息~今天分享一个美团算法岗,感兴趣的同学 简历请发送到ren90327@163.com,有任何问题欢迎邮箱咨询。研究领域机器学习、强化学习、自然语言处理、Meta Learning、数学建模、因果推断、数据挖掘、推荐系统、知识图谱、运筹优化岗位职责综合运用机器学习、NLP、图学习、Meta Learning、知识蒸馏、多模态建模和因果推断等相关...
2024-03-07 11:05:27 8
转载 万字长文 | Sora技术解析报告
后台留言『交流』,加入NewBee讨论组论文标题:Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models论文链接:https://arxiv.org/pdf/2402.17177.pdf背景在分析 Sora 之前,研究者首先盘点了视觉内容生成技术的沿袭。在深度学习...
2024-03-07 11:05:27 96
转载 ICLR2024|生成式视角下的实体对齐
论文题目:Revisit and Outstrip Entity Alignment: A Perspective of Generative Models本文作者:郭凌冰(浙江大学)、陈卓(浙江大学)、陈矫彦(曼彻斯特大学)、方尹(浙江大学)、张文(浙江大学)、陈华钧(浙江大学)发表会议:ICLR 2024论文链接:https://arxiv.org/abs/2305.14651代码链接:htt...
2024-03-06 11:05:24 41
转载 FlashAttention加速升级!又快了200%!
斯坦福大学此前提出的FlashAttention算法,突破了Transformer增加序列长度时的注意力层瓶颈,实现了显著的内存节省和计算加速。而发布不久的FlashAttention v2,更是比v1快了200%,进一步优化了算法、并行性和工作分区,适用于更多AI大模型,为上下文长度扩展保驾护航!为了让大家快速掌握最新成果,研梦非凡特请来了该领域科研大牛,定制了直播课《AI前沿论文解析系列—...
2024-03-06 11:05:24 8
转载 当"狂飙"的大模型撞上推荐系统
后台留言『交流』,加入NewBee讨论组导读随着以 ChatGPT 为代表的大模型技术的迅速发展,推荐系统正经历着一场革命性的变革。传统的推荐系统主要基于用户和物品的历史行为数据进行预测,大模型技术的出现,为推荐系统带来了更强的泛化能力和更高的效率,解决了传统推荐系统中的一些难题,如用户和物品数量的巨大规模、不可观测因素对推荐的影响等。同时,大模型推荐技术也带来了新的挑战,如模型的可解释性和隐私...
2024-03-05 11:05:26 11
转载 Mamba精神!只能说ICLR输麻了其实更新频率还可以再快一点点的
Github链接:https://github.com/yyyujintang/Awesome-Mamba-Papers/blob/main/README.mdMamba是一种基于选择性状态空间的线性时间序列建模方法,可以有效地处理长序列数据。这个仓库包含了Mamba及其变体在不同领域的应用,如图像分割、文本摘要、点云分析等。这个仓库还提供了一些其他有用的资源,如Mamba的论文列表和状态空间模型...
2024-03-04 11:05:33 146
转载 2024 最新综述 | 当知识图谱遇上多模态学习
后台留言『交流』,加入NewBee讨论组论文题目:Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey论文链接:http://arxiv.org/abs/2402.05391项目地址:https://github.com/zjukg/KG-MM-Survey备注:54 pages, 617 citations, ...
2024-03-01 11:05:51 54
转载 检索增强的大型语言模型:EMNLP 2023 检索相关论文导览
©作者|王禹淏机构|中国人民大学研究方向|自然语言处理、大语言模型引言随着自然语言处理领域的迅速发展,检索增强的大型语言模型(LLMs)成为了研究的前沿话题。EMNLP 2023收录的多篇论文集中探讨了如何通过各种创新方法,提升这些模型在稠密检索、问答系统和其他知识密集型任务中的性能。这些研究不仅涵盖了查询重写、稠密检索优化、检索增强的预训练方法,还包括了零样本泛化能力的提升、长文本生成的改进以...
2024-02-29 14:05:55 52
转载 自动驾驶算法工程师基本技术要求
今天将重点介绍关于BEV感知算法的经典研究成果——BEVFormer。研梦非凡请来了国内一线车企研究院资深算法工程师Frank导师,在3月7日晚20点与大家深入探讨自动驾驶中的视觉感知算法,系统地讲解这些算法的原理、应用和未来发展,并介绍单目相机感知算法和BEV(Bird's Eye View,鸟瞰视角)感知算法的发展历程和核心思想。扫描二维码预约直播课再领课程ppt和30多个自动驾驶开源代码数据...
2024-02-29 14:05:55 17
原创 LLM 的幻觉到底是什么,有什么办法解决?
作者|Conqueror712整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/682697588大家好,这里是NewBeeNLP。今天分享关于大模型的幻觉现象。省流版:幻觉是指模型生成的信息可能或不准确,目前的办法只能缓解不能根除。一、幻觉简介LLM 时常会出现一些神奇的现象—— 幻觉 Hallucination ,在 AI 领域,幻觉是指模...
2024-02-28 11:05:37 714
转载 他山之石:京东电商知识图谱与AIGC落地实践
后台留言『交流』,加入NewBee讨论组导读本文将分享如何将知识图谱应用到电商场景下的 AIGC。文章将围绕下面五个方面进行分享:1.导言2.基于领域知识图谱的商品文案生成3.基于通用知识图谱的商品文案生成4.基于领域知识图谱的 LLM5.基于通用知识图谱的 LLM分享嘉宾|李浩然博士京东科技言犀大模型算法负责人出品社区|DataFun01导言首先介绍一下京东在电商场景下 AIGC...
2024-02-27 11:05:48 23
原创 秋招面了十多家,算法岗复盘
作者|去网吧偷显卡整理|NewBeeNLP面试锦囊之面经分享系列,持续更新中欢迎后台回复『面试』加入讨论组交流噢飞猪-搜索算法飞猪-base杭州-搜索算法哈希寻址算法讲一下最短路算法如何判断图中是否有环概率题:99%的概率预测正确,0.3%是真阳,p(真阳|阳)的概率等于多少场景题1:给定当前query和历史query以及对应实体,如何对当前query的实体进行建模场景题2:多语言如何判...
2024-02-25 11:05:30 2144
转载 卷起来了!阿里大模型员工也自曝996作息表
思维链作者、从谷歌跳槽OpenAI的Jason Wei前脚刚自曝996作息表,国内的“卷王”们就按耐不住了。阿里通义千问团队NLP研究员Binyuan Hui晒出了自己的一天:[9:00am]醒来,可能会在床上多躺15分钟。[9:30am] 打车上班,浏览X了解世界上正在发生的事情,查看@_jasonwei的最新帖子。[10:00am] 工作开始,检查邮件,浏览arxiv,打开wandb查看昨天...
2024-02-23 11:05:48 13
原创 要读博,6个月发cvpr 2024经验分享
建议发论文的同学不要卡着deadline来,一定要给自己的科研论文留出足够的创作时间。科研论文写作时间安排国际顶级会议科研论文如果你要发国际会议建议预留4-6个月写论文的时间:以CVPR2024为例,摘要截止时间是2023年11月18日,那就要在2023年10月18号之前做出来可以投的论文初稿了(中间这一个月是调整论文的表达,文字,描述,图表,根据会议的要求调整论文格式等)。那么8月16号就要开始...
2024-02-23 11:05:48 961
转载 大模型微调经验和认知
原文:https://zhuanlan.zhihu.com/p/676723672以下内容均为个人经验(臆测),不具有指导意义--快乐子涵酱。关于continue1.pre-train大模型的知识来自于pt阶段,如果你想引入一些新的知识,那CPT是一个不错的选择。2.但你首先要确保你有足够大量的数据集,至少有几B的token;3.否则几十条数据的情况我更推荐模型编辑更建议全量微调。4.不确定lo...
2024-02-22 11:05:23 70
转载 CS领域杨笛一、杜少雷、金驰等7位华人学者获奖,2024斯隆奖出炉
在 2024 年度斯隆奖名单中,计算机科学领域共有 22 位获奖者,其中 7 位华人。今天凌晨,斯隆基金会公布了 2024 年度斯隆研究奖获得者名单。自 1955 年起,斯隆研究奖由美国艾尔弗・斯隆基金会(The Alfred P. Sloan Foundation)每年颁发一次,以表彰那些具有创造性、创新性和研究成就的美国和加拿大的杰出年轻研究人员。斯隆研究奖的获奖者将获得为期两年、价值 7.5...
2024-02-22 11:05:23 19
原创 发NLP方向顶会这24个研究方向可以卷
本次粉丝福利的meeting是我们【1V1论文指导定制服务正式课程】的一部分,meeting本来的作用是用来在1V1论文指导正式课程付费之后做的。*研梦拥有一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。是每一行代码,每一个数据,每一个参数的修改,写作的表达,导师的背书和经验这些加起来才能决定你的胜利!我们粉丝大多是nlp和推荐系统方向的大学生,研究生,博士生。
2024-02-20 22:31:43 826
原创 发NLP方向顶会这24个研究方向可以卷
本次粉丝福利的meeting是我们【1V1论文指导定制服务正式课程】的一部分,meeting本来的作用是用来在1V1论文指导正式课程付费之后做的。*研梦拥有一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。是每一行代码,每一个数据,每一个参数的修改,写作的表达,导师的背书和经验这些加起来才能决定你的胜利!我们粉丝大多是nlp和推荐系统方向的大学生,研究生,博士生。
2024-02-20 22:28:58 865
转载 进我的收藏夹吃灰吧:大模型加速超全指南来了
后台留言『交流』,加入 NewBee讨论组2023 年,大型语言模型(LLM)以其强大的生成、理解、推理等能力而持续受到高度关注。然而,训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。最近,一位名为 Theia Vogel 的博主整理撰写了一篇长文博客,对加速 LLM 推理的方法进行了全面的总结,对各种方法展开了详细的介绍,...
2024-02-20 11:05:44 18
原创 记录活在 OpenAI 阴影里的 AI 创业经历
作者|像素炼金师整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/682525947后台留言『交流』,加入 NewBee讨论组作为一个生性散漫,不怎么和外界交互的野生 AI 算法工程师,这两天看到 OpenAI 的 Sora 之后,也不免想要写两句。因为我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样...
2024-02-19 11:05:28 931
转载 周鸿祎:Sora意味着AGI 实现将从10年缩短到1年
后台留言『交流』,加入 NewBee讨论组大家好,这里是 NewBeeNLP。Sora 一定刷爆了大家的社交媒体,分享360董事长周鸿祎对 Sora 的观点,以下是原文。年前我在风马牛演讲上分享了大模型十大趋势预测,没想到年还没过完,就验证了好几个,从Gemini、英伟达的Chat With RTX到OpenAl发布Sora,大家都觉得很炸裂。朋友问我怎么看 Sora,我谈几个观点,总体来说就是我...
2024-02-17 16:05:27 20
转载 聊一聊大模型幻觉:起因、评估及缓解策略探索
后台留言『交流』,加入 NewBee讨论组导读针对大模型落地应用的问题,当前行业内普遍的做法是利用大模型进行问答,但在实际应用中,这种方法往往效果不佳,很多问题的答案并不具有实际参考价值。作为算法人员,我们需要深入了解问题的来源,对于大模型产生的幻觉问题,我们需要明确其定义,是主观的还是客观的,并探讨如何给出一个可执行的解决方案。在业务应用中,除了提供答案,我们还需给出一个概率值来评估答案的可靠...
2024-02-15 11:05:15 45
转载 ICLR 2024:长文本的大模型微调--LongLoRA
后台留言『交流』,加入 NewBee讨论组https://github.com/dvlab-research/LongLoRA/tree/main1. 基本信息和摘要论文题目:LongLoRA: Efficient Fine-Tuning of Long-Context Large Language Models作者:ICLR author摘要:本文提出了一种高效的微调方法,可以扩展预训练的大型语...
2024-02-14 11:05:26 71
转载 双塔模型及其优化方法总结
作者:星翰链接:https://zhuanlan.zhihu.com/p/576286147后台留言『交流』,加入 NewBee讨论组双塔模型结构凭借其出色的预测效率广泛应用于推荐系统、文本匹配等领域的召回阶段。经典工作如微软的DSSM[1],谷歌的YoutubeDNN[2],Airbnb的个性化用户embedding[3]等方法均在许多工业场景落地,并取得了显著的效果提升。随着双塔模型自身优化逐...
2024-02-12 11:05:50 59
转载 田渊栋:2023 狂飙的大模型
作者|田渊栋,MetaFAIR研究院研究员整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/675287417后台留言『交流』,加入 NewBee讨论组今年是狂飙突进的一年,无论在技术上,还是在技术之外的领域上。今年都没有空写分享文章,光看文章追热点就看不过来了,希望明年能够好些(当然也可能竞争变得更加激烈)。今年研究的主要重心转移到了大语言模型(LLM...
2024-02-11 11:30:52 20
转载 LLM推理加速新范式!推测解码(Speculative Decoding)最新综述
作者:hemingkx合作单位:香港理工大学、北京大学、微软亚洲研究院、阿里巴巴原文链接:https://zhuanlan.zhihu.com/p/678404136好久不见!在这里跟大家分享我们最近关于推测解码(Speculative Decoding)的一篇综述:Unlocking Efficiency in Large Language Model Inference: A Comprehe...
2024-02-08 11:05:09 73
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人