kaiyuan_sjtu-CSDN博客

转载谈谈对 Llama3的个人看法

作者|张俊林https://www.zhihu.com/question/653373334/answer/3471466524LLAMA-3的发布是大模型开源届的大事，蹭下热度，在这里谈下有关LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法一、LLAMA-3的基本情况模型结构与LLAMA-2相比没有大的变动，主要变化一点在于Token词典从LLAMA-2的32K拓展到了128K，...

2024-04-22 11:05:59 3

转载 Llama 3来了！

后台留言『交流』，加入NewBee讨论组Llama 3 来了！就在刚刚，Meta官网上新，官宣了Llama 3 80亿和700亿参数版本。并且推出即为开源SOTA：Meta官方数据显示，Llama 3 8B和70B版本在各自参数规模上超越一众对手。8B模型在MMLU、GPQA、HumanEval等多项基准上均胜过Gemma 7B和Mistral 7B Instruct。而70B模型则超越了闭源的当...

2024-04-19 11:05:18 10

转载从RNN/CNN到大模型全解析：最新范式、进展及未来展望

“Programming is the art of telling another human being what one wants the computer to do.” — Donald Knuth后台留言『交流』，加入NewBee讨论组????论文：A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond????Gi...

2024-04-18 11:05:36 8

转载多篇顶会一作却申博失败？斯坦福博士生亲述：AI领域太卷

后台留言『交流』，加入NewBee讨论组「尽管我在顶级 ML 会议上发表了多篇一作论文，为开源项目做出了贡献，也在业界产生了影响，但我仍在为进入博士课程而苦苦挣扎。我被顶尖大学拒之门外，感到迷茫和疲惫。」「我开始怀疑自己，怀疑如果没有合适的人脉或家庭背景，光有强大的研究背景是否还不够。我正在考虑放弃攻读博士学位以及从事有价值研究的梦想。」在刚刚过去的周末，关于「AI 博士申请条件卷上天」的帖子成为...

2024-04-17 11:05:22 5

转载总结！大模型微调（Tuning）的常见方法

随着大模型的飞速发展，在短短一年间就有了大幅度的技术迭代更新，从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等，几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能，并制作了大模型微调技能图谱，希望可以帮助大家将知识体系梳理清楚，为未来在大模型的工作与科研道路上节省时...

2024-04-17 11:05:22 6

转载 Transformer 温故知新

这是之前学习paddle时候的笔记，对Transformer框架进行了拆解，附图解和代码，希望对大家有帮助写在前面最近在学习paddle相关内容，质量比较高的参考资料好像就paddle官方文档[1]。所以如果大家想学习一下的话，可以先简单过一遍文档，如果你之前有tensorflow或者torch的基础，看起来应该会比较快，都差不多的嘛。然后细节的部分就可以去实战看（写）代码了。下面是一个用pad...

2024-04-16 11:05:43 4

转载最新综述 | A Review of Graph Neural Networks in Epidemic Modeling

整理|图神经网络与推荐后台留言『交流』，加入NewBee讨论组自COVID-19疫情爆发以来，基于图神经网络（Graph Neural Networks, GNNs）的流行病学建模研究得到了广泛的关注。传统机理模型在数学上描述了传染病的传播机制，但在应对当前复杂多变的流行病学挑战时常显不足。得益于对复杂网络的捕捉能力，GNNs逐渐成为流行病学研究中的重要工具。在本文中，我们系统地描述了GNN...

2024-04-16 11:05:43 4

转载 Al Agent：大模型时代重要落地方向

后台留言『交流』，加入NewBee讨论组导读随着大语言模型的日趋成熟，各类基于大语言模型的 AI Agent 逐渐走入人们的视野。本文将梳理大语言模型 Agent 的相关知识点，并对大模型时代 AI Agent 的重要落地方向进行探讨。今天的介绍会围绕下面五点展开：1.LLM-based Agent 整体架构2.LLM-based Agent 重点&难点问题3.基于大语言模型的用户...

2024-04-15 11:05:29 10

转载中山大学：“梗王”大模型，靠讲笑话登上CVPR

作者|中山大学HCP实验室整理|量子位后台留言『交流』，加入NewBee讨论组谁能想到，只是让大模型讲笑话，论文竟入选了顶会CVPR！没开玩笑，这还真真儿的是一项正儿八经的研究。例如看下面这张图，如果让你根据它来讲个笑话或梗，你会想到什么？现在的大模型看完后会说：脑子短路。再看一眼蜘蛛侠的海报，大模型会配一句“刚擦的玻璃不能弄脏”。李云龙、奥本海默也被玩得飞起：导师读了我的论文...

2024-04-13 11:05:49 12

转载 OpenAI创始大神手搓千行C代码训练GPT，附PyTorch迁移教程

源|量子位后台留言『交流』，加入NewBee讨论组大神卡帕西（Andrej Karpathy）刚“复工”，立马带来神作：纯C语言训练GPT，1000行代码搞定！，不用现成的深度学习框架，纯手搓。发布仅几个小时，已经揽星2.3k。它可以立即编译和运行，和PyTorch完全兼容。卡帕西使用的示例是GPT-2，但Llama 2和Gemma等也适用。项目发布后，他还给出了从PyTorch迁移到C的教程...

2024-04-11 11:05:40 11

转载 BAMBOO: 全面评估大型语言模型的长文本处理能力

©作者｜董梓灿机构｜中国人民大学研究方向｜自然语言处理与长文本建模后台留言『交流』，加入NewBee讨论组BAMBOO在2023年9月份发布，目前已经被LREC-COLING 2024接受，论文和代码如下所示：论文链接：https://arxiv.org/abs/2309.13345GitHub 项目链接：https://github.com/RUCAIBox/BAMBOO简介BAMBOO是一个...

2024-04-11 11:05:40 11

转载一文解析大模型算法知识体系：LoRA、QLoRA、RLHF，PPO，DPO，Flash Attention及增量学习...

随着大模型的飞速发展，在短短一年间就有了大幅度的技术迭代更新，从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等，几乎每天都有新的发展。作为算法工程师，面对如此飞快的技术迭代，是否感觉到自己的学习步伐有点跟不上技术的发展？而且对这些新兴技术的理解仅仅停留在应用层面上，实际上对背后的原理没有具体剖析过...

2024-04-10 11:55:10 33

转载大模型对齐阶段的Scaling Laws

大家好，这里了是 NewBeeNLP。随着过去一年大模型技术的发展，数据、模型尺寸scale up后的能力已经不容置疑，scaling law也被越来越多研究者重视起来。在预训练资源消耗如此大的情况下，掌握scaling law有众多优点：提前预测最终模型效果，知道每次训练的大概能到什么程度，要是不及预期可以根据预算再进行调整在小尺寸模型上做置信的实验，进行数据、算法策略验证，降低实验的时间、资源...

2024-04-10 11:55:10 14

转载 RAG全链路的关键模块解析

原文：https://zhuanlan.zhihu.com/p/682253496整理：青稞AI后台留言『交流』，加入NewBee讨论组1. 背景介绍RAG（Retrieval Augmented Generation，检索增强生成）方法是指结合了基于检索的模型和生成模型的能力，以提高生成文本的质量和相关性。该方法是Meta在2020年发表的文章《Retrieval-Augmented Gene...

2024-04-09 11:06:11 19

转载 Shopee：面向2026年的推荐算法前瞻

后台留言『交流』，加入NewBee讨论组导读常规的推荐系统范式已经逐渐走入瓶颈，原因是在当前固定化的问题描述下模型和系统几乎已经发展到极限。当前的主要范式在模型上为召回+排序+重排，系统上为样本挖掘+特征工程+线上打分预估能力建设。一线大厂在上述领域已经把空间挖掘殆尽。同时可以看到，我们的用户对当前推荐系统的满意度仍然未达到理想状态。推荐系统是一个非常面向于用户满意度的平台系统，而用户满意是一个...

2024-04-08 11:05:34 22

转载大模型人才的薪资，有点猛。。。

随着GPT大热“AI大模型”无疑是最火爆的话题！Google、百度、腾讯等等巨头互联网公司，无不在布局人工智能技术和市场，甚至还有60k*16的高薪，挖掘AI大模型人才！作为普通程序员，如何不被时代抛弃，享受AI技术带来的红利？！????知乎知学堂特发起：行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道！速进！AI大模型-重塑程序员核心竞争力（不限年龄！不限岗位！I...

2024-04-07 11:05:35 17

转载谷歌: 利用推荐知识对齐大语言模型

TLDR: 本文针对推荐任务和自然语言任务中存在的知识鸿沟等问题，受掩码物品建模和个性化排序方法的启发，提出了一种利用自然语言模拟上述两种操作的模型以生成辅助任务数据，然后基于此对大模型进行微调，实验表明其可以将推荐特定的知识注入到大模型中。论文：https://arxiv.org/abs/2404.00245大语言模型最近被许多研究工作当做推荐系统的骨干网络。然而，在检索等标准任务中，它们的性能...

2024-04-07 11:05:35 16

转载 Mamba做大做强！混合Transformer，打败Transformer

后台留言『交流』，加入NewBee讨论组精彩精彩，第一个把爆火Mamba架构真正扩展到足够大的工作来了。520亿参数，还是Mamba+Transformer混合架构。它的名字叫Jamba。取两种架构之长，模型质量和效率兼得，要吞吐量有吞吐量，要低内存有低内存。初步跑分显示：Jamba性能总体接近Mixtral 8x-7B，处理128k长上下文时吞吐量却是其3倍。一共支持256k上下文，而单张A10...

2024-04-02 11:05:55 25

转载详解各种LLM系列｜LLaMA 2模型架构、预训练、SFT、RLHF详解

作者|Sunnyyyyy整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/670002922后台留言『交流』，加入NewBee讨论组Llama 2是Meta在LLaMA基础上升级的一系列从 7B到 70B 参数的大语言模型。Llama2 在各个榜单上精度全面超过 LLaMA1，目前被广泛使用。对于Llama 2模型架构、预训练、SFT的内容详解，...

2024-04-01 11:06:00 507

转载 PPM: 把预训练模型作为插件嵌入CTR模型中

标题: PPM : A Pre-trained Plug-in Model for Click-through Rate Prediction地址：https://arxiv.org/pdf/2403.10049.pdf公司：京东会议：WWW 20241. 导读相对于传统的ID形式的推荐系统（IDRec），本文在模型中引入预训练模型，但预训练模型的参数很多，会导致延迟增加。因此，大部分无法在推荐系...

2024-03-29 11:05:55 22

转载微软亚研院：让大模型一口气调用数百万个API！

后台留言『交流』，加入NewBee讨论组近年来，人工智能发展迅速，尤其是像ChatGPT这样的基础大模型，在对话、上下文理解和代码生成等方面表现出色，能够为多种任务提供解决方案。但在特定领域任务上，由于专业数据的缺乏和可能的计算错误，它们的表现并不理想。同时，虽然已有一些专门针对特定任务的AI模型和系统表现良好，但它们往往不易与基础大模型集成。为了解决这些重要问题，TaskMatrix.AI破茧而...

2024-03-29 11:05:55 18

转载探索无限可能！黑客马拉松第六期，50w奖金等你来挑战！

新赛制，新玩法飞桨黑客马拉松第六期全新挑战，重磅回归！开源贡献个人挑战赛、飞桨护航计划集训营、Fundable Projects、优秀稿件征集与传播四大赛道，邀你挑战！多难度梯度开源任务、导师1V1指导开发实践、解决硬核技术难题、输出飞桨技术影响力硬核较量一触即发这场Hacker盛宴，即刻加入吧！在往期黑客松中，我们见证了众多优秀开发者的成长与蜕变。第六期黑客松，有更多元的参与方式、更丰厚的活动奖...

2024-03-28 11:05:09 17

转载行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系统模型

大家好，这里是NewBeeNLP。今天分享一篇Meta最新的工作：借鉴LLMs思路重塑推荐系统范式，实现推荐系统的scaling。该工作第一次在核心产品线替换掉了近十年工业界长期使用的基于海量异构特征的深度推荐模型，在模型规模、业务效果、性能加速等方面都相当亮眼。有可能成为工业级推荐系统大规模scaling的开创性工作。链接：https://arxiv.org/abs/2402.17152Mot...

2024-03-28 11:05:09 43

原创详解各种LLM系列｜LLaMA 2模型架构、预训练、SFT内容详解 (PART1)

作者|Sunnyyyyy整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/670002922大家好，这里是 NewBeeNLP。之前我们分享了详解各种LLM系列｜LLaMA 1 模型架构、预训练、部署优化特点总结今天来看看Llama 2，是Meta在LLaMA基础上升级的一系列从 7B到 70B 参数的大语言模型。Llama2 在各个榜单上精度全面超过...

2024-03-27 11:05:45 1157

转载 OpenGraph: 通用图大模型

后台留言『交流』，加入NewBee讨论组论文：arxiv.org/abs/2403.01121代码：github.com/HKUDS/OpenGraph港大数据智能实验室主页: sites.google.com/view/chaoh研究背景图学习（Graph Learning）技术能够对复杂的关系数据进行挖掘和学习，在推荐系统、社交网络分析、引用网络和交通网络等多个领域都显示出了巨大的应用价值。图...

2024-03-26 11:05:18 16

转载张俊林：揭去神秘面纱，Sora关键技术逆向工程图解

后台留言『交流』，加入NewBee讨论组文章作者：张俊林新浪微博新技术研发负责人内容来源：知乎@张俊林导读：Sora生成的视频效果好吗？确实好。Sora算得上AGI发展历程上的里程碑吗？我个人觉得算。我们知道它效果好就行了，有必要知道Sora到底是怎么做的吗？我觉得最好是每个人能有知情的选择权，任何想知道的人都能够知道，这种状态比较好。那我们知道Sora到底是怎么做出来的吗？不知道。马斯克讽刺...

2024-03-22 11:06:03 41

转载【赠书】大语言模型训练优化秘籍

--文末赠书--在了解大语言模型训练优化秘籍之前，我们先来了解一下大语言模型训练面临的挑战，以此进行针对性的训练优化。大语言模型训练面临的挑战随着模型参数量规模的增大，资源和效率逐渐成为制约模型训练的因素。按照摩尔定律的预测，芯片的集成度每 18 ∼ 24 个月便会增加 1 倍，这意味着单位计算性能大约每两年翻1倍。模型参数量不超过10亿个时，对资源的需求未触达单机硬件的极限。随着大语言模型技...

2024-03-21 11:05:14 32

转载业界分享 | NVIDIA大语言模型落地实践

后台留言『交流』，加入NewBee讨论组大家好，这里是 NewBeeNLP。今天分享 NVIDIA 在大语言模型领域的解决方案。包括三部分内容：1.第一部分是关于 NeMo Framework。NeMo Framework 是 NVIDIA 大语言模型的全栈解决方案，它通过不同组件完成生成式 AI 各个环节的任务，包括数据预处理、分布式训练、模型微调、模型推理加速及部署（TensorRT-LL...

2024-03-21 11:05:14 42

转载 Open-Sora全面开源！

源|机器之心后台留言『交流』，加入NewBee讨论组不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红，在一众文生视频模型中突出重围，成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后，Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权...

2024-03-20 11:05:48 38

原创大模型面试百问百答

作者|Codering整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/686761933后台留言『交流』，加入NewBee讨论组大家好，这里是 NewBeeNLP。今天分享大模型面试相关知识点，持续更新。 1. RAG技术体系的总体思路数据预处理->分块（这一步骤很关键，有时候也决定了模型的效果）->文本向量化->query向量化-&g...

2024-03-18 11:05:13 953

转载 Meta最新推荐算法：统一的生成式推荐第一次打败了分层架构的深度推荐系统？...

后台留言『交流』，加入NewBee讨论组大家好，这里是 NewBeeNLP。今天看看Meta的最新推荐算法论文，“统一的生成式推荐”(GR) 第一次在核心产品线替换掉了近十年推荐工业界长期使用的分层海量特征的模型范式。地址：https://arxiv.org/pdf/2402.17152.pdf作者：萧瑟链接：https://www.zhihu.com/question/646766849/ans...

2024-03-15 11:05:54 65

转载台大李宏毅老师新课：生成式人工智能导论

后台留言『交流』，加入NewBee讨论组推荐台大李宏毅老师的新课生成式人工智能导论2024课程主页https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php第0讲课程内容说明视频课程slideshttps://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring-course-data/0223/0223...

2024-03-14 11:05:19 34

转载 LLM + GNN = ？

编辑|LRS 源|新智元后台留言『交流』，加入NewBee讨论组GraphEdit方法可以有效地去除图网络中的噪声连接，还能从全局视角识别节点间的依赖关系，在不同的实验设置中都被验证为有效且稳健。图结构学习（Graph Structure Learning, GSL）旨在通过生成新的图结构来捕捉图结构数据中节点之间的内在依赖性和交互关系。图神经网络（Graph Neural Networks, ...

2024-03-13 11:05:53 29

原创当LLM面对囚徒困境，阁下又该如何应对？

作者|Conqueror712整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/682698121后台留言『交流』，加入 NewBee讨论组大家好，这里是 NewBeeNLP。今天分享 LLM 在博弈论框架下的战略决策能力。论文：Strategic Behavior of Large Language Models: Game Structure vs...

2024-03-11 11:05:55 852

转载 WWW'24 | 工业界大模型在搜广推应用梳理

大家好，这里是 NewBeeNLP。今天分享WWW 2024上的6篇与大模型相关的工业界搜广推工作。本次主要对文章做简要介绍和梳理，后续再详细分享。后台留言『交流』，加入NewBee讨论组阿里：淘宝搜索大模型应用于长尾搜索词改写 Large Language Model based Long-tail Query Rewriting in Taobao SearchWenjun Peng, Gui...

2024-03-10 11:04:46 69

转载五年之内，博士会像今天的硕士一样井喷吗？

后台留言『交流』，加入NewBee讨论组近几年内，考研狂潮出现，大家对进一步提升学历的热情更加高涨......那么，五年之内，博士也会像硕士这样吗？引用几位知乎网友的高见，以及他们所经历或看到的故事，来和大家聊聊这个话题。源|百度学术作者：Luyao Zou一个流传很广的误解，就是博士的生活就是不断读书，读更难的书，学更难的知识，是个大号的本科。这是完全错误的。这种误解，就好像高中生幻想本科是...

2024-03-10 11:04:46 79

转载离职创业一年，我才发现训练大模型有这么多坑

源|机器之心后台留言『交流』，加入NewBee讨论组Karpathy：中肯的，一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提，掌握核心算法是关键，但实际上，工程实践中冒出来的挑战...

2024-03-08 11:06:02 17

转载美团优选 | 智能推荐算法工程师

美团优选 - 智能推荐算法工程师大家好，定期分享求职信息~今天分享一个美团算法岗，感兴趣的同学简历请发送到[email protected]，有任何问题欢迎邮箱咨询。研究领域机器学习、强化学习、自然语言处理、Meta Learning、数学建模、因果推断、数据挖掘、推荐系统、知识图谱、运筹优化岗位职责综合运用机器学习、NLP、图学习、Meta Learning、知识蒸馏、多模态建模和因果推断等相关...

2024-03-07 11:05:27 18

转载万字长文 | Sora技术解析报告

后台留言『交流』，加入NewBee讨论组论文标题：Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models论文链接：https://arxiv.org/pdf/2402.17177.pdf背景在分析 Sora 之前，研究者首先盘点了视觉内容生成技术的沿袭。在深度学习...

2024-03-07 11:05:27 112

转载 ICLR2024｜生成式视角下的实体对齐

论文题目：Revisit and Outstrip Entity Alignment: A Perspective of Generative Models本文作者：郭凌冰（浙江大学）、陈卓（浙江大学）、陈矫彦（曼彻斯特大学）、方尹（浙江大学）、张文（浙江大学）、陈华钧（浙江大学）发表会议：ICLR 2024论文链接：https://arxiv.org/abs/2305.14651代码链接：htt...

2024-03-06 11:05:24 88

ACL2020论文大全

空空如也