数据派THU-CSDN博客

转载归一化技术比较研究：Batch Norm, Layer Norm, Group Norm

来源：Deephub Imba本文约2000字，建议阅读5分钟本文将使用合成数据集对三种归一化技术进行比较，并在每种配置下分别训练模型。记录训练损失，并比较模型的性能。归一化层是深度神经网络体系结构中的关键，在训练过程中确保各层的输入分布一致，这对于高效和稳定的学习至关重要。归一化技术的选择（Batch, Layer, GroupNormalization）会显著影响训练动态和最终的模型性能。...

2024-04-17 17:36:53 3

转载【斯坦福博士论文】在语言模型融合多模态知识

来源：专知本文为论文介绍，建议阅读5分钟文本提供广泛且富有语境的知识，知识图谱通常提供结构化的领域知识，而图像则促进各种视觉应用。语言模型，如GPT-4，具有生成对用户查询的文本响应的能力。它们被用于各种任务，包括问答、翻译、摘要和个人助理等。然而，为了创建更多功能的人工智能助手，这些模型需要处理更多样化和复杂的任务，涉及领域或视觉知识，如回答医疗问题以及解释或生成图像。这种需求促使了开发能够访...

2024-04-17 17:36:53 4

转载直播预告 | 多模态大模型的时代真的来了吗？

2024-04-17 17:36:53 4

转载人社部等九部门发布《加快数字人才培育支撑数字经济发展行动方案(2024-2026年)》...

4月17日，人力资源社会保障部、中共中央组织部、中央网信办、国家发展改革委等九部门印发《加快数字人才培育支撑数字经济发展行动方案（2024—2026年）》，要求紧贴数字产业化和产业数字化发展需要，用3年左右时间，扎实开展多项专项行动，提升数字人才自主创新能力，激发数字人才创新创业活力，增加数字人才有效供给，形成数字人才集聚效应，着力打造一支规模壮大、素质优良、结构优化、分布合理的高水平数字人才队伍...

2024-04-17 17:36:53 7

转载 5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

来源：DeepHub IMBA本文约6500字，建议阅读10+分钟本文将介绍大语言模型中使用的不同令牌遮蔽技术，并比较它们的优点，以及使用Pytorch实现以了解它们的底层工作原理。令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用，并被用于许多变体(RoBERTa, ALBERT, DeBERTa…)。而Text Corruptio...

2024-04-16 17:01:42 5

转载 Scaling Laws又失灵了？谷歌新研究：扩散模型不是越大越好

本文约2000字，建议阅读5分钟谷歌研究院和约翰霍普金斯大学在最新的论文中指出：对于潜在扩散模型，模型不一定是越大越好。近年来，模型规模呈现出愈来愈大的趋势，越来越多的人相信“力大砖飞”。OpenAI 虽然没有公布Sora的训练细节，但在Sora的技术报告中提到了：Our largest model, Sora, is capable of generating a minute of high ...

2024-04-16 17:01:42 10

转载融合RL与LLM思想，探寻世界模型迈向AGI/ASI的第一性原理反思和探索：RL×LLM×WM>AI4S>AGI>ASI「上篇」...

本文约16000字，建议阅读20+分钟针对围绕LLM的洞察思考上，我们尝试通过在几个方面进行对LLM内涵的深入阐释。本篇文章与2023年底尝试挖掘并探寻以chatGPT为代表的LLM和以AlphaGO/AlphaZero及当下AlphaDev为代表的RL思想的背后底层理论及形式上的统一，同时与最近OpenAI暴露出的project Q*可能的关于细粒度过程学习再到系统①(快)思考与系统②(慢)思考...

2024-04-16 17:01:42 12

转载港中文提出CLongEval中文基准测试集，准确评估大模型长上下文能力

本文约2000字，建议阅读5分钟本文提出了一个基准测试集，以准确评估 LLM 在中文领域的长文本上下文处理能力。论文题目：ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models论文地址：https://arxiv.org/abs/2403.03514代码地址：https://github.co...

2024-04-15 17:05:03 14

转载【博士论文】可解释、可信赖和可靠的人工智能

来源：专知本文为论文介绍，建议阅读5分钟本论文通过探索深度学习的可解释性和自解释模型，为这一研究领域做出了贡献。人工智能领域最近见证了显著的增长，导致开发了在各种领域表现出色的复杂深度学习模型。然而，这些发展带来了关键问题。深度学习模型容易继承并可能加剧其训练数据中存在的偏见。此外，这些模型的复杂性导致缺乏透明度，这可能导致偏见未被发现。这最终可能阻碍这些模型的采用，因为缺乏信任。因此，培养本质...

2024-04-15 17:05:03 17

转载 CVPR 2024 | 多模态大模型幻觉原因找到了！

本文约2000字，建议阅读5分钟本文从一个独特的视角解释了现有多模态大模型幻觉产生的原因。论文题目：OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation论文地址：https://arxiv.org/abs/23...

2024-04-15 17:05:03 20

转载比手动快13倍多，「机器人+AI」发现电池最佳电解质，加速材料研究

来源：ScienceAI本文约2000字，建议阅读5分钟美国西北太平洋国家实验室和阿贡国家实验室的研究团队，设计了一个高度自动化的工作流程，将高通量实验平台与最先进的主动学习算法相结合，可有效筛选对阳极电解质具有最佳溶解度的二元有机溶剂。传统的材料研发模式主要依赖「试错」的实验方法或偶然性的发现，其研发过程一般长达 10-20 年。虽然基于机器学习 (ML) 的数据驱动方法可以加速清洁能源技术新...

2024-04-14 17:01:02 11

转载【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

来源：专知本文为论文介绍，建议阅读5分钟我们提出一种在线处理视频的方法，而不是像大多数现有工作那样尝试同时处理更多帧，并在内存库中存储过去的视频信息。随着大型语言模型（LLMs）的成功，将视觉模型整合到LLMs中以构建视觉-语言基础模型近来引起了更多的关注。然而，现有的基于LLM的大型多模态模型（例如，Video-LLaMA，VideoChat）只能处理有限数量的帧来理解短视频。在这项研究中，我...

2024-04-14 17:01:02 15

转载 15 个目标检测开源数据集汇总

来源：AI有道本文约2700字，建议阅读8分钟本文收集和整理了15个目标检测相关的开源数据集，希望能给大家的学习带来帮助。目标检测应当在这几年当中研究数量以及应用范围最广的一个领域，也持续的受到很多深度学习者们的关注。1.火焰和烟雾图像数据集数据集链接：http://m6z.cn/6fzn0f该数据集由早期火灾和烟雾的图像数据集组成。数据集由在真实场景中使用手机拍摄的早期火灾和烟雾图像组成。大...

2024-04-14 17:01:02 22

转载【机器学习】14种异常检测方法总结！

来源：机器学习初学者本文约7700字，建议阅读15分钟本文收集整理了公开网络上一些常见的异常检测方法（附资料来源和代码）。本文收集整理了公开网络上一些常见的异常检测方法（附资料来源和代码）。不足之处，还望批评指正。一、基于分布的方法1. 3sigma基于正态分布，3sigma准则认为超过3sigma的数据为异常点。图1: 3sigmadef three_sigma(s): mu, std...

2024-04-14 17:01:02 31

转载面向2026年的推荐算法前瞻

本文约5800字，建议阅读10分钟希望在未来 3 年能找到好的解法。[ 导读 ] 常规的推荐系统范式已经逐渐走入瓶颈，原因是在当前固定化的问题描述下模型和系统几乎已经发展到极限。当前的主要范式在模型上为召回+排序+重排，系统上为样本挖掘+特征工程+线上打分预估能力建设。一线大厂在上述领域已经把空间挖掘殆尽。同时可以看到，我们的用户对当前推荐系统的满意度仍然未达到理想状态。推荐系统是一个非常面向于用...

2024-04-13 17:01:32 17

转载 Nat. Mach. Intell.|设计超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

来源：ScienceAI本文约3500字，建议阅读5分钟这篇论文意味着大语言模型可以用于预测和设计mRNA疫苗，其中新设计的序列经过实验证实远高于传统疫苗的转录效率。AI和语言模型正在颠覆生物学和制药研究中的传统方法。普林斯顿王梦迪团队迎来了一项具有划时代意义的突破，该团队开发了世界首个解码mRNA非翻译区域序列的大模型，用于准确预测从mRNA到蛋白质的转录功能，及设计新序列用于mRNA疫苗。该...

2024-04-13 17:01:32 22

转载大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?...

来源：DeepHub IMBA本文约3000字，建议阅读9分钟本文将深入探讨旋转位置编码，以及它们如何巧妙地融合绝对位置嵌入和相对位置嵌入的优点。自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE) 的引入，2022年标志着该领域...

2024-04-13 17:01:32 58

转载【CVPR2024】视觉-语言模型的高效测试时间调整

来源：专知本文为论文介绍，建议阅读5分钟我们设计了TDA，一个无需训练的动态适配器，使视觉-语言模型能够有效且高效地进行测试时间的适应性调整。在测试时使用预训练的视觉-语言模型进行适应性调整已经吸引了越来越多的关注，以解决测试时的分布偏移问题。尽管之前的研究已经取得了非常有希望的表现，但它们涉及到的计算量非常大，这与测试时间的适应性调整严重不符。我们设计了TDA，一个无需训练的动态适配器，使视觉...

2024-04-12 17:05:09 13

转载基于 7 大城市实景数据，清华大学团队开源 GPD 模型

本文约2700字，建议阅读9分钟清华大学电子工程系城市科学与计算研究中心提出 GPD 模型，利用扩散模型生成神经网络参数，将时空少样本学习转变为扩散模型的预训练问题。城市，是人们安居乐业的故土，是政府开展经济建设的基石，承载着细腻的人文情怀与宏伟的国家发展脉络。长期以来，管理者一直在探寻更加高效、科学的城市治理方法，解决不同地区资源供给不平衡、交通拥挤、人口流失等问题。在物联网、AI、大数据等技术...

2024-04-12 17:05:09 17

转载扩散模型+知识图谱的前沿综述

本文约7500字，建议阅读16分钟本文介绍了名为DiffKG的新的知识图谱扩散模型，结合了生成扩散模型与数据增强范式，实现了鲁棒的知识图谱表示学习。知识图谱（图网络）在推荐系统中的重要性不言而喻，但并非所有关系都与目标推荐任务相关。为解决这一问题，本文介绍了名为DiffKG的新的知识图谱扩散模型，结合了生成扩散模型与数据增强范式，实现了鲁棒的知识图谱表示学习。1 介绍推荐系统是现代网络领域的重要...

2024-04-12 17:05:09 23

转载血常规、尿检等指标就能识别卵巢癌！中山大学刘继红团队牵头，四大医学院联合构建 AI 融合模型...

本文约3000字，建议阅读5分钟中山大学肿瘤防治中心妇科刘继红教授团队，联合南方医科大学、华中科技大学同济医学院附属同济医院、浙江大学医学院附属妇产科医院，基于常规体检中的实验室检验，构建了卵巢癌诊断人工智能融合模型 MCF。根据国家卫生健康委员会发布的《卵巢癌诊疗指南（2022 版）》，我国卵巢癌年发病率居女性生殖系统肿瘤第 3 位，仅次于子宫颈癌和子宫体恶性肿瘤，病死率位于女性生殖道恶性肿瘤之...

2024-04-11 17:01:33 18

转载图神经网络(GNN)原理与应用

本文约3200字，建议阅读6分钟图神经网络（GNN）是一种深度学习的方法，特别擅长处理图结构的数据。图神经网络（GNN）是一种深度学习的方法，特别擅长处理图结构的数据。通过一些特别的节点和边的策略，GNN能把图数据变成神经网络能训练的标准格式。在节点分类、边信息传播和图聚类这些任务中，GNN表现得都特别好。相比于其他的图学习算法，GNN有着特别出色的学习能力，它擅长找到图数据中节点和边背后隐藏的...

2024-04-11 17:01:33 19

转载为什么大型语言模型都在使用 SwiGLU 作为激活函数？

来源：DeepHub IMBA本文约1100字，建议阅读5分钟本篇文章对SwiGLU进行详细的介绍。如果你一直在关注大型语言模型的架构，你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数，它结合了SWISH和GLU两者的特点。我们一个一个来介绍：Swi...

2024-04-11 17:01:33 31

转载【CVPR2024】VidLA: 大规模视频-语言对齐

来源：专知本文为论文介绍，建议阅读5分钟在这篇论文中，我们提出了VidLA，一种大规模视频语言对齐的方法。在这篇论文中，我们提出了VidLA，一种大规模视频语言对齐的方法。之前的视频语言对齐方法有两个主要的局限性。首先，它们无法捕捉短距离和长距离的时间依赖性，并且通常采用复杂的层次化深度网络架构，这些架构难以与现有的预训练图像-文本基础模型集成。为了有效地解决这一限制，我们保持了网络架构的简单性...

2024-04-10 17:01:59 19

转载 PyTorch损失函数汇总

来源：pythonic生物人本文约1900字，建议阅读8分钟Tensorflow和Pytorch很多都是相似的，本文以Pytorch为例为你介绍损失函数。19种损失函数1. L1范数损失 L1Loss计算 output 和 target 之差的绝对值。torch.nn.L1Loss(reduction='mean')参数：reduction-三个值，none: 不使用约简；mean:返回loss...

2024-04-10 17:01:59 20

转载万字长文 - LLM prompt tutorial

来源：NLP前沿本文约15000字，建议阅读20+分钟本文为你详细介绍 prompt ，重点是面向没有技术背景的读者。前言我一直把大模型当做是由一个由数十人的博士团队组成的智囊团。但是现阶段想要用他还有些难度，需要学习如何写好提示词，这门新兴的学问就叫提示词工程，英文为promptengineer。阅读学习这门课程，不需要你有任何理工科的背景。但是需要你有点耐心，跟着把文中提到的示例都去练习一...

2024-04-10 17:01:59 44

转载直播预告 | RAG的窘境与长文本之争

2024-04-09 18:55:29 15

转载 Quiet-STaR:让语言模型在“说话”前思考

本文约1200字，建议阅读5分钟本文将介绍一篇3月的论文Quiet-STaR。‍大型语言模型(llm)已经变得越来越复杂，能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题，与人类不同LLM经常在推理中涉及的隐含步骤中挣扎，这回导致输出可能在事实上不正确或缺乏逻辑。本文将介绍一篇3月的论文Quiet-STaR：这是一种新的方法，通过鼓励LLM发展一种“内心独白”的形式来解决...

2024-04-09 18:55:29 18

转载【斯坦福博士论文】通过数据高效方法增强机器学习

来源：专知本文为论文介绍，建议阅读5分钟本论文介绍了创新的机器学习策略。监督深度学习技术在我们生活的所有领域（包括金融、医疗保健、社交网络等）都产生了巨大且前所未有的影响。然而，这种进步受到了一个重大挑战的阻碍：对大型、高质量标注数据集的依赖。这个问题在生物医药等领域尤为严重，因为在这些领域中，数据的获取和注释不仅成本高昂，而且复杂。为了应对这些挑战，本论文介绍了创新的机器学习策略，这些策略是数...

2024-04-09 18:55:29 19

转载时序时空大模型前沿综述：面向时间序列和时空数据的大模型

本文约12000字，建议阅读15分钟本文介绍了关于时间序列和时空数据分析的大模型的最新综述。‍‍导语本文介绍了关于时间序列和时空数据分析的大模型的最新综述，该综述强调了分析这些数据类型的重要性以及对各种下游任务的潜在好处。作者们将现有文献分为两大类：时间序列分析的大模型（LM4TS）和时空数据挖掘（LM4STD）。此外，作者还提供了全面的资源收集，包括数据集、模型资产和工具，按主流应用分类。最后强...

2024-04-09 18:55:29 134

转载快手强化学习与多任务推荐

本文约6000字，建议阅读8分钟本文将介绍快手在强化学习和多任务推荐结合方面的探索工作。本次介绍主要分为以下几个方面：1.Two-Stage Constrained Actor-Critic for Short Video Recommendation2.Multi-Task Recommendations with Reinforcement Learning3.Conclusion4....

2024-04-08 17:02:37 8

转载【CVPR2024】卷积提示"遇见了语言模型的持续学习

来源：专知本文为论文介绍，建议阅读5分钟我们通过提出ConvPrompt，一种新颖的卷积提示创建机制来解决这些限制。持续学习（CL）使得机器学习模型能够在缺乏旧任务数据的情况下，从不断变化的新训练数据中学习。最近，预训练的视觉Transformers结合提示微调已经显示出克服CL中的灾难性遗忘的希望。这些方法依赖于一池可学习的提示，这在跨任务共享知识时可能效率低下，导致性能较差。此外，缺乏细粒...

2024-04-08 17:02:37 16

转载超越GPT-4，斯坦福团队手机可跑的大模型火了，一夜下载量超2k

来源：机器之心本文约1500字，建议阅读5分钟近日，斯坦福大学研究人员推出的 Octopus v2 火了，受到了开发者社区的极大关注，模型一夜下载量超 2k。在大模型落地应用的过程中，端侧 AI 是非常重要的一个方向。近日，斯坦福大学研究人员推出的 Octopus v2 火了，受到了开发者社区的极大关注，模型一夜下载量超 2k。20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑...

2024-04-08 17:02:37 18

转载多项式朴素贝叶斯分类器

来源：Deephub Imba本文约6500字，建议阅读10分钟我们介绍多项式朴素贝叶斯分类器是如何工作的，然后使用scikit-learn作为实际工作的示例来介绍如何使用。在这篇文章中，我们介绍多项式朴素贝叶斯分类器是如何工作的，然后使用scikit-learn作为实际工作的示例来介绍如何使用。与假设高斯分布的高斯朴素贝叶斯分类器相反，多项式朴素贝叶斯分类器依赖于多项分布。通过学习/估计每个类...

2024-04-08 17:02:37 20

转载如何开始定制你自己的大型语言模型

来源：DeepHub IMBA‍‍‍‍‍‍‍本文约1600字，建议阅读8分钟如果你想深入的学习，也可以从最顶层最抽象的部分开始，然后往下一步一步进行学习，这样就不会因为底层的概念太过复杂而放弃。2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？首先你需要有硬件的资源，对于硬件来说有2个路径可以...

2024-04-07 17:02:37 18

转载独家｜ 2024人工智能学习路线图（附链接）

作者：Benedict Neo2024年2月9日翻译：陈之炎、潘玏妤校对：潘玏妤本文约8000字，建议阅读15分钟本文是为黑客和程序员学习人工智能提供的免费课程。如果觉得本文有帮助，请在推特和领英上关注我！我每周都会和朋友们分享有趣的链接，也可以及时订阅。想学习人工智能吗？却不知道如何或从哪里开始？早在2020年，我就在互联网上写下了前20大免费数据科学、ML和AI MOOCs（h...

2024-04-07 17:02:37 47

转载 Chronos: 将时间序列作为一种语言进行学习

来源：DeepHub IMBA本文约1500字，建议阅读5分钟本文将时间序列分块并作为语言模型中的一个token来进行学习，并且得到了很好的效果。这是一篇非常有意思的论文，它将时间序列分块并作为语言模型中的一个token来进行学习，并且得到了很好的效果。Chronos是一个对时间序列数据的概率模型进行预训练的框架，它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列...

2024-04-06 17:00:15 19

转载【斯坦福博士论文】大模型时代的概率推理

来源：专知本文约1700字，建议阅读5分钟在这篇论文中，我们通过设计与模型规模兼容的算法成分来应对这一挑战，如并行化、摊销推理和神经函数逼近。最近在生成式人工智能领域的进展见证了模型大小和数据维度的急剧膨胀。然而，这些大型模型随之而来的是增加的计算需求，这禁止了许多传统概率推理算法的使用。迫切需要新的推理算法，这些算法足够高效，能够在大型模型和现代架构上运行，同时也足够强大，能够处理高维度和大数...

2024-04-06 17:00:15 32

转载前沿综述：神经回路中的兴奋-抑制平衡、临界性与神经活动

本文约6400字，建议阅读12分钟本文我们首先回顾神经网络的基本数学建模，然后引入兴奋抑制平衡的概念用于解释单个神经元不规则脉冲。引言哺乳动物的大脑由大量神经元组成，其神经活动表现出复杂和多层次的动态特征。在神经元层面，随机耦合的兴奋神经元和抑制神经元组成的神经回路在兴奋和抑制之间保持平衡（兴奋-抑制平衡）；而集体神经活动则表现为具有无标度特征的神经雪崩（可通过神经临界性解释）。2024年1月发...

2024-04-06 17:00:15 40

转载准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

来源：ScienceAI本文约2700字，建议阅读5分钟来自韩国首尔大学（Seoul NationalUniversity）和韩国科学技术院（KAIST）的研究团队，提出了一种 ML 模型——LocalMapper，可通过人机回圈（human-in-the-loop）机器学习从化学家标记的反应中学习正确的 AAM。原子到原子映射（Atom-to-atom Mapping，AAM）是识别化学反应...

2024-04-05 17:01:17 14

空空如也

空空如也