- 博客(737)
- 资源 (1)
- 收藏
- 关注
原创 L4Q: Parameter Efficient Quantization-Aware Training on Large Language Models via LoRA-wise LSQ
训练后量化(PTQ)和量化感知训练(QAT)方法在减轻与大型语言模型(LLM)相关的高内存和计算成本方面越来越受欢迎。在资源受限的场景中,PTQ由于其减少的训练开销,通常比QAT更受欢迎,尽管后者有更高的准确性潜力。同时,已经引入了诸如低秩自适应(LoRA)的参数有效微调(PEFT)方法,并且最近的工作已经探索了量化感知的PEFT技术。然而,由于这些方法依赖于预量化模型的配置,因此可能缺乏通用性。它们的有效性可能会受到非线性量化或混合精度权重的影响,并且特定量化参数的再训练可能会阻碍最佳性能。
2024-03-29 16:27:06 2
原创 A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications
提示工程已经成为扩展大型语言模型(LLM)和视觉语言模型(VLM)功能的一种不可或缺的技术。这种方法利用特定任务的指令,即提示,在不修改核心模型参数的情况下提高模型功效。提示不是更新模型参数,而是通过仅基于给定提示引发所需的模型行为,将预先训练的模型无缝集成到下游任务中。提示可以是提供上下文以指导模型的自然语言指令,也可以是激活相关知识的学习向量表示。这一新兴领域已经在从问答到常识推理的各种应用程序中取得了成功。然而,对各种快速工程方法和技术仍然缺乏系统的组织和理解。
2024-03-29 15:51:03 66
原创 Large Language Model for Participatory Urban Planning
参与式城市规划是现代城市规划的主流,涉及居民的积极参与。然而,传统的参与式模式需要经验丰富的规划专家,而且往往耗时且成本高昂。幸运的是,新兴的大型语言模型(LLM)已经显示出相当大的模拟类人代理的能力,可以很容易地用于模拟参与过程。在这项工作中,我们引入了一个基于LLM的参与式城市规划多智能体协作框架,该框架可以生成考虑居民不同需求的城市区域土地利用规划。具体来说,我们构建LLM代理来模拟规划师和数千名具有不同档案和背景的居民。我们首先要求规划者进行初步的土地使用计划。
2024-03-28 19:57:35 123
原创 Stepwise Self-Consistent Mathematical Reasoning with Large Language Models
使用大型语言模型进行复杂的数学推理是困难的,主要是由于多步骤推理的复杂性。这一过程的主要挑战包括(1)选择关键的中间结果来推进程序,以及(2)对潜在解决方案的有限探索。为了解决这些问题,我们引入了一种新的算法,即逐步自洽思想链(SSC-CoT)。SSCCoT采用了一种基于各种推理链的交集来选择中间步骤的策略。此外,SSC-CoT使模型能够通过查询包括相关领域知识的知识图谱来发现关键的中间步骤。为了验证SSC CoT,我们提出了一个新的数据集TriMaster100,专门用于复杂的三角问题。
2024-03-28 19:52:54 105
原创 EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models
这项工作介绍了EE调优,这是一种轻量级且经济的解决方案,用于训练/调优早期退出的大型语言模型(LLM)。与全参数预训练的常见方法相比,EE Tuning通过以参数有效的方式调整的额外早期退出层来增强任何预训练(并且可能是微调的)标准LLM,这需要显著更少的计算资源和训练数据。我们的EE Tuning实现通过广泛的性能优化以及与3D并行度完全兼容的可扩展性,实现了卓越的训练效率。系统实验的结果验证了EE Tuning的有效性,证实了在有限的训练预算下可以实现有效的早期退出LLM推理。
2024-03-28 18:31:37 4
原创 Do Large Language Models Mirror Cognitive Language Processing?
大型语言模型在文本理解和逻辑推理方面表现出了非凡的能力,在许多认知任务中达到甚至超过了人类水平。由于LLM是从人类语言认知的大量文本输出中训练出来的,因此很自然地会问LLM是否反映了认知语言处理。或者LLM在多大程度上类似于认知语言处理?在本文中,我们提出了一种新的方法,在LLM表示和人类认知信号之间架起桥梁,以评估LLM模拟认知语言处理的有效性。我们使用代表性相似性分析(RSA)来测量大脑的16个主流LLM和fMRI信号之间的一致性。
2024-03-27 21:07:02 6
原创 Large Language Models As Evolution Strategies
大型Transformer模型能够实现大量所谓的上下文学习算法。其中包括梯度下降、分类、序列完成、转换和改进。在这项工作中,我们研究了从未明确遇到黑箱优化任务的大型语言模型(LLM)原则上是否能够实现进化优化算法。虽然之前的工作只关注基于语言的任务规范,但我们继续关注LLM在black-box优化中的零样本应用。我们引入了一种新的提示策略,包括对离散群体成员进行最小到最大排序,并查询LLM,以提出对平均统计量的改进,即执行一种黑匣子重组操作。
2024-03-27 21:00:49 126
原创 Large Language Models Based Fuzzing Techniques: A Survey
在软件发挥关键作用的现代,软件安全和漏洞分析已成为软件开发的关键。模糊测试作为一种高效的软件测试方法,广泛应用于各个领域。此外,大型语言模型(LLM)的快速发展促进了它们在软件测试领域的应用,表现出了显著的性能。考虑到现有的模糊测试技术并不是完全自动化的,软件漏洞也在不断演变,使用基于大型语言模型生成的模糊测试的趋势越来越大。这项调查提供了融合LLM和模糊测试的软件测试方法的系统概述。
2024-03-27 20:47:21 78
原创 Graph Descriptive Order Improves Reasoning with Large Language Model
近年来,大型语言模型已经在多个领域实现了最先进的性能。然而,LLM在图推理领域的进展仍然有限。我们的工作通过深入研究LLM的图推理来深入研究这一差距。在这项工作中,我们揭示了图描述的顺序对LLM的图推理性能的影响,这显著影响了LLM的推理能力。通过改变这个顺序,我们将LLM的性能从42.22%提高到70%。此外,我们引入了标度图推理基准,用于评估LLM在各种图大小下的性能,并评估LLM的图推理能力与图大小之间的关系。我们发现LLM的图推理性能不会随着图大小的增加而单调下降。
2024-03-26 17:41:52 8
原创 GraphTranslator: Aligning Graph Model to Large Language Model for Open-ended Tasks
像ChatGPT这样的大型语言模型(LLM)展示了强大的零样本和指令跟踪功能,催化了不同领域的革命性转变,尤其是对于开放式任务。虽然这一想法在图领域的探索较少,尽管有许多强大的图模型(GM)可用,但它们仅限于预定义形式的任务。尽管已经提出了几种将LLM应用于图的方法,但它们无法同时处理预定义和开放的任务,LLM作为节点特征增强器或独立的预测器。
2024-03-26 17:36:39 6
原创 RAG-Driven Enhancement of Multimodal Electronic Health Records Analysis via Large Language Models
多模态电子健康记录(EHR)数据的集成显著提高了临床预测能力。利用临床笔记和多变量时间序列EHR,现有模型往往缺乏与临床任务相关的医学背景,促使外部知识的结合,特别是来自知识图谱(KG)的知识。以往的KG知识提取方法主要侧重于结构化知识提取,而忽略了非结构化数据模式和语义高维医学知识。作为回应,我们提出了REALM,这是一种检索增强生成(RAG)驱动的框架,用于增强多模态EHR表示,以解决这些限制。首先,我们使用大型语言模型(LLM)对长上下文临床笔记进行编码,并使用GRU模型对时间序列EHR数据进行编码。
2024-03-26 17:29:06 7
原创 RAFT: Adapting Language Model to Domain Specific RAG
在文本数据的大型语料库上预训练大型语言模型(LLM)现在是一种标准范式。当将这些LLM用于许多下游应用程序时,通常会通过基于RAG的计算或微调,将新知识(例如,时间关键新闻或私有领域知识)额外训练到预训练的模型中。然而,该模型获得这些新知识的最佳方法仍然是一个悬而未决的问题。在本文中,我们提出了检索增强微调(RAFT),这是一种训练方法,可以提高模型在“openbook”域设置中回答问题的能力。在RAFT中,给定一个问题和一组检索到的文档,我们训练模型忽略那些对回答问题没有帮助的文档,称之为干扰文档。
2024-03-26 17:21:44 110
原创 Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
Sora是第一个引起社会广泛关注的大规模通用视频生成模型。自2024年2月由OpenAI推出以来,没有其他视频生成模型能与Sora的性能或支持广泛视频生成任务的能力相媲美。此外,只有少数完全发布的视频生成模型,大多数是闭源的。为了解决这一差距,本文提出了一个新的多智能体框架Mora,该框架结合了几个先进的视觉AI代理来复制Sora演示的通用视频生成。
2024-03-26 17:17:12 7
原创 Evolutionary Optimization of Model Merging Recipes
我们提出了一种进化算法的新应用,以自动创建强大的基础模型。虽然由于其成本效益,模型合并已成为LLM开发的一种很有前途的方法,但它目前依赖于人类的直觉和领域知识,限制了其潜力。在这里,我们提出了一种进化方法,通过自动发现各种开源模型的有效组合,利用它们的集体智慧,而不需要大量额外的训练数据或计算,来克服这一限制。我们的方法在参数空间和数据流空间中运行,允许优化超出单个模型的权重。这种方法甚至有助于跨领域合并,生成具有数学推理功能的模型,如日本LLM。
2024-03-26 16:57:48 12
原创 VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
我们提出了VLOGGER,这是一种从一个人的单个输入图像中生成音频驱动的人类视频的方法,它建立在最近生成扩散模型的成功基础上。我们的方法包括1)一个随机的人三维运动扩散模型,以及2)一个新颖的基于扩散的架构,该架构通过空间和时间控制来增强文本到图像模型。这支持生成可变长度的高质量视频,易于通过人脸和身体的高级表示进行控制。
2024-03-26 15:59:29 9
原创 ChemLLM: A Chemical Large Language Model
大型语言模型(LLM)在化学应用方面取得了令人印象深刻的进展,包括分子性质预测、分子生成、实验方案设计等。然而,该社区缺乏专门为化学设计的基于对话的模型。挑战来自这样一个事实,即大多数化学数据和科学知识主要存储在结构化数据库中,而直接使用这些结构化数据会损害模型保持连贯对话的能力。为了解决这个问题,我们开发了一种新的基于模板的指令构建方法,将结构化知识转化为简单的对话,使其适合于语言模型训练。
2024-03-26 15:54:37 4
原创 Beyond Imitation: Generating Human Mobility from Context-aware Reasoning with Large Language Models
人类的流动行为与各种重要的社会问题密切相关,如交通拥堵、能源消耗和流行病控制。然而,收集移动数据的成本可能高得令人望而却步,并涉及严重的隐私问题,这就迫切需要高质量的生成移动模型。先前的工作侧重于从训练样本中学习行为分布,并通过对所学习的分布进行采样来生成新的移动性数据。它们不能有效地捕捉驱动移动行为的连贯意图,导致样本效率和语义意识较低。受大型语言模型(LLM)中涌现推理能力的启发,我们提出了一个彻底的视角转变,将迁移生成重新表述为一个常识性推理问题。
2024-03-26 15:27:15 3
原创 Can Large Language Models Detect Misinformation in Scientific News Reporting?
大众媒体经常歪曲科学事实,意图影响公众舆论和行动,新冠肺炎大流行期间就证明了这一点。由于这两种媒体类型的写作风格不同,自动检测科学领域的错误信息具有挑战性,目前仍处于萌芽阶段。大多数关于科学报告有效性的研究都将这一问题视为索赔验证的挑战。在这样做的过程中,需要大量的专家人力努力来提出适当的索赔。我们的解决方案绕过了这一步骤,解决了一个更真实的场景,在这个场景中,这种明确的、标记的声明可能不可用。本文的核心研究问题是,是否有可能使用大型语言模型(LLM)来检测科学报道中的错误信息。
2024-03-26 14:49:21 3
原创 Utilizing Large Language Models for Industrial Recommendation Systems through an Inferential KG
推荐系统广泛应用于电子商务网站和在线平台,以解决信息过载问题。然而,现有的系统主要依赖于历史数据和用户反馈,这使得很难捕捉用户意图的转变。最近,有人提出了基于知识库的模型来整合专家知识,但它很难适应新的项目和不断发展的电子商务环境。为了应对这些挑战,我们提出了一种新的基于大型语言模型的补充知识增强推荐系统(LLM-KERec)。它引入了一个实体提取器,从项目和用户信息中提取统一的概念术语。为了提供具有成本效益和可靠的先验知识,基于实体流行度和特定策略生成实体对。
2024-03-26 14:35:36 3
原创 Training-Free Long-Context Scaling of Large Language Models
当输入token的数量超过其预训练长度时,大型语言模型处理和生成连贯文本的能力显著减弱。考虑到微调具有较长序列的大规模模型的昂贵开销,我们提出了双块注意力(DCA),它使LLAMA2 70B能够在没有持续训练的情况下支持超过10万个token的上下文窗口。通过将长序列的注意力计算分解为基于块的模块,DCA能够有效地捕获同一块内(块内)和不同块间(块间)的token的相对位置信息,并与Flash attention无缝集成。
2024-03-25 18:16:20 144
原创 A LARGE LANGUAGE MODEL EVALUATION BENCHMARK AND BASELINE FOR CHINESE PUBLIC SECURITY DOMAIN
大型语言模型(LLM)已经在多个应用程序领域展示了巨大的潜力和有效性。为了评估主流LLM在公共安全任务中的表现,本研究旨在构建一个专门针对中国公共安全领域的评估基准——CPSDbench。CPSDbench集成了从真实世界场景中收集的与公共安全相关的数据集,支持在四个关键维度对LLM进行全面评估:文本分类、信息提取、问答和文本生成。此外,本研究引入了一套创新的评估指标,旨在更准确地量化LLM在执行与公共安全相关的任务时的效能。
2024-03-25 17:55:00 322
原创 Computational Experiments Meet Large Language Model BasedAgents:ASurvey and Perspective
计算实验已经成为研究复杂系统的一种有价值的方法,包括反事实的算法。然而,由于人类的多样性和复杂性,包括有限理性和异质性,在基于代理的建模(ABM)中准确地表示真实的社会系统是具有挑战性的。为了解决这一限制,已经提出了大型语言模型(LLM)的集成,使代理能够拥有拟人化的能力,如复杂推理和自主学习。这些代理被称为基于LLM的代理,有可能增强ABM中缺乏的拟人化。尽管如此,LLM中缺乏明确的可解释性严重阻碍了它们在社会科学中的应用。相反,计算实验擅长于对个体行为和复杂现象进行因果分析。
2024-03-25 15:55:21 280
原创 Synergizing Spatial Optimization with Large Language Models for Open-Domain Urban Itinerary Planning
在本文中,我们首次提出了城市步行的开放域城市行程规划(OUIP)任务,该任务直接根据自然语言描述的用户请求生成行程。OUIP不同于传统的行程规划,后者限制了用户表达更详细的需求,阻碍了真正的个性化。最近,大型语言模型(LLM)在处理各种任务方面显示出了潜力。然而,由于非实时信息、知识不完整和空间意识不足,他们无法在OUIP中独立提供令人满意的用户体验。有鉴于此,我们介绍了ItiNera,这是一个OUIP系统,它将空间优化与大型语言模型(LLM)协同起来,提供基于用户需求定制城市行程的服务。
2024-03-25 15:52:09 4
原创 DeLLMa: A Framework for Decision Making Under Uncertainty with Large Language Models
大型语言模型(LLM)在整个社会中的使用越来越多,包括在商业、工程和医学等领域。这些领域经常在不确定性的情况下努力决策,这是一项关键但具有挑战性的任务。在本文中,我们表明,在这些类型的决策问题上直接提示LLM会产生较差的结果,特别是当问题复杂性增加时。为了克服这一限制,我们提出了DeLLMa(决策大型语言模型助手),这是一个旨在提高不确定环境中决策准确性的框架。DeLLMa涉及一个多步骤的脚手架程序,借鉴决策理论和效用理论的原理,提供一个最佳的、可供人类审计的决策过程。
2024-03-25 15:36:44 89
原创 Integrating Large Language Models with Graphical Session-Based Recommendation
随着大型语言模型(LLM)的快速发展,在推荐系统中利用LLM的上下文理解能力进行了各种探索。虽然开创性的策略主要将传统的推荐任务转化为自然语言生成的挑战,但由于其特殊性,在基于会话的推荐(SBR)领域的探索相对较少。城市SBR主要由图神经网络主导,由于其能够捕捉相邻行为之间的隐式和显式关系,图神经网络已经取得了许多成功。图形的结构性质与自然语言的本质形成对比,对应LLM构成了一个重要的适应差距。
2024-03-25 10:44:07 64
原创 BreakGPT: A Large Language Model with Multi-stage Structure for Financial Breakout Detection
交易区间突破(TRB)是金融交易技术分析的一种关键方法,广泛应用于股票、期货和外汇等金融市场的交易员。然而,区分真实和虚假突破以及提供正确的理由给投资者带来了重大挑战。最近,大型语言模型在各种下游应用程序中取得了成功,但在金融突破检测领域的有效性一直较差。原因是漏诊检测需要独特的数据和特定的知识。为了解决这些问题,我们引入了BreakGPT,这是第一个用于金融突破检测的大型语言模型。此外,我们还为大型语言模型开发了一种新的框架,即多级结构,有效地减少了下游应用程序中的错误。
2024-03-22 17:21:42 10
原创 CyberMetric: A Benchmark Dataset for Evaluating Large Language Models Knowledge in Cybersecurity
大型语言模型(LLM)擅长于从计算机视觉到医学诊断的各个领域。然而,理解网络安全的多样性,包括密码学、逆向工程和风险评估等管理方面,即使对人类专家来说也是一个挑战。在本文中,我们介绍了CyberMetric,这是一个基准数据集,包含来自网络安全领域标准、认证、研究论文、书籍和其他出版物的10000个问题。这些问题是通过协作过程创建的,即将专家知识与LLM(包括GPT-3.5和Falcon-180B)合并。人类专家花了200多个小时来验证它们的准确性和相关性。
2024-03-22 17:17:49 12
原创 Graph-enhanced Large Language Models in Asynchronous Plan Reasoning
异步计划的推理具有挑战性,因为它需要顺序和并行计划来优化时间成本。大型语言模型(LLM)能成功完成这项任务吗?在这里,我们提出了第一个调查这个问题的大规模研究。我们发现,一组具有代表性的封闭和开源LLM,包括GPT-4和LLaMA-2,在我们的基准AsyncHow中没有提供有关任务解决过程的说明时,表现不佳。我们提出了一种称为类图规划(PLaG)的新技术,该技术将图与自然语言提示相结合,并获得了最先进的结果。
2024-03-22 15:43:50 9
原创 Limits of Large Language Models in Debating Humans
大型语言模型(LLM)在与人类熟练互动的能力方面表现出了非凡的前景。随后,在涉及对话的社会学实验中,它们作为人工联盟和代理的潜在用途是一个令人兴奋的前景。但这个想法有多可行?本文试图通过一项预先注册的研究来测试当前LLM的局限性,该研究将真实的人与充当人的LLM代理相结合。这项研究的重点是在三种环境中形成基于辩论的意见共识:仅人类、代理和人类以及仅代理。我们的目标是了解LLM代理如何影响人类,以及它们像人类一样进行辩论的能力。
2024-03-22 13:29:43 14
原创 OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of LLMs
神经心理理论(N-ToM)是机器理解和跟踪他人心理状态的能力,是开发社会智能主体的关键。然而,流行的N-ToM基准有几个缺点,包括存在模棱两可和人为的叙事,缺乏个性特征和偏好,缺乏解决角色心理心理状态的问题,以及提出的问题的多样性有限。针对这些问题,我们构建了OpenToM,这是一个评估N-ToM的新基准,(1)更长、更清晰的叙事故事,(2)具有明确个性特征的角色,(3)由角色意图触发的动作,以及(4)旨在挑战LLM建模角色生理和心理世界心理状态的能力的问题。
2024-03-22 10:00:30 10
原创 Comparing Abstraction in Humans and Large Language Models Using Multimodal Serial Reproduction
人类从嘈杂的感官数据中提取有用的世界抽象。串行复制使我们能够研究人们如何通过类似于电话游戏的范式来构建世界,在电话游戏中,一个人观察一个刺激,并为下一个人复制它,以形成复制链。过去的一系列复现实验通常采用单一的感官模式,但人类经常通过语言相互交流世界的抽象概念。为了研究语言对抽象形成的影响,我们实现了一个新颖的多模态连续再现框架,要求接受视觉刺激的人以语言形式再现,反之亦然。我们对人类和GPT-4进行了单模态和多模态链分析,发现添加语言作为模态对人类复现的影响比GPT-4的更大。
2024-03-21 10:32:47 9
原创 Large Language Model for Table Processing: A Survey
表通常是二维的,结构化以存储大量数据,在数据库查询、电子表格计算和从web表生成报告等日常活动中至关重要。使用大型语言模型(LLM)自动化这些以表为中心的任务提供了显著的公共利益,引起了学术界和工业界的兴趣。这项调查对表格任务进行了广泛的概述,不仅包括表格问答(表格QA)和事实验证等传统领域,还包括表格操作和高级表格数据分析等新强调的方面。此外,它超越了早期的预训练和微调小语言模型的策略,还包括了LLM使用的最新范式。这里的重点是LLM领域内的指令调优、提示和基于代理的方法。
2024-03-21 10:32:22 16
原创 Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education
艺术欣赏对于培养学习者的批判性思维和情商至关重要。然而,传统的艺术欣赏教育往往受到阻碍,因为获得艺术资源的机会有限,尤其是弱势学生,以及主流教育对STEM科目的不平衡重视。为了应对这些挑战,最近的技术进步为创新解决方案铺平了道路。本研究探讨了多模态大语言模型(MLLMs)在艺术欣赏教育中的应用,重点是开发LLaVA Docent,一个利用这些进步的模型。我们的方法包括全面的文献综述和与该领域专家的协商,从而开发出一个强大的数据框架。利用这个框架,我们生成了一个虚拟对话数据集,GPT-4利用了这个数据集。
2024-03-20 16:55:18 8
原创 A Survey on Large Language Model Hallucination via a Creativity Perspective
大型语言模型(LLM)中的幻觉总是被视为局限性。然而,它们是否也是创造力的源泉?这项调查探讨了这种可能性,表明幻觉可能通过培养创造力来促进LLM的应用。这项调查首先回顾了幻觉的分类及其对关键应用中LLM可靠性的负面影响。然后,通过历史实例和最近的相关理论,调查探讨了幻觉在LLM中的潜在创造性益处。为了阐明这种联系的价值和评估标准,我们深入研究了创造力的定义和评估方法。在发散和趋同思维阶段的框架下,本调查系统地回顾了关于在LLM中转化和利用幻觉创造的文献。
2024-03-20 15:49:46 95
原创 GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment
将大型语言模型(LLM)与从特定领域数据派生的知识图谱相集成,代表着朝着更强大、更真实的推理方向迈出了重要的一步。随着这些模型的能力越来越强,使它们能够对真实世界的知识图谱执行多步骤推理,同时最大限度地减少幻觉,这一点至关重要。虽然大型语言模型擅长对话和文本生成,但它们在互联实体的领域专用图上推理的能力仍然有限。例如,我们能否根据私人数据库中的关系和属性,查询LLM,以确定专业网络中针对特定目标的最佳联系人?答案是否定的——这种能力超出了目前的方法。然而,这一问题凸显了一个必须解决的关键技术差距。
2024-03-20 15:30:25 12
原创 InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning
大型语言模型的数学能力可以代表其抽象推理能力。在本文中,我们介绍并开源了我们的数学推理LLMs InternLM math,它是从InternLM2继续预训练的。我们将思维链推理、奖励建模、形式推理、数据增强和代码解释器统一为统一的seq2seq格式,并监督我们的模型成为一个通用的数学推理器、验证器、证明器和增强器。这些能力可以用于开发下一个数学LLM或自迭代。
2024-03-20 15:05:21 60
原创 Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models
大型语言模型(LLM)通过应用零样本思维链(CoT)提示,在不同的任务中表现出了显著的性能,并表现出了令人印象深刻的推理能力。然而,由于句子前缀在预训练阶段的演变性质,在所有任务实例中使用相同CoT提示的现有零样本CoT提示方法可能不是最佳的。在本文中,我们介绍了一种新颖的零样本提示方法,该方法利用进化算法动态生成LLM的不同提示。我们的方法包括初始化两个CoT提示,基于LLM执行进化操作以创建不同的集合,并利用LLM为给定问题选择合适的CoT提示。
2024-03-20 11:20:31 14
原创 FUSING ACOUSTIC INFORMATION INTO LARGE LANGUAGE MODELS FOR AUTOMATIC SPEECH RECOGNITION
最近的研究已经成功地表明,在自动语音识别(ASR)输出的基础上,大型语言模型(LLM)可以成功地用于生成误差校正(GER)。具体地,LLM用于执行从ASR系统生成的N个最佳假设列表到预测的输出转录的直接映射。然而,尽管GER有效,但它引入了额外的数据不确定性,因为LLM是在不考虑语音信号中可用的声学信息的情况下训练的。在这项工作中,我们的目标是通过一种称为不确定性感知动态融合(UADF)的新型后期融合解决方案,在生成预测转录之前注入声学信息,从而克服这一限制。
2024-03-20 11:04:34 9
原创 Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation
将大型语言模型(LLM)与人类价值观相结合,对于减轻其滥用带来的潜在不利影响至关重要。从社会学的视角来看,承认各方的关切是塑造人类价值观的关键因素,本文提出了一个新的方向来调整LLM:社会场景模拟。为了实现这一点,我们提出了MATRIX,这是一种新颖的社交场景模拟器,它模拟用户输入查询周围的真实场景,使LLM能够在响应之前考虑社会后果。MATRIX是一个虚拟排练空间,类似于独白,LLM在这里独自扮演与查询和练习相关的各种角色。
2024-03-20 10:57:25 11
原创 Is it Possible to Edit Large Language Models Robustly?
大型语言模型(LLM)在构建模仿人类行为的交流人工智能方面发挥了关键作用,但面临着高效定制的挑战。为了应对这一挑战,最近的研究深入到了模型编辑领域,它操纵语言模型的特定记忆,并改变相关的语言生成。然而,模型编辑的稳健性仍然是一个悬而未决的问题。这项工作旨在了解编辑方法的优势和局限性,从而促进交流人工智能的稳健、现实应用。具体而言,我们进行了广泛的分析,以解决三个关键的研究问题。Q1:在现实情况下,经过编辑的LLM是否能始终如一地表现得像交流人工智能?
2024-03-20 10:50:53 6
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人