- 博客(1561)
- 资源 (4)
- 收藏
- 关注
原创 LangGraph 入门与实战
工具的定义,可以参考这篇文章,写的比较详细了,比较方便的就是使用 tools 这个注解。雨飞:使用智普清言的Tools功能实现ToolAgentLangGraph 中最基础的类型是 StatefulGraph,这种图就会在每一个Node之间传递不同的状态信息。然后每一个节点会根据自己定义的逻辑去更新这个状态信息。具体来说,可以继承 TypeDict 这个类去定义状态,下图我们就定义了有四个变量的信息。input:这是输入字符串,代表用户的主要请求。
2024-03-25 17:00:14 443 1
原创 chatgpt How to call functions with chat models
This notebook covers how to use the Chat Completions API in combination with external functions to extend the capabilities of GPT models. is an optional parameter in the Chat Completion API which can be used to provide function specifications. The purpose
2024-03-07 17:19:55 1151
原创 OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度
对于正确的解决方案,两种方法提供的信息相同,因为每一步都是正确的解题方法。对于每个数据集,OpenAI 提供三种形式的监督:来自 PRM_large 的过程监督,来自 PRM_large 的结果监督以及来自最终答案检查的结果监督。为了更好的比较结果监督和过程监督,首先需要注意的是 ORM 和 PRM 的训练集不具有直接可比性,PRM 训练集是使用主动学习构建的,偏向于答案错误的解决方案,还比 ORM 训练集少一个数量级。图 2 为同一个问题的 2 种解决方案,左边的答案是正确的,右边的答案是错误的。
2024-02-28 22:55:57 915 1
原创 Prompt 编程的优化技巧
我们使用官方的 ChatGPT 的网页进行多次对话时,很少出现超出 GPT上下文的错误提示,是因为官方的 ChatGPT 会将相对较老的上下文清理掉,从而避免超 GPT 上下文限制的情况发生,这其实也是一种精简 GPT 上下文的思路。OpenAI 按照传入的上下文 + 最新回复的信息总和,然后折算成 Token 计费,所以上下文越多计费越贵,并且成逐步上涨的趋势(因为多轮会话中,上下文会越来越大),所以节省上下文实际上就是节省费用。”,可以缩短 GPT回复的字数,从而减少 Token 消耗。
2024-02-26 18:58:54 1408
原创 大语言模型推理加速技术:计算加速篇
其中Q,K,V是模型的三个矩阵。context phase也叫prefill phase:需要计算整个prompt的自注意力,q_input, k_input, v_input大小都为[seq_len, emb_dim],即整个prompt的embedding,context phase只需要进行一次,生成第一个token。
2024-02-26 09:25:16 1027
原创 大语言模型推理加速技术:模型压缩篇
本篇介绍左边蓝色的部分,右边绿色的部分在上篇文章在上一篇文章中我们介绍了不改变模型结构的条件下,加速模型推理的技术,即让模型“算得更快”。而这篇文章将介绍模型压缩的技术,即让模型“算得更少”。量化(Quantization):使用低精度(≤16位)存储模型权重。精简Attention:通过一些变种的Attention算法减少模型计算量。除此之外还有“投机采样”这种巧妙的采样方法也可以视为对大模型的压缩。而传统的几个压缩方法比如知识蒸馏和剪枝。
2024-02-26 09:22:21 1191
原创 微信公众号集成文心一言API
在Python环境 ≥ 3.8的情况下,你可以使用以下命令来安装这些库: pip install erniebot flask gevent 如果你在安装过程中遇到任何问题,或者需要更具体的帮助,欢迎随时向我询问。集成文心一言API:将文心一言API集成到你的微信公众号中,需要在Flask应用中实现一个或多个函数来与文心一言API进行交互。如果不匹配,将返回错误消息。总的来说,使用Python语言和Flask技术来集成微信公众号与文心一言API是一个相对复杂的过程,需要具备一定的编程和Web开发经验。
2024-02-19 08:01:48 1146
原创 读懂 FastChat 大模型部署源码所需的异步编程基础
FastChat 是 2023 年非常知名的一个大语言模型项目,该项目不仅提供了大语言模型全量参数微调、Lora参数微调、模型推断、模型量化、模型部署及调度等全套的源代码,而且还开源了他们基于 LLaMA2 底座进行指令微调的一系列 Vicuna 模型权重,因此非常适合学习和使用。就 FastChat 模型部署部分而言,它分为三个部分:controller、worker、api_server。这三个服务使用 FastAPI + Uvicorn 的方式构建,都是单线程程序,且各自都支持并发。
2024-02-07 22:11:08 1211
原创 我的PyTorch模型比内存还大,怎么训练呀?
随着深度学习的飞速发展,模型越来越臃肿,哦不,先进,运行SOTA模型的主要困难之一就是怎么把它塞到 GPU 上,毕竟,你无法训练一个设备装不下的模型。改善这个问题的技术有很多种,例如,分布式训练和混合精度训练。本文将介绍另一种技术: 梯度检查点(gradient checkpointing)。简单的说,梯度检查点的工作原理是在反向时重新计算深层神经网络的中间值(而通常情况是在前向时存储的)。这个策略是用时间(重新计算这些值两次的时间成本)来换空间(提前存储这些值的内存成本)。
2024-02-07 08:02:46 877
原创 PyTorch 2.2大更新!集成FlashAttention-2,性能提升2倍
PyTorch 2.2将FlashAttention内核更新到了v2版本,不过需要注意的是,之前的Flash Attention内核具有Windows实现,Windows用户可以强制使用sdp_kernel,仅启用Flash Attention的上下文管理器。FlashAttention-2调整了算法以减少非matmul的计算量,同时提升了Attention计算的并行性(即使是单个头,也可以跨不同的线程块,以增加占用率),在每个线程块中,优化warps之间的工作分配,以减少通过共享内存的通信。
2024-02-07 07:52:42 1798
原创 大语言模型量化方法对比:GPTQ、GGUF、AWQ
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。说明:每次加载LLM示例后,建议清除缓存,以防止出现OutOfMemory错误。如果在jupyter中无法释放显存,请重启这个jupyter notebook。
2024-02-01 21:55:00 1385
原创 LM Studio-简化安装和使用开源大模型 | OpenAI API 文字转语音本地运行程序分享
这样既节省了调用API的成本,又能发挥大模型的强大能力。,最近用上了LM Studio,对比Ollama,LM Studio还支持Win端,支持的模型更多,客户端本身就可以多轮对话,而且还支持启动类似OpenAI的API的本地HTTP服务器。实测,dolphin-2.6-mistral 7B模型在我Mac M1 Max 32G的电脑上运行速度很快,生成质量不错,而且dolphin是可以生成NSFW内容的。也就是说,如果你之前做过一些应用,用的是OpenAI API的模型,那现在可以非常方便转成本地模型。
2024-02-01 11:01:38 1724
原创 动手学RAG:汽车知识问答
在自然语言处理领域,大型语言模型(LLM)如GPT-3、BERT等已经取得了显著的进展,它们能够生成连贯、自然的文本,回答问题,并执行其他复杂的语言任务。然而,这些模型存在一些固有的局限性,如“模型幻觉问题”、“时效性问题”和“数据安全问题”。为了克服这些限制,检索增强生成(RAG)技术应运而生。RAG技术结合了大型语言模型的强大生成能力和检索系统的精确性。它允许模型在生成文本时,从外部知识库中检索相关信息,从而提高生成内容的准确性、相关性和时效性。
2024-01-29 14:34:34 1296
原创 最高20倍!压缩ChatGPT等模型文本提示,极大节省AI算力
同时,也与其他提示压缩方法进行了对比,如基于困惑度的LLMLingua和基于检索的方法,评估了LongLLMLingua的有效性。工作原理是,利用源文本、压缩文本、生成文本之间的子序列关系,从生成结果中恢复完整的关键名词词组,修复压缩带来的信息缺失,提高结果的准确性。通过利用粗粒度压缩模块计算出的各段落与问题的关联度,对段落进行排序,使关联度最高的段落排在最前面。关联度最高的段落压缩比率最低,依次类推。对更相关的段落使用更低的压缩比率,分配更多的保留词语预算,而对相关性较弱的段落则使用更高的压缩比率。
2024-01-28 11:09:50 966
原创 体验 AutoGen Studio - 微软推出的友好多智能体协作框架
1. AutoGen和AutoGen Studio都是微软研究团队开发的工具,用于创建和管理AI智能体。AutoGen提供底层框架,AutoGen Studio提供直观的用户界面。2. AutoGen Studio的主要特性包括定义和修改智能体、与智能体互动、增加技能、发布会话等。3. 与CrewAI和MetaGPT相比,AutoGen Studio提供了可视化界面,对新手更友好。4. AutoGen Studio可应用于文档管理、客户服务、数据分析、教育培训、创意内容生成等场景,助力任务自动化。
2024-01-27 21:18:27 1355
原创 使用 OpenLLM 构建和部署大模型应用
需要注意的是,内存不是连续的,因此需要一个 block table 来存储内存的物理位置和实际序号的映射关系,使得在大模型中看起来是获得了一个逻辑上连续的内存。然而,由于输入可能存在重复计算,例如在输入"我是一只"后,模型返回"我是一只猫",在输入"我是一只猫"时,又返回"我是一只猫,",这导致了 Transformer 框架中有许多重复的计算。此外,在 BentoCloud 上,可以指定扩容的方式,可以分别为 API 指定需要扩容的节点数,或者为每个 runner 指定需要的 GPU 数量或实例数。
2024-01-20 14:46:06 904
原创 L40S解析,同是AD102核心为什么强于A800(A100)近2成性能
一、L40S解析一个朋友测试测试了4张4090和1张l40,性能。发现l40 性能训练大模型性价比超高。我就找了类似文章看看,分享一下。一、L40S解析一张硬件上比较平平无奇,但是性能与售价又惊为天人的显卡引起了我的注意。由于是未发售的企业级显卡因此只能用已有公开媒体数据做个推测。L40S,一张OEM渠道拿货就近1w美刀的被动散热卡,无NVLINK,无PCIE5.0,无HBM3显存,只有一块和4090同样的AD102核心配上几乎没眼看的GDDR6(ECC)显存。
2024-01-19 07:21:14 1091
原创 奥数能力金牌级:DeepMind几何推理模型alphageometry登上Nature,代码开源
过去针对基于证明的竞争问题的人工智能解决方案有时是碰巧的(输出有时是正确的,需要人工检查),而 AlphaGeometry 没有这个弱点:它的解决方案具有机器可验证的结构。一般的奥林匹克几何问题基于图表,需要添加新的几何结构才能解决,例如点、线或圆。在 AlphaGeometry 的研究上,DeepMind 从跨越 2000 年到 2022 年之间的 30 个奥林匹克几何问题(IMO-AG-30)的基准测试集中进行了测试,结果表明,AlphaGeometry 在比赛时间限制下能够解决 25 个问题。
2024-01-18 11:53:28 941
原创 语言大模型的分布式训练与高效微调指南
目录收起1 分布式训练2 ZeRO驱动的数据并行3 全分片数据并行4 实现5 高效微调6 实践指南7 关于DeepSpeed和FSDP的更多内容OneFlow编译翻译|杨婷、宛子琳最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求,出现了许多出色的开源代码库,以HuggingFace生态系统为中心,这些代码库还包括FastChat、Axolotl和LLama.cpp。本文专注于分布式训练策略的具体细节,特别是DeepSpeed和
2024-01-18 10:32:12 929
原创 创建大模型的新方法 - 配比两个模型
现在,创建大模型的新方法还可以使用配比两个模型- 正如炼金术巫师那样。工具1 medusa:Medusa 为 LLM 添加了额外的“头”,以同时预测多个未来代币。当使用 Medusa 增强模型时,原始模型保持不变,只有新的头部在训练过程中进行微调。在生成过程中,这些头每个都会为相应位置生成多个可能的单词。然后使用基于树的注意力机制组合和处理这些选项。最后,采用典型的接受方案从候选者中挑选最长的合理前缀以进行进一步解码。mergekit。
2024-01-14 09:50:41 1039
原创 达摩研究院Paraformer语音识别-中文-通用-16k
FunASR实时语音听写服务软件包,既可以实时地进行语音转文字,而且能够在说话句尾用高精度的转写文字修正输出,输出文字带有标点,支持高并发多路请求。英文离线文件转写服务部署(CPU版本),拥有完整的语音识别链路,可以将几十个小时的长音频与视频识别成带标点的文字,而且支持上百路请求同时进行转写。中文语音离线文件服务部署(CPU版本),拥有完整的语音识别链路,可以将几十个小时的长音频与视频识别成带标点的文字,而且支持上百路请求同时进行转写。
2024-01-12 13:52:55 1191
原创 原创 | 一文读懂ChatGPT中的强化学习
在这种情况下,使用 KL 惩罚会减少响应与步骤 1 中训练的 SFT 模型输出之间的距离,以避免过度优化奖励模型和与人类意图数据集的偏差太大。利用价值函数计算优势函数,它表示期望回报和当前回报之间的差值,使用优势函数通过比较当前策略所采取的动作与先前策略的本应采取的动作来更新策略,PPO能够根据动作的估计值对策略进行更明智的更新。为了克服上述问题,利用人工标记创建一个更大的数据集,这个速度缓慢而代价昂贵的过程,采用一个新的策略,为人工标记的SFT模型输出创建一个奖励模型——在下面的内容中进行更详细的解释。
2024-01-12 08:07:37 1122
原创 RAG 详解
在结构上,它更加自由和灵活,引入了更具体的功能模块,如查询搜索引擎和多个答案的融合。随着研究人员对大型语言模型 (LLM) 功能的深入研究,重点转向增强其可控性和推理能力,以跟上不断增长的需求。GPT-4 的出现标志着一个重要的里程碑,它以一种新颖的方法彻底改变了 RAG,该方法将其与。在评估框架方面,有RGB、RECALL等基准测试,也有RAGAS、ARES、TruLens等自动化评估工具,有助于全面衡量RAG模型的性能。一方面,这可以增强单一模态内的任务,另一方面,它可以通过RAG的思想融合多模态。
2024-01-11 13:34:35 1088
原创 NLP(十八):LLM 的推理优化技术纵览
目录收起一、子图融合(subgraph fusion)二、模型压缩(Model Compression)2.1 稀疏(Sparsity)2.2 量化(Quantization)2.3 蒸馏(Distillation)三、并行化(Parallelism)3.1 数据并行 (Data Parallelism, DP)3.2 张量并行(Tensor Parallelism, TP)3.3 流水线并行(Pipeline Parallelism, PP)四、Transformer 结构优化。
2024-01-11 09:16:38 1190
原创 GPT function calling v2
其中还包括有生成可重复性,tokens管理和参数调节等较为细节的更新,而本文则着重于function calling或者说tools calling这一功能的介绍。OpenAI GPT的function calling很强大,但其闭源的特性或许是很多开发者或者是企业不太喜欢的,大家都喜欢自己可以掌握和完全可控的工具。所以基于开源模型的开源function calling其实已经逐步发展,我认为一个很好的例子就是chatGLM3,其API的调用就包含了function calling。
2024-01-11 07:18:44 1170
原创 极少数据就能微调大模型,一文详解LoRA等方法的运作原理
A的输入维度和B的输出维度分别与原始模型的输入输出维度相同,而A的输出维度和B的输入维度是一个远小于原始模型输入输出维度的值,这也就是low-rank的体现(有点类似Resnet的结构),这样做就可以极大地减少待训练的参数了。对于大模型而言,进行本征维度的测试就能知道在解决某一类下游问题时,需要调整多少参数就能近似的解决当前的问题。而当训练好新的参数后,利用重参的方式,将新参数和老的模型参数合并,这样既能在新任务上到达fine-tune整个模型的效果,又不会在推断的时候增加推断的耗时。
2024-01-10 18:57:53 939
原创 Mistral AI发布首个开源MoE模型,魔搭社区推理微调最佳实践来啦!
继Mistral 7B 后,Mistral AI 近日又放出一记大招——发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B,在 Apache 2.0 许可证下可商用。一款混合专家模型(),由8个拥有70亿参数的专家网络组成,这种结构不仅提高了模型处理信息的效率,还降低了运行成本。
2024-01-07 12:40:28 1294
原创 RLHF几大常用框架实践对比(trlx、deepspeedchat、colossalaichat)
目录收起一、RLHF的作用二、实践效果三、怎么做1、框架2、算法3、数据4、调参。
2024-01-05 22:38:15 984
原创 详解Med-PaLM 2,基于PaLM 2的专家级医疗问答大语言模型
最近的人工智能(AI)系统在围棋到蛋白质折叠等“大难题”中达到里程碑。与医生相当地检索医学知识、推理和回答医疗问题的能力长期被视为这样的一个大难题。大型语言模型(LLM)催生了医疗问答的重大进步;Med PaLM是第一个超过美国医师执照考试(USMLE)样例问题“合格”分数的模型,在MedQA数据集上得分67.2%。不过,这项工作和其他类似的工作表明,和临床医生的答案相比,模型的答案仍有很大的提高空间。
2023-12-31 20:01:06 1322
原创 微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全
这篇文章深入研究了GPT-4V的用法、基本功能,用较大篇幅介绍了GPT-4V在遵循文字说明、视觉指向和视觉参考提示、视觉+文本提示等方面展示出的强大潜力。下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。
2023-12-23 12:48:00 1058
原创 再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」
在这种情况下,AnyDoor 仍然获得了比 Graphit 更高的速率,并且获得了与 Paint-by-Example 有竞争力的结果,这验证了本文方法的有效性。虽然生成保真度有了显著提高,但生成的结果与给定的目标过于相似,缺乏多样性。为此,作者设计了一个表示对象的高频图,它可以保持精细的细节,同时允许灵活的局部变体,如手势、照明、方向等。因此,作者选择了 DINO-V2 作为 ID 提取器的底座,使用单个线性层将 ID 提取器的 token 对齐到预训练的文本到图像的 UNet 中。
2023-12-22 21:30:32 934
原创 comfyUI + animateDiff video2video AI视频生成工作流介绍及实例
最近一段时间,使用stable diffusion + animateDiff生成视频非常热门,但普通用户想要在自己电脑上成功生成一段视频并不容易。本文将介绍如何加载comfyUI + animateDiff的工作流,并生成相关的视频。设置视频工作环境生成第一个视频进一步生成更多视频注意事项介绍comfyUI是一个节点式和流式的灵活的自定义工作流的AI画图软件。
2023-12-20 20:09:02 2326
原创 SQL (关系型) 数据库-fastapi集成
¶在这个例子中,我们正在“连接”到一个 SQLite 数据库(用 SQLite 数据库打开一个文件)。该文件将位于文件中的同一目录中sql_app.db。这就是为什么最后一部分是如果您使用的是PostgreSQL数据库,则只需取消注释该行:...并根据您的数据库数据和相关凭据(也适用于 MySQL、MariaDB 或任何其他)对其进行调整。Tip如果您想使用不同的数据库,这是就是您必须修改的地方。
2023-12-16 21:12:55 955
原创 ChatGPT在指尖跳舞: open-interpreter实现本地数据采集、处理一条龙
本文介绍的 open-interpreter 在一定程度上解决了 GPT 模型不能联网的问题,本地运行的特点让它可以操作本地文件,代码确认功能则保证了安全性问题,是一个很好的 LLM 拓展应用。当然,介于篇幅问题,本文没有面面俱到地展示 open-interpreter 的所有功能,有兴趣的读者可以参考作者 KillianLucas 贴在 Github 项目页中的。此外,出于安全考虑,OpenAI 为这个解释器设置了严格的限制,使它不能访问网络,且只能使用。最终 AI 储存的 excel 内容如下图所示。
2023-12-16 13:06:21 1711
原创 盘一下最近爆火刷屏的3大AI视频项目 - 开始加速的未来
正常来说,你想做一个3维人物的动作,是需要绑骨骼、刷权重的,一堆恶心活。现在你直接拉个骨骼K个帧,渲一张人物的 T-pose静态图,AI一下,啪,完事了。阿里研究院上周四出的一个AI动画项目,一张人物静态图+一个骨骼动画,就能生成一段人物的动画。上周五的一个相当惊喜的项目,类似奇妙元、Heygen、D-ID,让“照片说话”的东西。不管是学术界的,还是产品界的,都像在人们的眼光聚焦在AI视频上时,来推出自己的东西。
2023-12-06 16:56:08 1168
原创 Stable Diffusion教程:4000字说清楚图生图
通过以上演示,我们可以看到,图生图能够参考原图,再依据我们的指令生成新图。Stable Diffusion基础:精准控制之ControlNet。
2023-12-05 07:53:04 1158
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人