- 博客(1460)
- 收藏
- 关注
原创 如何开始定制你自己的大型语言模型
虽然深度学习的感念抽象的,并且数学的原理学习起来非常的复杂,但是已经有现成的库、方法和框架,将这些概念汇总和抽象出来,我们只要会一些python的开发就可以直接拿来使用。如果你想深入的学习,也可以从最顶层最抽象的部分开始,然后往下一步一步进行学习,这样就不会因为底层的概念太过复杂而放弃。当然最后所有的基础是你需要有一块能够工作的GPU。作者:Jesse Nerio。
2024-03-28 10:59:36 3366
原创 Chronos: 将时间序列作为一种语言进行学习
这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。Chronos是一个对时间序列数据的概率模型进行预训练的框架,它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表,并在通过高斯过程创建的公共和合成数据集上进行训练。Chronos模型的参数范围从20M到710M不等,在已知数据集上优于传统和深度学习模型,在新数据集上表现出具有竞争力的零样本性能。
2024-03-27 10:49:10 3749
原创 使用GaLore在本地GPU进行高效的LLM调优
GaLore可以节省VRAM,允许在消费级GPU上训练7B模型,但是速度较慢,比微调和LoRA的时间要长差不多两倍的时间。作者:Geronimo。
2024-03-25 09:46:35 4727 9
原创 8个常见的数据可视化错误以及如何避免它们
掌握数据可视化意味着将复杂的数据转化为令人信服的、真实的叙述。我们优先考虑每个图表的清晰度、准确性和洞察力,确保这些数据和图表可以为我们的决策提供准确的支持。正确的可视化不仅讲述了一个故事,而且还赋予了决策权力。
2024-03-24 10:03:15 3930
原创 BurstAttention:可对非常长的序列进行高效的分布式注意力计算
然后这些片段在设备之间循环,计算本地注意力得分,并将其汇总为全局注意力得分。提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。在他们的实验中,表明BurstAttention减少了40%的通信开销,并将8×A100 gpu上128K长度序列的训练速度提高了一倍。BurstAttention是一个创新的框架,它优化了跨设备的计算和通信,增强了内存使用,最小化了通信开销,提高了缓存效率。
2024-03-23 11:11:05 3429
原创 文生图的基石CLIP模型的发展综述
OpenAI的CLIP模型显著地改变了我们处理多模态数据的方式。但是CLIP只是一个开始。从预训练数据到训练方法和对比损失函数的细节,CLIP家族在过去几年中取得了令人难以置信的进步。ALIGN缩放噪声文本,K-LITE增强外部知识,OpenCLIP研究缩放定律,MetaCLIP优化数据管理,DFN增强数据质量。这些模型加深了我们对CLIP在多模态人工智能发展中的作用的理解,展示了在连接图像和文本方面的进步。作者:Jacob Marks, Ph.D。
2024-03-22 11:17:28 4730
原创 Moment:又一个开源的时间序列基础模型
论文的研究方法和设计在几个关键方面具有创新性。其中包括开发一套预训练时间序列模型的开源方法,创建“时间序列堆”以解决数据稀缺问题,多数据集预训练方法,以及在资源有限的情况下评估性能的基准框架。这些方法允许在各种时间序列分析任务(如预测、分类、异常检测和输入)之间有效地利用最小数据和特定于任务的微调。论文强调对时间序列数据进行大规模、多数据集的预训练,对隐含的时间序列特征(如趋势和频率)进行编码,并展示了这种方法的好处。
2024-03-21 10:04:48 3669
原创 多项式朴素贝叶斯分类器
多项分布是一种重要的概率分布,适用于描述多类别、多次试验的情况,是概率论和统计学中的基础之一。它表示实验可以有N个不同的输出,重复M次。可以把它看作投掷硬币的二项分布的概括,就像反复计算掷骰子的每面一样。多项式朴素贝叶斯分类器的总体思想与高斯朴素贝叶斯分类器非常相似,只是在拟合和预测计算上有所不同。为了学习每个类别的多项概率参数,可以简单地将训练集沿特征求和,并将结果除以该向量的和。这提供了对概率的估计。使用一个平滑的技巧可以处理在训练中未出现的特征。
2024-03-20 10:38:27 924
原创 在16G的GPU上微调Mixtral-8x7B
AQLM已经被PEFT和Transformers很好地支持。正如我们在本文中看到的,对AQLM模型进行微调既快速又节省内存。由于我只对几个训练步骤进行了微调,所以我没有使用基准测试来评估经过微调的适配器,但是查看在100个微调步骤之后所达到的困惑(或验证损失)是有很不错的。这种方法的一个缺点是,由于模型已经量子化了,所以不能合并微调的适配器。并且由于使用AQLM量化llm的成本非常高,因此AQLM模型并不是很多。作者:Benjamin Marie。
2024-03-19 09:31:51 3931 1
原创 2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。我们今天来总结一下2024年3月上半月份发表的最重要的论文,无论您是研究人员、从业者还是爱好者,本文都将提供有关计算机视觉中最先进的技术和工具重要信息。
2024-03-18 18:05:00 733
原创 时间序列预测的零样本学习是未来还是炒作:TimeGPT和TiDE的综合比较
在本文中,我们探讨了时间序列预测的最新创新之一——基础模型的发展。这些模型的目标是为缺乏内部开发SOTA模型所需的专业知识的组织提供对算法的使用。这种方式很有希望,但我们验证结果表明,它仍然无法提供准确的预测,也就是说目前来TimeGPT作为基础模型还是不够好。另外还需要说明的是这里为了简单对比所以我们没有进行人工的特征工程和使用XGB等提升树的模型进行计算。
2024-03-17 10:55:50 4900 9
原创 微调大型语言模型进行命名实体识别
自回归模型(像大多数llm一样)被训练来正确预测“下一个令牌”。给定我们刚刚创建的训练数据样本和微调训练设置,模型将学习预测文本所有部分的下一个标记,即任务描述、实体列表、样本示例、会话历史中硬编码的模型思维链等。这将使模型除了学习预测正确的结果外,还学习任务描述中的令牌分布。这使得我们的学习任务有点繁琐。我们对LLM进行微调的主要目标是为给定的输入字符串生成结构良好且正确的检测。因此,我们应该只计算输出字符串中令牌的损失。所以在我们的示例训练数据中,模型应该只计算以下令牌的损失Hi!
2024-03-17 10:51:46 878
原创 LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA
LoRA及其相关方法的研究领域是一个非常活跃的研究领域,每天都有新的贡献。本文解释一些方法的核心思想。如果你对这些方法感兴趣请查看论文:作者:Dorian Drost。
2024-03-15 11:46:19 4664 4
原创 MADQN:多代理合作强化学习
虽然MADQN的所有3种方法都是有效的模型,但它们在多代理合作方面的性能有所不同。CTDE MADQN比其他2个MADQN模型显示出更好的结果,这可能是因为通过集中训练,模型从所有4个代理的经验中学习。对于iMADQN,虽然每个代理都知道另一个代理的活动,但每个代理在训练中可能没有利用合作知识。每个代理可能表现得更“自私”。而CTCE MADQN方法,训练过程可能会受到阻碍,因为在每个时间步,只有一组状态、动作和奖励元组被推入回放缓冲区,而CTDE MADQN实现则有4组。
2024-03-14 11:29:17 3723
原创 傅里叶变换算法和Python代码实现
最后,如果你对机器学习的基础计算和算法比较感兴趣,可以多多关注Numpy和SK-learn的文档(还有scipy但是这个更复杂),这两个库不仅有很多方法的实现,还有这些方法的详细解释,这对于我们学习是非常有帮助的。在 n 个不同且均匀间隔的点 xₘ = x₀ + m Δx 处对 x 进行采样,其中 m 的范围从 0 到 n-1,x₀ 是任意选择的最左侧点。这些积分进行数值计算是可行的,但通常是棘手的——特别是在更高维度上。例如本文的一些数学的公式和概念就是来自于Numpy的文档,有兴趣的可以直接看看。
2024-03-12 10:03:31 3702
原创 从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡
模型量化是深度学习领域一个重要的研究方向,它不仅可以帮助减小模型的存储和计算开销,还可以使得深度学习模型更容易在资源有限的设备上部署,推动了深度学习技术在边缘计算和物联网等领域的应用。但是目前4位的量化是目前研究的极限了,如果再缩小精度,会导致准确率大幅降低。但是1.58位llm的出现标志着人工智能技术发展又出现了一个新的方向。这些模型具有令人印象深刻的性能指标、更低的硬件要求,虽然这种方法还无法应用到现有的模型上,我想以后如果有什么方法能将其应用到现有的模型上那么对于人工智能来说将是一个巨大的飞跃。
2024-03-11 10:56:45 4475 1
原创 Nomic Embed:能够复现的SOTA开源嵌入模型
很高兴能够看到有关文本嵌入的最新论文,这篇论文也说明了在模型很小的情况下还是可以得到更好的测试结果,这对我们应用来说非常重要,另外就是现在嵌入的研究方向变为了动态维度表示,但是我个人认为目前这方面还可以有更大的发展。作者:Ritvik Rastogi。
2024-03-10 10:18:20 4326
原创 使用Tokeniser估算GPT和LLM服务的查询成本
Tokeniser包为开发人员提供了一种实用而有效的方法来估计GPT和LLM查询令牌数,这对于管理和预测使用成本至关重要。通过将简单的令牌计数合并到成本估算过程中,可以确保项目更有效的预算管理。作者:Eugene Evstafev。
2024-03-09 09:38:26 4617 3
原创 StarCoder 2:GitHub Copilot本地开源LLM替代方案
StarCoder2模型有三种不同大小可供选择,包括3B、7B和15B参数,并且支持广泛的编程语言。每个模型都是在The Stack v2上进行训练的,这是当前最广泛的用于LLM预训练的开源代码数据集。3B(由ServiceNow提供)、7B(由Hugging Face提供)和15B参数版本(由NVIDIA使用NVIDIA NeMo)所有模型使用分组查询注意力(Grouped Query Attention)上下文窗口为16,384个标记,滑动窗口注意力为4,096个标记。
2024-03-08 10:49:19 5240 4
原创 LLM 加速技巧:Muti Query Attention
MQA是在2019年提出的,当时的应用还没有那么广泛。这是因为以前的模型不需要关心这些方面,例如,LSTM只需要维护一个状态,而不需要保留任何缓存。当transformer最初被提出时,它主要用于Seq2Seq任务,特别是在Encoder-Decoder模型中。由于模型的规模不是很大,也并且没有太多的实际需求,所以MQA并没有引起太多的关注。直到近年来(尤其是2023年开始)基于transformer的大型语言模型(如GPT)得到广泛应用后,推理的瓶颈才被人们重视。
2024-03-07 09:39:47 4270 7
原创 RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models是一个非常有意思的研究,想想Transformer 就是17年google发布的,现在又看是研究回状态空间和循环了,也许这个方向是LLM的下一个突破也不一定,有兴趣的可以多关注下。代码目前我们看到,看看有什么后续吧作者:Andrew Lukyanenko。
2024-03-06 10:42:39 4186
原创 使用纹理对比度检测检测AI生成的图像
论文的结果已经达到了92%的验证精度,并且据说如果训练的更多还会有更好的结果,这是一个非常有意思的研究,我还找到了训练的代码,有兴趣的可以深入研究:作者:Hriday Keswani。
2024-03-05 10:22:08 4725 6
原创 Vision Transformers的注意力层概念解释和代码实现
在这篇文章中我们完成了ViT中注意力层。为了更详细的说明我们进行了手动的代码编写,如果要实际的应用,可以使用PyTorch中的torch.nn. multiheadeattention(),因为他的实现要快的多。最后参考文章:作者:Skylar Jean Callis。
2024-03-04 10:30:00 4175
原创 使用TensorRT-LLM进行生产环境的部署指南
在这篇文章中,我们演示了如何使用TensorRT LLM实现模型加速推理,文章内容涵盖了从编译LLM到在生产中部署模型的所有内容。虽然TensorRT LLM比其他推理优化器更复杂,但性能提高也是非常明显。虽然该框架仍处于早期阶段,但是可以提供目前最先进的LLM优化。并且它是完全开源的可以商业化,我相信TensorRT LLM以后还会有更大的发展,因为毕竟是NVIDIA自己的产品.作者:Het Trivedi。
2024-03-03 09:54:26 4259 2
原创 Pytorch中张量的高级选择操作
为了总结这篇文章,我们在一个表格中总结了这些函数之间的区别——包含简短的描述和示例形状。样本形状是针对前面提到的3D ML示例量身定制的,并将列出索引张量的必要形状,以及由此产生的输出形状:当你想要从一个张量中按照索引选取子集时可以使用,它通常用于在给定维度上选择元素。适用于较为简单的索引选取操作。适用于根据索引从输入张量中收集元素并形成新张量的情况。可以根据需要在不同维度上进行收集操作。torch.take适用于一维索引,从输入张量中取出对应索引位置的元素。当只需要按照一维索引取值时,非常方便。
2024-03-02 13:50:29 1067 1
原创 可视化FAISS矢量空间并调整RAG参数提高结果精度
检索增强生成(RAG)允许我们利用大型语言模型的能力,即使LLM没有对内部文档进行训练也能得到很好的结果。RAG涉及从矢量库中检索许多相关文档块,然后LLM将其用作生成的上下文。因此嵌入的质量将在RAG性能中发挥重要作用。在本文中,我们演示并可视化了几个关键矢量化参数对LLM整体性能的影响。并使用renumics-spotlight,展示了如何表示整个FAISS向量空间,然后将嵌入可视化。Spotlight直观的用户界面可以帮助我们根据问题探索向量空间,从而更好地理解LLM的反应。
2024-03-01 10:13:25 3899
原创 谷歌Gemma介绍、微调、量化和推理
许多框架已经很好地支持Gemma模型,GPTQ和AWQ的量化也将很快就会发布的,经过量化后可以在8gb GPU上使用Gemma 7B。不可否认发布Gemma模型是谷歌前进的一步。Gemma 7B看起来是Mistral 7B的一个很好的竞争对手,但我们不要忘记它也比Mistral 7B多10亿个参数。另外我一直没想明白Gemma 2B的用例是什么,它的性能被其他类似尺寸的模型超越了(这个2B可能就真是2B了),并且可以看到谷歌这俩模型参数少的性能不行,性能好的参数又多很多。
2024-02-29 10:39:20 4998
原创 PyTimeTK: 一个简单有效的时间序列分析库
pytimmetk是一个功能强大的工具包,它简化了时间序列分析的过程,整合了时间序列分析需要的一般和复杂的函数,我们直接拿来就可以使用,并且这个库是刚刚发布不久,有兴趣的话可以关注它的近期发展。作者:Ravi M。
2024-02-27 09:33:51 3605
原创 选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
让我们首先从生成自定义数据的问答(Q/ A)数据集开始,生成自定义数据集的好处可以通过确保数据集不是嵌入模型训练的一部分来避免偏差,这可能发生在MTEB等参考基准上。并且我们可以将评估调整为特定的数据语料库,这可能与检索增强应用程序(RAG)等情况相关。我们将使用Llama Index在其文档中建议的简单流程。语料库首先被分成块。
2024-02-26 10:04:36 4922 7
原创 PHATGOOSE:使用LoRA Experts创建低成本混合专家模型实现零样本泛化
但是目前有一个最大的问题就是它们的代码只针对T5这个模型,作者也在论文中提出了将在后续的工作中将这个方法与现有的LLM进行整合,所以目前我们还是只能使用T5来进行测试。论文提出了一种很有前途的方法,将独立训练的专家模型以分散的方式组合在一起,提高零样本泛化能力,这是一个非常有意思的研究方向,并且提供了源代码,所以推荐仔细阅读。使用PHATGOOSE可以实现更加灵活的模型开发,使用同一个基础模型,针对不同的任务训练专家,并且只共享专家参数,然后将模型自动组合提高泛化能力。
2024-02-25 20:12:23 569
原创 20个改善编码的Python异常处理技巧,让你的代码更高效
创建自定义异常可以使代码更具可读性和可维护性,可以清楚地表示特定的错误条件。passtry:print(e)可以通过覆盖__str__和__repr__方法来演示自定义异常,获得更多信息丰富的错误消息。Python异常可以极大地增强代码的健壮性和清晰度。本文整理的20个异常处理代码示例可以帮助你充分利用Python的错误处理能力,显著改善代码的异常处理能力。作者:Ravi M。
2024-02-24 10:13:58 4332
原创 Mamba详细介绍和RNN、Transformer的架构可视化对比
看完这篇文章,我希望你能对Mamba 和状态空间模型有一定的了解,最后我们以作者的发现为结尾:作者发现模型与相同尺寸的Transformer模型的性能相当,有时甚至超过了它们!作者:Maarten Grootendorst。
2024-02-23 10:41:35 5722 3
原创 LiRank: LinkedIn在2月新发布的大规模在线排名模型
这是一篇非常好的论文,不仅介绍了模型的细节,还介绍了LinkedIn是如何在线上部署训练和管理模型、处理大量数据的,这些经验都值得我们学习。为什么LinkedIn会一直关注排名模型?LinkedIn是一个面向职业人士的社交网络平台也就是说它的用户比FB更加专业,更加集中。这样对于数据方面是有天然的优势的。另外LinkedIn的业务也比较单一,所以使用AI来改善业务需求也比FB等大型公司要大的多,并且效果也非常好评估,所以LinkedIn的这篇文章非常值得我们去深入的研究和学习。
2024-02-22 11:02:07 3693
原创 深度学习在时间序列预测的总结和未来方向分析
在2023年,我们看到了Transformers 在时间序列预测中的一些持续改进,以及llm和多模态学习的新方法。随着2024年的进展,我们将继续看到在时间序列中使用Transformers 架构的进步和改进。可能会看到在多模态时间序列预测和分类领域的进一步发展。作者:Isaac Godfried。
2024-02-21 11:18:47 5954 9
原创 视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。在这篇文章中,我们将整理视频生成在最近几年是发展概况,模型的架构是如何发展的,以及现在面临的突出问题。我们以时间轴看作是一个观察视频生成模型演变的旅程。这将帮助我们理解为什么模型是这样设计的,并为未来的研究和应用工作提供见解。
2024-02-20 11:58:54 4746 1
原创 自然语言生成任务中的5种采样方法介绍和Pytorch代码实现
自然语言生成任务中,采样方法是非常重要的。选择合适的采样方法可以在一定程度上影响生成文本的质量、多样性和效率。上面介绍的几种采样方法各有特点,适用于不同的应用场景和需求。贪婪解码是一种简单直接的方法,适用于速度要求较高的情况,但可能导致生成文本缺乏多样性。束搜索通过保留多个候选序列来克服贪婪解码的局部最优问题,生成的文本质量更高,但计算开销较大。Top-K 采样和核采样可以控制生成文本的多样性,适用于需要平衡质量和多样性的场景。
2024-02-18 10:29:56 4657 5
原创 机器学习中7种常用的线性降维技术总结
线性降维技术是一类用于将高维数据集映射到低维空间的技术,其核心思想是通过线性变换来保留数据集的主要特征。这些线性降维技术在不同的应用场景中有其独特的优势和适用性,可以根据数据的性质和任务的要求选择合适的方法。例如,PCA适用于无监督的数据降维,而LDA适用于监督学习任务。结合前一篇文章,我们介绍了10种非线性降维技术核7种线性降维技术,下面我们来做个总结**线性降维技术:**基于线性变换将数据映射到低维空间,适用于线性可分的数据集;例如数据点分布在一个线性子空间上的情况;
2024-02-17 10:05:35 4361 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人