XianxinMao-CSDN博客

原创关键里程碑：自然语言处理的发展历程

自然语言处理（NLP）是计算机科学和人工智能的一个分支，致力于使计算机能够理解和处理人类语言。以下是NLP发展过程中的一些关键里程碑：

2024-04-18 14:18:25 437

原创聊天机器人意图构建与反馈收集

随着越来越多的企业投入到聊天机器人项目，如何管理日益复杂的聊天机器人成为行业的一个挑战。构建一个聊天机器人变得越来越容易，但项目中出现问题也变得越发普遍，特别是在意图(intent)架构不恰当时。

2024-04-10 10:05:04 390

原创 AI生产中的缓存策略：降低成本提升性能

大多数AI应用难以投入生产，主要障碍包括成本、性能和安全等。缓存策略在解决成本和性能问题上扮演了关键角色。

2024-03-24 17:40:18 265

从IBM的沃森赢得《危险边缘》比赛到开发出具备战略游戏能力的AlphaGo，再到GPT-3和DALL-E 2这样的文本和图像生成模型，AI不断打破新的地平线。当前，我们正迎来一个被称作“AI革命”的时代，涵盖了自然语言处理、计算机视觉等领域，同时在机器人控制、蛋白质建模等领域也取得了显著成就。人工智能的未来：通用人工智能（AGI）看似触手可及，但其实现与否依然充满未知。科学家们在激动人心的研究进展中不断探索，以期达到真正模拟人类理性和理解能力的AI。

2024-03-21 13:00:49 369

原创参数高效微调（PEFT）技术概览

在大型语言模型（LLMs）的世界里，参数量庞大，通常在70亿至700亿之间。这些模型的自监着训练成本高昂，对公司可能意味着高达1亿美元的支出。而对于资源相对有限的研究者和公司来说，如何以较低的成本改进这些模型成为了一个关键问题。参数效率微调（PEFT）技术因此应运而生，通过对模型的小部分进行精细调整，实现对特定任务的优化。

2024-03-18 09:52:35 409

原创如何通过生成式AI增强人类的创造力

生成式AI（人工智能），能创建新的文本、图像和视频内容，不仅仍有成为取代许多工作岗位的潜力，但其最大的机遇在于增强人类创造力，助力商业和政府克服创新民主化的挑战。MIT的Eric von Hippel自上世纪70年代以来，就开始研究和撰写用户对产品和服务的自主开发潜力，强调用户深度参与创新过程的重要性。

2024-03-17 22:26:59 408

原创 Answer.AI开启家用70亿参数模型训练新篇章

2024年3月6日，Answer.AI推出首个项目：一套开源系统，首次实现在家用台式机上，仅需两块标准游戏GPU（RTX 3090或4090），高效训练70亿大型语言模型。此系统结合了FSDP和QLoRA技术，由Answer.AI、Tim Dettmers（华盛顿大学）和Hugging Face的Titus von Koeller及Sourab Mangrulkar合作开发。此系统旨在帮助开源社区发布更优秀的模型。

2024-03-17 22:19:15 487

原创向量数据库：在数据世界划分新领域

向量数据库正成为数据管理领域的一个独特类别，这一趋势反映了过去十年SQL与NoSQL之争的历史演变。随着现代企业面对越来越复杂的数据环境，向量数据库以其专门的功能，处理高维度数据和语义搜索能力，显得尤为重要。

2024-03-17 21:55:27 419

原创如何在没有向量数据库的情况下使用知识图谱实现RAG

传统上，为大型语言模型（LLMs）提供长期记忆通常涉及到使用检索增强生成（RAG）解决方案，其中向量数据库作为长期记忆的存储机制。然而，我们是否能在没有向量数据库的情况下达到相同效果呢？本文探讨了通过自动生成的知识图谱作为LLMs长期记忆的骨干，无需向量数据库即可实现的方法。

2024-03-17 21:51:58 453

原创 LLaMA-2 简介：开源大型语言模型的新篇章

LLaMA-2 是一款领先的开源大型语言模型（LLM），其参数规模从 7 亿到 70 亿不等。与先前的版本相比，LLaMA-2 通过预训练更多数据、使用更长的上下文长度和采用优化快速推理的架构而脱颖而出。此外，LLaMA-2 在模型对齐过程中的重大投入，创建了优化用于对话应用的 LLAMA-2-Chat 模型，这些模型在某些领域几乎达到了顶尖专有 LLM（例如 ChatGPT 和 GPT-4）的质量。

2024-03-17 18:38:27 437

原创深入理解Transformer架构：从Seq2Seq到无监督预训练的演进

根据我的了解，最开始Transformer的架构为encoder+decoder，是用于处理Seq2Seq任务的，后来GPT系列只采用decoder-only架构专注于next toke prediction任务，在我的认识当中，这两者都可以归为next toke prediction任务形式，请问我的理解存在偏差吗?

2024-03-17 13:19:41 1175

原创 PPO：推动语言模型对齐的关键技术

最新的人工智能研究揭示，通过人类反馈的强化学习(RLHF)是训练大型语言模型(LLMs)的关键技术。尽管某些AI从业者因熟悉监督学习而回避使用RL，但RL技术其实并不复杂，并能显著提升LLM的性能。本文深入探讨了Proximal Policy Optimization (PPO)算法，它易于理解和使用，被OpenAI选为对InstructGPT进行RLHF的算法，并随着ChatGPT的普及而广为人知。

2024-03-17 13:15:54 527

原创 RLHF（Reinforcement Learning from Human Feedback）的故事：起源、动机、技术及现代应用

自2018年BERT模型的提出以来，AI研究领域见证了自动语言任务处理技术的快速发展。BERT结合了变压器架构、自监督预训练及监督式迁移学习的强大能力，改写了多个性能基准测试的记录。尽管BERT不适用于生成任务，T5模型证明了监督式迁移学习在此类任务中同样有效。然而，与今日如GPT-4这类大型语言模型（LLMs）的生成能力相比，这些模型相形见绌。

2024-03-17 12:51:18 498

原创深入探讨GPT系列与其他NLP架构的流行度差异及其应用解析

1、为什么现在GPT系列的decoder-only那么流行，而其它两者:encoder-only和encoder-decoder架构不流行了呢?2、我想知道encoder和decoder的区别是什么?3、那encoder-only架构能做什么？4、只使用decoder-only架构的原因是什么?

2024-03-16 16:51:49 1402 2

原创深入理解生成型大型语言模型：自监督预训练、细调与对齐过程及其应用

本文主要介绍了生成型大型语言模型（LLM）的预训练过程，特别是通过下一个令牌（token）预测的自监督学习方法，以及后续的细调（finetuning）和对齐（alignment）过程，目的是提高语言模型的性能和对用户意图的响应能力。此外，文章还讨论了大型预训练模型的计算成本、成功关键和后续的应用方案。

2024-03-16 16:30:03 748

原创 LlamaParse: 高效的PDF文件RAG解析工具

通过Thomas Reid的深入探索，LlamaParse成为了目前我所见最优秀的RAG实现用PDF解析器。基于AI的技术，尤其在处理像SEC Q10这样的复杂文件时表现出色，这些文件通常包含文本、数字及其组合构成的表格，对AI来说是一大挑战。LlamaParse是由LlamaIndex开发的API，特别适合解析和增强这类半结构化文档的检索能力，让之前难以回答的复杂问题变得可能。

2024-03-15 22:42:02 943

原创理解和解释ChatGPT：一种生成性大型语言模型的三部分框架

本文提供了对生成性大型语言模型（LLMs），尤其是ChatGPT的简明解释。重点在于三个关键组件：变压器架构、语言模型预训练和对齐过程。

2024-03-15 17:09:40 837

原创 Transformer革命:注意力才是序列转换所需要的全部

神经序列转换领域随着Transformer架构的引入而发生了革命性变化。Transformer代表了与以往基于复杂的循环或卷积神经网络架构的最先进方法的一个里程碑式的决裂。通过完全依赖一种创新的自注意力机制,Transformer在取得新的性能基准的同时,也获得了关键的优势。

2024-03-14 22:10:32 330

原创大脑和人工智能克服遗忘

在人类大脑和人工神经网络（ANN）中，遗忘是一个共通挑战。人类大脑通过声明性记忆与非声明性记忆，并通过睡眠中的记忆巩固，有效管理信息并克服遗忘。相比之下，ANN在学习新信息时常遭遇灾难性遗忘，丧失先前掌握任务的能力。为解决这一问题，研究人员寻求大脑启发的解决方案，包括网络重激活和连接权重重叠减少策略。

2024-03-14 18:13:02 347

原创微调大型语言模型（LLM）：应用案例示例

本文讨论了大型语言模型（LLM）的微调，这是一种通过少量数据训练已经预训练好的模型以执行特定任务的过程。微调可以让LLM在翻译、文本分类、文本生成等领域更加高效。本文还提供了微调的实践示例和代码，帮助读者理解并应用微调过程。

2024-03-14 18:07:25 719

原创人工智能与意识的探索

随着人工智能（AI）技术的迅猛发展，特别是大型语言模型（LLM）的卓越表现，探索AI是否能够拥有意识已经变得非常实际和迫切。传统上，意识一直是哲学家研究的主题，但近几十年来，随着科学方法的进步，神经科学家开始理论化人类大脑中意识的内在机制。

2024-03-14 17:28:36 366

原创 GPU性能优化与模型训练概览

为监控GPU内存使用，我们使用nvidia-ml-py3库。首先安装必要的库

2024-03-14 14:19:24 532

原创使用Autogen和本地LLM加速开发周期

Autogen是微软开发的框架，能够通过多代理系统的协作加速大型语言模型(LLM)应用程序的开发。此框架的关键优势在于自动化代码创造和任务执行，以显著提高软件开发速度，减少人为错误。新推出的OLLAMA版本支持OpenAI Chat Completions API，简化了将本地开源LLM集成到Autogen的过程。本文将介绍如何使用Autogen和OLLAMA，以及如何结合这些工具和yfinance库绘制Meta和微软过去一月股价图表的示例。

2024-03-14 14:13:31 444

原创 Mistral推出“大型”语言模型，GPT-4是否面临挑战？

Mistral公司，一个年轻的法国企业，推出了Mistral Large，这是其最新的大型语言模型（LLM）。公司成立于2023年4月，由前Meta和Google DeepMind的研究人员组成。Mistral Large是其旗舰产品，支持多达32K个令牌，多语言设计，并在法语、德语、西班牙语、意大利语以及英语方面表现出色。新模型与GPT-4进行了逻辑问题对比测试，但表现未达到GPT-4的水平。

2024-03-14 14:10:36 346

原创 Gradio: 快速原型设计工具，无需前端知识即可创建直观的机器学习模型Web界面

Gradio是一个开源Python库，用于无需JavaScript、CSS或Web托管经验，通过简单的Python代码快速构建机器学习模型、API或任何Python功能的动态演示或Web应用。它通过提供直观的框架简化了开发流程，使得机器学习开发者、研究人员和爱好者可以创建美观互动的演示，增强模型的理解和可接近性，让技术更接近广泛用户。

2024-03-14 14:04:57 413

原创 T5: 构建统一的语言建模框架

在过去几年里，自然语言处理（NLP）领域见证了转移学习的巨大突破。转移学习包括两个主要阶段：首先，我们在大量数据上预训练一个深度神经网络；然后，在更具体的下游数据集上对这个模型进行微调。这种方法特别适用于NLP，因为互联网上有大量的原始文本数据可供下载和预训练。BERT模型首次探索了这种大规模转移学习方法，通过使用掩码目标在无标签数据上预训练一个变换器编码器，然后在下游语言任务上进行微调，取得了新的最佳性能。

2024-03-14 12:44:49 421

原创 BERT：深度学习领域中的语言理解利器

BERT（双向编码器表示法自转换器）是一种领先的深度学习模型，它在许多语言理解任务中都显示出卓越的性能。BERT模型基于转换器编码器架构，并通过自监督学习在大量未标记文本数据上进行预训练，随后针对特定任务进行微调。这种预训练和微调的方法推动了BERT在11种语言理解任务上创下新的最佳成绩，从而迅速获得了广泛关注。

2024-03-14 11:19:23 555

原创训练专门化的大型语言模型（LLM）现在更简单了

近年来，大型语言模型（LLM）的兴趣激增，但其训练需要昂贵的硬件和高级技术。幸运的是，通过先进的微调技术，如低秩适配（LoRA），可以在不动用完整模型权重的情况下，仅通过调整少量特定任务的参数来有效地微调预训练的LLM，大大减少了内存开销和简化了部署过程。

2024-03-12 22:54:18 704

原创 RAG系统与LLM评判及合成数据集创建简介

RAG（检索增强生成）是一种内部查询工具，利用大型语言模型（LLM）从“知识”库中检索信息。与传统的LLM训练不同，RAG的成功依赖于LLM提取产品有用信息的能力，因此不能仅仅依据基准或语义进行评价。

2024-03-12 22:39:13 665

原创激活学习：使用较少数据训练神经网络

在监督式深度学习中，一个主要问题是标记训练数据的稀缺。激活学习通过选择最有价值的训练样本来减少所需标记数据量，从而节省时间和成本。

2024-03-12 18:14:15 563

原创生成用于目标检测任务的合成图像教程：使用Blender、Python和3D资产

缺少足够的训练数据是当前深度学习面临的一个主要问题。自动生成带有注释的合成图像是计算机视觉任务的一个有前途的解决方案。本文将首先概述合成图像数据的一些图像生成技术，然后生成一个无需手动注释的训练数据集，并使用它来训练一个Faster R-CNN目标检测模型。最后，我们将在真实图像上测试我们训练的模型。

2024-03-12 16:47:53 1127

原创 LoRA系列概览

LoRA（Low-Rank Adaptation，低秩适应）技术是现代训练大型语言模型（LLMs）的重要突破之一，能够高效地针对特定任务训练模型。本文旨在介绍LoRA的几种变体，包括LoRA+、VeRA、LoRA-FA、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA，这些变体以不同方式提升LoRA的能力，旨在提高性能或加快训练速度。

2024-03-12 10:02:21 412

原创 FuseLLM-LLMs知识融合

尽管大型语言模型（LLMs）的参数数量庞大，从数十亿到数万亿不等，但现有LLMs仍存在知识空白，限制了它们的能力。这激发了对增强LLMs外部知识和融合不同模型的技术的兴趣。

2024-03-11 13:58:44 340

原创 LLM Saturation与多模态AI的崛起

近年来，大型语言模型（LLM）在语言理解和生成能力上取得了显著进步，如GPT-4和LLaMA-2等。然而，我们可能正接近LLM范式的极限。本文探讨LLM性能天花板、局限性，以及多模态AI为何展现出前进的希望。

2024-03-11 11:55:46 419

原创提升工程效率与软件交付能力

在敏捷开发、DevOps实践和云基础设施的推动下，组织现在能够比以往任何时候都更快地构建和发布软件。尽管如此，随着交付速度的加快，衡量生产力和改进的难度也在增加。传统的度量指标，如代码行数或功能数量，已不再适用于追求速度和灵活性的环境中。新的生产力指标更注重商业价值而非输出量，包括周期时间、部署频率、恢复服务时间和更改失败率，这些指标能更清晰地展示一个工程组织的效能。

2024-03-11 11:37:20 348

原创开源人工智能的下一个大飞跃：小型化高性能语言模型挑战巨型模型

近期，大型语言模型迎来快速发展，但这些模型由于训练成本高昂，多为大型科技公司所垄断。开源社区因此投身研究小型化的高性能语言模型，目的是挑战或超越那些体量是其10至100倍的巨型模型。通过融合多个小型模型，可以产生的综合系统展现出强大、超乎各部分之和的表现。

2024-03-11 08:57:59 766

原创 RAG模型的挑战与解决方案概览

提取增强生成(RAG)模型通过利用存储在文档中的外部知识来提高生成文本的准确性和相关性，显示出巨大潜力。但这些模型面临着多个挑战，如低质量检索、覆盖率不足、上下文条件化困难、幻觉和制造问题、解释和可解释性缺失、安全和控制风险、推理速度慢、个性化和基础化困难、质量评估难题以及维护真实性问题。

2024-03-10 15:51:48 408

原创 Blueprint for Building Corrective RAG (CRAG)

修正型检索增强生成(CRAG)是自然语言处理中的一种新技术，旨在纠正生成文本中的事实不一致和错误。CRAG结合生成模型和检索模型的能力，产生更符合事实的输出。

2024-03-10 15:31:18 321

原创使用RAG与Fine-tune技术

在利用大型语言模型(LLMs)的潜力时，选择RAG（检索增强生成）和精调(fine-tuning)技术至关重要。本文探讨两种技术的适用场景，包括LLMs、不同规模的模型及预训练模型。

2024-03-10 13:20:38 559

原创 RLAIF在提升大型语言模型训练中的应用

大型语言模型（LLMs）在理解和生成自然语言方面展示了巨大能力，但仍面临输出不可靠、推理能力有限、缺乏一致性个性或价值观对齐等挑战。为解决这些问题，研究者开发了一种名为“来自AI反馈的强化学习”（RLAIF）的技术。RLAIF允许AI系统对自身行为和输出提供反馈，通过强化学习过程进行自我优化。这一方法为赋予LLMs有益行为、增加模型安全性和可靠性提供了新路径。

2024-03-09 22:29:34 509

R for Data Science

Neural Network Design (2nd Edition)

空空如也