镰刀韭菜-CSDN博客

原创【NLP】大语言模型基础之Transformer结构

在Transformer之前，循环神经网络（RNN）和长短时记忆网络（LSTM）等序列模型是处理自然语言数据的主流选择。然而，这些模型存在一些问题，例如难以并行化处理、难以捕捉长距离依赖关系等。Transformer的提出旨在解决这些问题，并通过引入自注意力机制（Self-Attention）实现更高效的序列建模。从2020年OpenAI发布GPT-3开始，对大语言模型的研究逐渐深入，虽然大语言模型的参数量巨大，通过有监督微调和强化学习能够完成非常多的人物，但是其理论基础仍然是Transformer结构。因

2024-04-14 20:28:39 749

原创【AutoML】一个用于图像、文本、时间序列和表格数据的AutoML

AutoGluon快速原型制作：用几行代码在原始数据上构建机器学习解决方案。最先进的技术：无需专业知识即可自动利用SOTA模型。易于部署：从实验到生产云预测因子和预建装容器。可自定义：可扩展使用自定义功能处理，模型和指标。

2024-03-26 23:08:12 875

原创【时序分析】TimeGPT：首个时间序列分析基础大模型

从论文来看，研究者向我们展示了TimeGPT作为一种新型基础模型在时间序列预测领域的潜力和优势。通过克服当前数据集和模型架构的限制，TimeGPT有望推动时间序列分析的进一步发展，并改进现有预测方法的准确性和效率。

2023-12-20 15:45:41 1362

原创【机器学习】5分钟掌握机器学习算法线上部署方法

本文介绍业务模型的上线流程。首先在训练模型的工具上，一般三个模型训练工具，Spark、R、Python。这三种工具各有千秋。针对不同的模型使用场景，为了满足不同的线上应用的要求，会用不同的上线方法。

2023-12-17 08:00:00 1788

原创【Java】5分钟读懂Java虚拟机架构

本文阐述了JVM的构成和组件。每个Java开发人员都知道字节码经由JRE（Java运行时环境）执行。但他们或许不知道JRE其实是由Java虚拟机（JVM）实现，JVM分析字节码，解释并执行它。作为开发人员，了解JVM的架构是非常重要的，因为它使我们能够编写出更高效的代码。本文中将快速介绍Java中的JVM架构和JVM的各个组件。

2023-12-16 08:00:00 1024

原创【时序分析】使用skforecast进行时间序列预测并分享14个Python时间序列分析库

时间序列是一系列按照时间顺序排列的数据，这些数据之间的间隔可以是等距的，也可以是不等距的。 **时间序列的预测过程包括通过对时间序列的过去行为进行建模（自回归）或使用其他外部变量来预测时间序列的未来值**。

2023-12-14 10:50:30 967

原创【扩散模型】一文教你使用扩散模型生成音频

本文介绍源音频数据与频谱之间的转换方法，以及如何将音频数据转换为频谱所使用的生成器，然后微调一个指定曲风的音频扩散模型，最后将自己的管线上传到Hugging Face Hub。

2023-12-08 08:00:00 1023

原创【扩散模型】ControlNet从原理到实战

本文介绍了 ControlNet，这是一种端到端的神经网络架构，用于学习大型预训练文本到图像扩散模型（在我们的实现中为 Stable Diffusion）的条件控制。 **ControlNet 通过锁定大型预训练模型的参数并复制其编码层，保留了该大型模型的质量和能力。这种架构将大型预训练模型视为学习各种条件控制的强大主干网络。**可训练的副本和原始锁定的模型通过零卷积层连接，权重初始化为零，以便在训练过程中逐渐增长。这种架构确保在训练开始时不会向大型扩散模型的深层特征添加有害噪声，并保护可训练副本中的大型预

2023-12-07 23:45:00 1521 1

原创【扩散模型】DDIM从原理到实战

DDIM论文提出了一种使过程非马尔可夫的方法（如右图所示），允许跳过去噪过程中的步骤，而不需要在当前状态之前访问所有过去的状态。DDIM最好的部分是，它们可以在训练模型后应用，因此DDPM模型可以很容易地转换为DDIM，而无需重新训练新模型。

2023-11-27 23:45:00 2777 1

原创【可解释AI】Alibi explain: 解释机器学习模型的算法

可解释的人工智能，也称为模型可解释性，是指以人类观察者可以理解的格式阐明复杂、不透明的机器学习模型做出的预测背后的原因的技术（Molnar，2019）。解释预测的能力有助于建立对模型决策过程的信任，因此是强大的机器学习系统不可或缺的一部分（Bhatt 等人，2020；Klaise 等人，2020）。解释所提供的所需见解在很大程度上取决于解释的使用者，从调试模型的数据科学家到审核模型的监管机构。因此，需要多种方法来满足目标受众的需求（ICO，2019；

2023-11-12 21:28:06 478

原创【语言模型】快速了解大模型中的13个重要概念

近年来，随着深度学习的发展，一些预训练语言模型，如OpenAI的GPT（Generative Pre-trained Transformer）系列和Google的BERT（Bidirectional Encoder Representations from Transformers）等，采用了自回归的思想。DreamBooth是一种个性化训练一个文本到图像模型的方法，只需要提供一个主题的3~5张图像，就能教会模型有关这个主题的各种概念，从而在不同的场景和视图中生成这个主题的相关图像。这种模型的核心思想是，

2023-11-12 20:38:02 319

原创【扩散模型】万字长文全面理解与应用Stable Diffusion

Stable Diffusion是一个强大的文本条件隐式扩散模型（text-conditioned latent diffusion model），它具有根据文字描述生成精美图片的能力。它不仅是一个完全开源的模型（代码，数据，模型全部开源），而且是它的参数量只有`1B`左右，大部分人可以在普通的显卡上进行推理甚至精调模型。毫不夸张的说，Stable Diffusion的出现和开源对AIGC的火热和发展是有巨大推动作用的，因为它让更多的人能快地上手AI作画。本文将基于Hugging Face的diffuser

2023-11-11 20:22:05 1336

原创【扩散模型】实战：创建一个类别条件扩散模型

本文介绍一种给扩散模型添加额外条件信息的方法。具体地，将在MNIST数据集上训练一个以类别为条件的扩散模型。并且可以在推理阶段指定想要生成的是哪个数字。

2023-11-10 23:45:00 423 1

原创【LLMs】从大语言模型到表征再到知识图谱

2023年8月14日，张永峰等人的论文《Natural Language is All a Graph Needs》登上arXiv街头，轰动一时！本论文概述了一个名为InstructGLM的模型，该模型进一步证明了图表示学习的未来包括大型语言模型（LLM）和图神经网络（GNN）。它描述了一种单独使用指令调整来teach语言模型文本属性图（text-attributed graph, TAG）的结构和语义的方法。经过指令微调的Flan-T5和Llama-7b能够在多个基准上实现引用图的节点分类和链接预测任务的

2023-11-09 23:44:34 783

原创【AI工具】手把手带你使用Gradio分享你的模型

与他人共享机器学习模型、API或数据科学工作流程的最佳方法之一是创建一个交互式应用程序，允许用户或同事在浏览器中尝试演示。Gradio允许您构建演示并共享它们，所有这些都使用Python。通常只需几行代码！

2023-11-08 21:25:00 269

原创【计算系统】分布式训练：DDP单机多卡并行实战

分布式训练是一种模型训练范式，涉及在多个工作节点上分散训练工作量，从而显著提高训练速度和模型准确性。虽然分布式训练可以用于任何类型的ML模型训练，但将其用于大型模型和计算要求高的任务（如深度学习）是最有益的。

2023-11-07 20:31:13 858

原创【ChatGPT】ChatGPT的自定义指令

自定义指令允许您共享您希望ChatGPT在其响应中考虑的任何内容。您的指令将添加到今后的新对话中。此功能允许根据您的偏好自定义ChatGPT的响应，并且可以随时修改或删除以供将来的对话使用。是的当您删除您的OpenAI帐户时，作为该过程的一部分，与您的帐户绑定的自定义指令也将在30天内删除。如果您没有选择不使用您的内容来改善我们的服务，那么我们可能会取消识别聊天记录，并将其与您的帐户解除关联。是的是的，您的指令更新仅反映在未来的对话中。

2023-11-07 11:21:41 535

原创【操作系统】Cygwin和MinGW的区别与联系是怎样的？

Cygwin和MinGW都是为Windows系统开发者设计的工具。

2023-11-03 00:41:54 332

原创【计算系统】5分钟了解超算，高性能计算，并行计算，分布式计算，网格计算，集群计算以及云计算的区别

也就是常说的GPU运算，不同于CPU，GPU一般集成了上千个核心于一体，具备普通CPU无法比拟的浮点计算性能，因此非常适用于图像处理、虚拟现实和计算机仿真等一类科学领域的应用，近几年发展火热的人工智能、机器学习等技术应用背后也是依靠GPU运算在做支撑。当然，这个资源池越大，每个用户能够获得的资源就会越多，排队等待的时间也就越短，加上一些合理的编程优化，每个计算任务的耗时就会越短，以此加速科研进程。从效率上看，使用网格计算，可以将一个庞大而复杂的任务分解为多个子任务。还可以经济高效地访问云中的资源。

2023-11-01 23:45:00 3484 1

原创【扩散模型】理解扩散模型的微调(Fine-tuning)和引导(Guidance)

`微调`（Fine-tuning）指的是在预先训练好的模型上进行进一步训练，以适应特定任务或领域的过程。这个过程在机器学习和深度学习领域中常常被使用。**通过微调，可以使用先前在大规模数据集上训练好的模型来学习新数据的特定特征，以完成特定的任务**。微调的关键在于利用已经学到的通用特征，通过在特定任务数据集上进行少量训练，使模型适应新的任务。`引导`（Guidance）通常指的是**在某种领域或任务中，给予模型特定的指导、提示或信息，以帮助模型更好地学习和完成特定任务**。这可能包括提供额外的信息、特定

2023-10-31 21:03:38 713 1

原创【扩散模型】HuggingFace Diffusers实战

Diffusers是用于生成图像，音频甚至分子3D结构的最先进的扩散模型的首选库。无论是寻找简单的推理解决方案还是训练自己的扩散模型，Diffusers都是一个支持两者的模块化工具箱。该library 的设计侧重于性能，简单的简单性和对抽象的可定制性。

2023-10-28 23:45:00 1119

原创【扩散模型】手把手从零构建扩散模型

为了更好的理解扩散模型，我们尝试从零开始搭建它。从一个简单的扩散模型开始，理解其不同部分的工作院里，并对比它们与更复杂的结构之间的不同。首先，我们将回答四个问题：①什么是退化过程（如何向数据添加噪声？），②什么是UNet模型以及③如何从零开始实现一个简单的UNet模型，④如何进行扩散模型的训练以及相关的采样理论；然后，我们将介绍UNet模型的一种改进方法、以及当前流行的DDPM噪声特点、并给出训练目标的差异以及调节时间步和采样方法。

2023-10-26 23:45:00 436

原创【Tensorflow】TensorFlow2中提供的几种处理特征列的方法

TensorFlow 2 提供了多种处理特征列的方法，用于对数据进行转换，然后把转换后的数据传入TensorFlow的layers.DenseFeatures层，并将该层作为神经网络的输入层。

2023-09-14 08:00:00 203

原创【AI理论学习】语言模型Performer：一种基于Transformer架构的通用注意力框架

Performer是一种用于高效处理自注意力机制（Self-Attention）的神经网络架构**。自注意力机制在许多自然语言处理和计算机视觉任务中取得了出色的成绩，但由于其计算复杂度与序列长度的平方成正比，因此在处理长序列时存在问题。为了解决这些问题，Google AI引入了Performer，这是一种**具有线性扩展性的Transformer架构，其注意机制具有线性扩展性**。该框架是通过`Fast Attention Via Positive Orthogonal Random Features`（*

2023-09-12 08:00:00 454

原创【日常笔记】使用Server过程中可能遇到的一些问题

使用Conda安装Tensorflow-GPU时，它会自动下载依赖项，比如最重要的CUDA和cuDNN等。如果正常执行成功，则返回当前可用的GPU编号。这里我们根据CUDA的版本，选择安装v1.13.0版PyTorch GPU版本。安装新的CUDA驱动的时候，需要查找当前GPU对应的驱动版本，可登录。参数指明了下载PyTorch的通道，优先级比国内镜像更高。注意：建议使用conda安装TensorFlow。可以选择最新版，或者是根据下方的链接选择旧版本。1）登录PyTorch官网，选择安装配置。

2023-09-10 08:00:00 215

原创【AI理论学习】语言模型：BERT的优化方法

BERT（Bidirectional Encoder Representations from Transformers）是一种自然语言处理中的预训练模型，具有强大的文本理解能力。但是BERT也存在一些缺点，主要体现在如下几个方面：1）训练方法与测试方法不一致。因训练时把输入序列的15%随机置换为MASK标记，但这个标记在测试或微调时是不存在的，因为会影响模型性能。2）对被置换的MASK标记，BERT的损失函数使用约等号，也就是假设那些被标记的词在给定非标记的词的条件下是独立的。但是这个假设并不是（总是

2023-09-08 23:00:00 217

原创【AI理论学习】语言模型：深入理解GPT-2计算掩码自注意力过程，了解GPT-3工作原理

GPT-2（Generative Pre-trained Transformer 2）和GPT-3（Generative Pre-trained Transformer 3）都是基于Transformer架构的自然语言处理模型，具有强大的文本生成能力。它们的核心是自注意力（self-attention）机制，尤其是GPT-3，该机制在计算上的规模更大。在GPT-2中，掩码自注意力的计算过程如下：首先，将输入文本的每个词嵌入到高维空间中，形成词嵌入向量。然后，通过多层的注意力头（attention hea

2023-09-06 23:00:00 208

原创【AI理论学习】语言模型：掌握BERT和GPT模型

ELMo模型可以根据上下文更新词的特征表示，实现了词向量由静态向动态的转变。但是由于ELMo依赖于双向语言模型的架构，导致其训练只能适用于小规模的语料库，计算效率并不高。为了解决这些问题，基于Transformer框架的BERT和GPT模型被提出来。

2023-09-04 23:00:00 562

原创【AI理论学习】语言模型：从Word Embedding到ELMo

本文主要介绍一种建立在LSTM基础上的ELMo预训练模型。2013年的Word2Vec及2014年的GloVe的工作中，每个词对应一个vector，对于多义词无能为力。ELMo的工作对于此，提出了一个较好的解决方案。不同于以往的一个词对应一个向量，是固定的。**在ELMo世界里，预训练好的模型不再只是向量对应关系，而是一个训练好的模型**。使用时，**将一句话或一段话输入模型，模型会根据上线文来推断每个词对应的词向量**。这样做之后明显的好处之一就是对于多义词，可以结合前后语境对多义词进行理解。比如appl

2023-09-03 23:00:00 765

原创【NLP】手把手使用PyTorch实现Transformer以及Transformer-XL

Google 2017年的论文 Attention is all you need 提出了Transformer模型，完全基于Attention mechanism，抛弃了传统的RNN和CNN。本文根据论文的结构图，手把手带你使用 PyTorch 实现这个Transformer模型以及Transformer-XL模型。

2023-08-31 22:00:00 6243 2

原创【AI理论学习】手把手利用PyTorch实现扩散模型DDPM

首先，定义一些在实现神经网络时将使用的辅助函数和类。重要的是，定义了一个残差模块，它将输入简单地添加到特定函数的输出中（换句话说，将残差连接添加到特定函数中）。return valreturn arr我们还为上采样和下采样操作定义了别名。# 不再有阶梯卷积或池forward diffusion process在TTT个时间步内逐渐将噪声从真实分布添加到图像中，这是根据发生的。最初的DDPM作者采用了我们将前向过程的方差设置为线性增加的常数 fromβ110−4β110−。

2023-08-12 13:58:54 811

原创【AI理论学习】手把手推导扩散模型：Diffusion Models（DDPM）

生成扩散模型DDPM如下图所示分为前向、逆向两个过程，它首先通过不断往原始清晰数据中添加噪声使其变成标准高斯噪声（前向过程），而后期望从标准高斯噪声中还原原始数据（逆向过程）。若能实现，那便可从已知的标准高斯分布中采样一个噪声数据，而后利用DDPM模型生成符合原始数据分布的新数据。Diffusion模型包含两个过程：数学符号：y∝xy\propto xy∝x：y正比于x，即y随着x增大而线性增大。条件概率：贝叶斯公式：p(A∣B)=p(B∣A)×p(A)p(B)p(A|B)=\frac{p(B|A)\

2023-08-10 21:41:32 710 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

The brief introduction of diffusion model and stable diffusion

转录调控中的非编码RNAs，以及肿瘤细胞中氨基酸代谢调控PPT

集成学习原理与应用介绍（随机森林）

桥区通航风险问题分析与案例研究

大数据项目之数据挖掘子系统设计

DOES ENFORCEMENT OF INTELLECTUAL PROPERTY RIGHTS MATTER?

Deep Facial Non-Rigid Multi-View Stereo

为旅游交通服务的电池充电桩

H3C全国网络技能大赛

校园网IP地址规划

空空如也