盼小辉丶-CSDN博客

原创 AIGC实战——VQ-GAN(Vector Quantized Generative Adversarial Network)

在 VQ-GAN 模型中，将几种不同类型的生成模型进行有效地组合，VQ-GAN 通过额外的对抗损失项鼓励 VAE 生成更清晰的图像。使用自回归T ransformer 构建了一系列能够由 VAE 解码器解码的编码符号。ViT VQ-GAN 进一步扩展了这一思想，将 VQ-GAN 的卷积编码器和解码器替换为 Transformers。

2024-04-17 08:04:26 5671 44

原创图神经网络实战——利用节点回归预测网络流量

在机器学习中，回归指的是对连续值的预测。通常与分类形成鲜明对比，分类的目标是找到正确的类别(即离散值，而非连续值)。在图数据中，分类和回归分别对应于节点分类和节点回归。在本节中，我们将尝试预测每个节点的连续值，而非分类变量。

2024-04-15 07:26:53 1752 31

原创 AIGC实战——StyleGAN(Style-Based Generative Adversarial Network)

StyleGAN (Style-Based Generative Adversarial Network) 是于 2018 年提出的一种生成对抗网络 (Generative Adversarial Network, GAN) 架构，该架构建立在 ProGAN 基础之上。实际上，StyleGAN 与 ProGAN 的判别器是相同的，只有生成器发生了变化。本节中，我们将介绍 StyleGAN 架构。

2024-04-10 07:32:48 4539 57

原创 AIGC实战——ProGAN(Progressive Growing Generative Adversarial Network)

我们已经学习了使用生成对抗网络 (Generative Adversarial Network, GAN) 解决各种图像生成任务。GAN 的模型架构和训练过程具有很高的灵活性，通过改进 GAN 架构设计和训练过程，研究人员提出了多种不同的网络架构，本节中，我们将介绍 ProGAN (Progressive Growing Generative Adversarial Network) 架构。

2024-04-07 09:02:04 1995 48

原创图神经网络实战（7）——图卷积网络(Graph Convolutional Network, GCN)详解与实现

图卷积网络 (Graph Convolutional Network, GCN) 架构由 Kipf 和 Welling 于 2017 年提出，其理念是创建一种适用于图的高效卷积神经网络。在本节中，我们将讨论 Vanilla GNN 架构的局限性，并详细介绍 GCN 的工作原理，通过使用 PyTorch Geometric 在 Cora 和 Facebook Page-Page 数据集上实现 GCN 来验证其性能。

2024-04-03 07:24:39 2268 40

原创 PyTorch深度学习实战（40）——零样本学习(Zero-Shot Learning)

零样本学习 (Zero-Shot Learning) 旨在解决传统监督学习中，当训练数据中不存在某个类别的样本时，如何对该类别进行分类的问题。在传统监督学习中，分类模型需要通过训练数据学习到每个类别的特征和模式，并在测试阶段根据这些学习到的知识对新样本进行分类。然而，在现实世界中，我们无法获得所有可能类别的训练样本，因此零样本学习成为了一种重要的解决方案。在本节中，我们将学习零样本学习的基本概念，并使用 PyTorch 实现零样本学习模型。

2024-04-01 08:18:26 1497 33

原创图神经网络实战（6）——使用PyTorch构建图神经网络

图数据集通常比简单的连接集合更加丰富，因为节点和边可以具有表示分数、颜色、单词等特征。包含这些额外信息在输入数据中对于生成最佳嵌入至关重要。在本节中，我们将使用 Cora 和 Facebook Page-Page 数据集，首先将它们视为表格数据集，观察香草神经网络在节点特征上的表现如何。然后，尝试在神经网络中加入拓扑信息，实现图神经网络 (Graph Neural Networks, GNN) 架构：一个同时考虑节点特征和边的简单模型。最后，我们将比较两种架构的性能。

2024-03-28 07:14:54 2564 59

原创 AIGC实战——Transformer模型

GPT 模型是一个解码器 Transformer，它逐字符地生成文本字符串，并使用因果掩码只关注输入字符串中的前一个单词。另一些编码器 Transformer，不使用因果掩码，而是关注整个输入字符串以提取有意义的上下文表示。对于一些其他任务，如语言翻译，可以使用编码器-解码器 Transformer，将一个文本字符串翻译为另一个文本字符串，这类模型包含编码器 Transformer 块和解码器 Transformer 块。

2024-03-25 07:18:27 2777 51

原创图神经网络实战（5）——常用图数据集

Cora 和 Facebook Page-Page 是图神经网络领域中经常使用的两个基准图数据集，通常用来比较不同模型的性能。在本节中，介绍了如何使用 PyTorch Geometric 库提供的数据集类加载 Cora 和 Facebook Page-Page 数据集，并探索了两个数据集的主要特征。

2024-03-20 07:46:53 1829 92

原创 PyTorch深度学习实战（39）——小样本学习(Few-shot Learning)

小样本学习 (Few-shot Learning) 旨在解决在训练集中只有很少样本的情况下进行分类和推理的问题。在小样本学习中，我们希望通过利用已有的少量样本和先验知识来进行泛化，以便在面对新的、未见过的类别时能够做出准确的预测。这就要求模型能够从有限的训练样本中提取出有用的信息，并能够将这些信息应用到新类别的样本中去。在本节中，将介绍孪生、原型和关系网络的原理，并使用 PyTorch 实现孪生网络。

2024-03-18 08:25:58 1351 66

原创图神经网络实战——基于Node2Vec的电影推荐系统

在电影推荐系统中，可以将每部电影视为一个节点，而节点之间的连接则表示电影之间的关联或相似性。Node2Vec 算法可以在电影图谱上学习出每部电影的向量表示，这些向量可以捕获电影之间的隐含关系，例如共同的演员、导演、类型等等。一旦得到了电影的向量表示，就可以使用这些表示来计算电影之间的相似度，并基于相似度来进行推荐。通过将用户喜欢的电影与其向量表示进行比较，系统可以推荐与之相似的其他电影。在本节中，构建基于 Node2Vec 的电影推荐系统。

2024-03-14 08:01:54 928 71

原创 AIGC实战——GPT(Generative Pre-trained Transformer)

注意力机制能够用于构建先进的文本生成模型，Transformer 是用于序列建模的强大神经网络，该神经网络不需要复杂的循环或卷积架构，而只依赖于注意力机制。这种方法克服了循环神经网络难以并行化的缺陷。Transformers 高度可并行化运算，能够在大规模数据集上进行训练。在本节中，我们将学习文本生成模型如何利用 Transformer 架构提高文本性能，并介绍自回归模型 GPT (Generative Pre-Trained transformer)。

2024-03-11 08:23:04 2777 136

原创图神经网络实战（4）——基于Node2Vec改进嵌入质量

Node2Vec 是一种基于 DeepWalk 的架构，DeepWalk 主要由随机游走和 Word2Vec 两个组件构成，Node2Vec 通过改进随机游走的生成方式改进嵌入质量。在本节中，我们将学习这些改进以及如何为给定的图找到最佳参数，实现 Node2Vec 架构，并将其与在 Zachary's Karate Club 数据集上使用的 DeepWalk 进行比较，以理解两种架构之间的差异。

2024-03-07 08:07:07 1753 94

原创 PyTorch深度学习实战（38）——StyleGAN详解与实现

StyleGAN 是生成对抗网络的变体，是一种无监督学习模型，用于生成逼真且高分辨率的图像。StyleGAN 能够生成非常高分辨率人脸图像的关键在于，在增加分辨率的步骤中逐步增加生成网络和判别网络的复杂性，以便在每一步中，两个模型都可以很好地完成任务。本节中，介绍了如何通过确保每个分辨率的特征由一个独立的输入(称为风格向量)来控制，从而操纵生成图像的风格，以及如何通过将图像之间的风格进行交换来操作不同图像的风格。

2024-03-05 07:17:29 2096 83

原创图神经网络实战（3）——基于DeepWalk创建节点表示

DeepWalk 是机器学习技术在图数据中的成功应用之一，其引入了嵌入等重要概念，这些概念是图神经网络的核心。在本节中，我们了解了 DeepWalk 架构及其主要组件。然后，使用随机游走将图数据转化为序列，并应用了 Word2Vec 算法，使用图的拓扑信息创建节点嵌入，得到的嵌入结果可用于发现节点间的相似性，或作为其他算法的输入。最后，我们使用监督方法解决了节点分类问题。

2024-03-03 09:48:12 1273 65

原创图神经网络实战（2）——图论基础

图论 (Graph theory) 是数学的一个基本分支，涉及对图研究。图是复杂数据结构的可视化表示，有助于理解不同实体之间的关系。图论提供了大量建模和分析现实问题的工具，如交通系统、社交网络和互联网等。在本节中，将介绍图论的基本原理，主要涉及三个方面：图属性、图概念和图算法。

2024-02-29 08:02:29 2711 103

原创 AIGC实战——扩散模型(Diffusion Model)

本节介绍了最近最先进的生成模型之一，扩散模型。介绍了去噪扩散概率模型 (Denoising Diffusion Probabilistic Model, DDPM)，并利用去噪扩散隐式模型 (Denoising Diffusion Implicit Model, DDIM) 的思想，使生成过程具备完全的确定性。扩散模型由前向扩散过程和逆扩散过程组成，前向扩散过程通过一系列小步骤向训练数据添加噪声，而逆扩散过程中模型的目标是预测添加的噪声。

2024-02-26 08:08:44 3609 120

原创 PyTorch深度学习实战（37）——CycleGAN详解与实现

CycleGAN 是一种用于无监督图像转换的深度学习模型，它通过两个生成器和两个判别器的组合来学习两个不同域之间的映射关系。CycleGAN 引入循环一致性损失，确保图像转换是可逆的，从而提高生成图像的质量。通过对抗训练和循环一致性损失，CycleGAN 可以实现在没有配对标签的情况下进行图像域转换。本节介绍了 CycleGAN 的基本原理，并实现该模型用于将苹果图像转换为橙子图像，或反之将橙子图像转换为苹果图像。

2024-02-22 07:24:03 2399 98

原创 AIGC实战——能量模型(Energy-Based Model)

能量模型 (Energy-based Model, EBM) 是一类常见的生成模型，其借鉴了物理系统建模的一个关键思想，即事件的概率可以用玻尔兹曼分布来表示。玻尔兹曼分布是一种将实值能量函数归一化到 0 和 1 之间的函数，该分布最早由 Ludwig Boltzmann 于 1868 年提出，用于描述处于热平衡状态的气体系统。在本节中，我们将利用这一思想来训练一个生成模型，用于生成 MNIST 手写数字的图像。

2024-02-18 07:26:02 3411 117

原创 PyTorch深度学习实战（26）——多对象实例分割

Detectron2 支持一系列与目标检测和人体姿态估计等相关的任务，此外，Detectron2 还增加了对语义分割和全景分割的支持。通过利用 Detectron2，我们能够通过使用少量代码构建目标检测、分割和姿态估计模型。在本节中，我们将介绍如何从 Google 开放图像数据集中获取数据，将数据转换为 Detectron2 可接受的 COCO 格式，并训练模型执行实例分割，最后，介绍如何使用训练后的模型对新图像进行推理。

2024-02-12 07:47:03 1277 51

原创 PyTorch深度学习实战（23）——从零开始实现SSD目标检测

SSD (Single Shot MultiBox Detector) 是一种基于单次前向传递的实时目标检测算法，它在速度和准确性之间取得了很好的平衡。SSD 的核心思想是在卷积神经网络的不同层级上设置多个特征图用于预测目标。这些特征图在空间上具有不同的尺度，可以检测不同大小的目标。每个特征图上的每个位置都预测一组边界框和对应的类别概率。在本节中，将介绍 SSD 的工作原理，然后在自定义数据集上训练 SSD 目标检测模型。

2024-02-08 07:42:15 1969 63

原创 AIGC实战——归一化流模型(Normalizing Flow Model)

归一化流模型是由神经网络定义的可逆函数，通过变量变换，直接对数据密度函数进行建模。在一般情况下，变量变换方程需要计算高度复杂的雅可比行列式，但这并不实际。为了解决这一问题，RealNVP 模型限制了神经网络的形式，使其满足两个基本条件：可逆性和易于计算的雅可比行列式。

2024-02-05 08:13:45 2381 88

原创 PyTorch深度学习实战（36）——Pix2Pix详解与实现

Pix2Pix 是基于生成对抗网络的图像转换框架，能够将输入图像转换为与之对应的输出图像，能够广泛用于图像到图像转换的任务，如风格转换、图像修复、语义标签到图像的转换等。Pix2Pix 的核心思想是通过对抗训练将输入图像和目标输出图像进行配对，使生成网络可以学习到输入图像到输出图像的映射关系。在本节中，将学习使用 Pix2Pix 根据给定轮廓生成图像。

2024-01-31 07:38:50 1616 108

原创 PyTorch深度学习实战（35）——条件生成对抗网络(Conditional Generative Adversarial Network, CGAN)

条件生成对抗网络通过整合条件信息和潜在空间噪声，能够根据特定的条件生成具有一定属性或风格的合成数据，为许多创造性和应用型任务提供了强大的工具和手段。本节中，介绍了条件生成对抗网络的基本原理，并利用 PyTorch 实现条件生成对抗网络生成指定性别的人脸图像。

2024-01-28 08:02:42 2105 89

原创 PyTorch深度学习实战（34）——DCGAN详解与实现

DCGAN 是优秀的图像生成模型，其生成网路和判别网络都是使用卷积层和反卷积层构建的深度神经网络。生成网络接收一个随机噪声向量作为输入，并通过逐渐减小的反卷积层将其逐渐转化为与训练数据相似的输出图像；判别网络则是一个用于分类真实和生成图像的卷积神经网络。在本节中，我们学习了如何构建并训练 DCGAN 生成人脸图像。

2024-01-25 08:45:42 1989 97

原创 PyTorch深度学习实战（33）——生成对抗网络(Generative Adversarial Network, GAN)

生成对抗网络 (Generative Adversarial Networks, GAN) 是一种由两个相互竞争的神经网络组成的深度学习模型，它由一个生成网络和一个判别网络组成，通过彼此之间的博弈来提高生成网络的性能。生成对抗网络使用神经网络生成与原始图像集非常相似的新图像，它在图像生成中应用广泛，且 GAN 的相关研究正在迅速发展，以生成与真实图像难以区分的逼真图像。在本节中，我们将学习 GAN 网络的原理并使用 PyTorch 实现 GAN。

2024-01-22 07:39:09 2392 104

原创 AIGC实战——像素卷积神经网络(PixelCNN)

在本节中，介绍了如何使用 PixelCNN 以自回归的方式生成图像，使用 Keras 构建 PixelCNN 模型，实现掩码卷积层和残差块，以便信息可以在网络中传递，只有前面的像素可以用于生成当前的像素。最后，使用 TensorFlow Probability 库提供的 PixelCNN 函数，该函数使用混合分布作为输出层，从而能够进一步改善学习过程。

2024-01-17 08:15:42 3133 132

原创 PyTorch深度学习实战（32）——Deepfakes

Deepfakes 可以用于创造出艺术作品和娱乐内容，能够将一个人的表演或特征应用到不同的情境中，为电影、视频和游戏等领域带来创新和丰富多样的体验。也可以为电影制片人和视觉特效团队提供了更加高效和经济的方式来实现人物替换和数字化特效。在本节中，我们介绍了 Deepfakes 的基本原理并进行实现。

2024-01-15 07:56:10 1440 95

原创 AIGC实战——改进循环神经网络

我们已经学习了如何训练长短期记忆网络 (Long Short-Term Memory Network, LSTM) 模型，以学习使用给定风格生成文本，接下来，我们将学习如何扩展此模型，已获得更加优异的文本生成效果。

2024-01-11 08:08:30 3590 111

原创探索文档图像大模型，提升智能文档处理性能

尽管多模态大模型技术在智能文档处理领域有着重要的作用，但它并没有完全解决该领域面临的问题。本文通过回顾丁凯博士在第十九届中国图象图形学学会青年科学家会议 - 垂直领域大模型论坛上的报告，介绍了 GPT-4V 在 IDP 领域的优异性能及其面临的挑战，然后介绍了合合信息在文档感知方面的研究进展，并分析了如何将文档识别分析与大语言模型融合，以进一步提高图像文档处理的性能。

2024-01-08 08:23:31 20528 200

原创 AIGC实战——自回归模型(Autoregressive Model)

自回归模型 (Autoregressive Model) 通过将生成问题视为一个序列过程来简化生成模型。自回归模型将预测条件建立在序列中的先前值上，而不是一个以随机潜变量为条件。因此，自回归模型尝试对数据生成分布进行显式建模，而不是尝试近似数据分布。在本节中，将介绍一类经典的自回归模型，长短期记忆网络 (Long Short-Term Memory Network, LSTM)，并将 LSTM 应用于生成文本数据。

2024-01-05 08:06:02 3095 105

原创图神经网络实战（1）——图神经网络(Graph Neural Networks, GNN)基础

本节全面介绍了图神经网络 (Graph Neural Network, GNN) ，包括其在数据分析和机器学习中的重要性。首先探讨了图作为数据表示的相关概念及其在各个领域的广泛应用；然后深入探讨图学习的重要性，包括不同的应用和技术。最后，重点介绍了 GNN 架构，并对比了它与其他方法之间的原理和性能差异。

2024-01-02 07:43:55 26511 157

原创 PyTorch深度学习实战（31）——神经风格迁移

神经风格迁移 (Neural Style Transfer) 是一种基于深度学习的技术，用于将两个不同图像的风格进行合成，生成新的图像。它通过将一个参考图像的风格应用于另一个内容图像，以创造出独特而富有艺术感的合成图像。在本节中，首先介绍了神经风格迁移的核心思想与风格迁移图像的生成流程，然后利用 PyTorch 从零开始实现了神经风格迁移算法，可以通过修改模型中的超参数来生成不同观感的图像。

2023-12-29 08:15:17 2045 89

原创 PyTorch深度学习实战（30）——对抗攻击(Adversarial Attack)

研究表明，深度学习模型容易受到输入数据中细微扰动的影响，从而导致模型输出错误的预测。在图像领域，此类扰动通常很小对于人眼而言甚至无法察觉，但它们却能够愚弄深度学习模型。针对深度学习模型的这种对抗攻击，限制了深度学习的成功在更广泛领域的应用。本节中，我们将介绍对抗攻击 (Adversarial Attack) 的基本概念，并使用 PyTorch 实现对抗攻击生成可欺骗神经网络的图像。

2023-12-27 08:06:16 929 75

原创 PyTorch深度学习实战（29）——变分自编码器(Variational Autoencoder, VAE)

变分自编码器 (Variational Autoencoder, VAE) 是一种结合了自编码器和概率建模的生成模型，通过编码器将输入数据映射到潜在空间中的概率分布，并通过解码器将从潜在空间采样得到的潜在变量映射回原始数据空间，实现了数据的生成和特征学习。

2023-12-25 07:38:54 1048 87

原创 PyTorch深度学习实战（28）——卷积自编码器(Convolutional Autoencoder)

卷积自编码器是一种基于卷积神经网络结构的自编码器，适用于处理图像数据。在本节中，我们介绍了卷积自编码器的模型架构，使用 PyTorch 从零开始实现在 MNIST 数据集上训练了一个简单的卷积自编码器，并使用 t-SNE 技术在二维平面中表示了所有测试图像的潜变量。

2023-12-21 08:05:28 3489 102

原创 AIGC实战——条件生成对抗网络(Conditional Generative Adversarial Net, CGAN)

在本节中，构建了一个条件生成对抗网络 (Conditional Generative Adversarial Net, CGAN)，通过将标签作为输入传递给判别器和生成器，能够生成可控类别的图像，这是由于标签为网络提供了额外的信息，以便使生成的输出与给定的标签相关联。

2023-12-18 07:29:43 3958 116

原创 PyTorch深度学习实战（27）——自编码器(Autoencoder)

自编码器 (Autoencoder) 是一种无监督学习的神经网络模型，用于数据的特征提取和降维，它由一个编码器 (Encoder) 和一个解码器 (Decoder) 组成，通过将输入数据压缩到低维表示，然后再重构出原始数据。在本节中，我们将学习如何使用自编码器，以在低维空间表示图像，学习以较少的维度表示图像有助于修改图像，可以利用低维表示来生成新图像。

2023-12-13 08:48:23 1679 92

原创 PyTorch深度学习实战——人群计数

人群计数是指通过图像或视频分析技术，对给定场景中的人群数量进行估计和统计的过程。人群计数在城市交通监控、公共安全、活动管理等领域具有广泛的应用。例如，在城市交通管理中，可以通过人群计数来评估交通拥堵情况；在公共安全中，可以利用人群计数来监测人员密集区域，及时发现异常情况。本节中，将介绍人群计数的基本概念，并基于 CSRNet 构建人群计数模型。

2023-12-11 08:17:36 870 78

原创 AIGC实战——WGAN(Wasserstein GAN)

在本节中，我们学习了如何使用 Wasserstein 损失函数以解决经典 GAN 训练过程中的模式坍塌和梯度消失等问题，使得 GAN 的训练更加可预测和可靠。WGAN-GP 通过在损失函数中添加一个令梯度范数指向 1 的项，为训练过程施加 1-Lipschitz 约束。

2023-12-08 08:14:44 2135 96

用于目标检测的 YOLO V3 模型架构及权重文件(含 OpenCV 使用示例)

用于目标检测的 MobileNet-SSD 模型架构及权重文件(使用 Caffe 框架进行预训练)

用于图像分类的 ResNet-50 模型架构及权重文件(使用 Caffe 框架进行预训练)

空空如也