Bubbliiiing-CSDN博客

原创 AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型轻松文生视频

在过年期间，OpenAI放出了SORA文生视频的预览效果，一瞬间各大媒体争相报道，又引爆了一次科技圈，可惜的是，SORA依然没选择开源。在这个契机下，本来我也对文生视频的工作非常感兴趣，所以也研究了一些与SORA相关的技术，虽然我们没有像OpenAI那么大的算力，但做一些基础研究还是足够的。最近我参与了一个EasyAnimate的项目，可以根据文本生成视频，并且借鉴了Animatediff的IDEA，将MotionModule网格化后引入到DIT中，借助DIT的强大生成能力，生成视频效果也还不错。

2024-04-13 15:45:28 1463

原创 AIGC专栏9——Scalable Diffusion Models with Transformers （DiT）结构解析

近期Sora大火，它底层是Diffusion Transformer，本质上是使用Transformer结构代替原本的Unet进行噪声预测，好处是统一了文本生成与视频生成的结构。这训练优化和预测优化而言是个好事，因为只需要优化一种结构就够了。虽然觉得OpenAI是大力出奇迹，但还是得学！

2024-02-25 18:30:10 4632 18

原创神经网络学习小记录78——Keras CA（Coordinate attention）注意力机制的解析与代码详解

CA注意力机制是最近提出的一种注意力机制，全面关注特征层的空间信息和通道信息。

2024-02-17 16:18:37 3234 7

原创神经网络学习小记录77——深入浅出Self-Attention自注意力机制与Transformer模块

Self-Attention自注意力机制是Transformer模块的重要组成部分，是截至到现在（2024年1月6日）大大小小网络的标配，无论是LLM还是StableDiffusion，内部都有Self-Attention与Transformer，因此，一起来学学哈哈。

2024-01-13 14:27:05 6454 12

原创 Docker介绍、常用命令与操作

工作了一段时间，感觉Docker真的是一个很方便的工具，无论复现代码还是部署服务器，不用特别担心环境的错误。

2023-12-24 21:10:29 4225 3

原创神经网络学习小记录76——Tensorflow2设置随机种子Seed来保证训练结果唯一

好多同学每次训练结果不同，最大的指标可能会差到3-4%这样，这是因为随机种子没有设定导致的，我们一起看看怎么设定吧。随机种子（Random Seed）是计算机专业术语。一般计算机的随机数都是伪随机数，以一个真随机数（种子）作为初始条件，然后用一定的算法不停迭代产生随机数。按照这个理解，我们如果可以设置最初的真随机数（种子），那么后面出现的随机数将会是固定序列。以random库为例，我们使用如下的代码，前两次为随机生成，后两次为设置随机数生成器种子后生成。# 生成随机整数。

2023-12-18 00:14:44 2508

原创 AIGC专栏8——EasyPhoto 视频领域拓展-让AIGC肖像动起来

图像的AI写真是AI人像的初步应用，如何让图像动起来，形成一段视频，是AI写真领域的重要应用方向拓展。文生视频图生视频与视频转视频，是AI写真视频的3个方向。在Text2Video功能中，我们首先自选的SD模型 + AnimateDiff设置的mm_sd_v15_v2.ckpt（Animate运动先验模型；默认选取，无需自己选择），以及用户设定的prompt，生成一段顺滑的带有人脸的视频。

2023-11-12 16:42:14 3682 2

原创 PyQt5入门4——给目标检测算法构建一个简单的界面

搞搞可视化界面哈，虽然不一定有用，但是搞一下。给目标检测算法构建一个简单的界面

2023-10-25 09:50:09 4597 5

原创 PyQt5入门3——添加一个按钮并且读取特定的图片

搞搞可视化界面哈，虽然不一定有用，但是搞一下。

2023-10-08 14:33:33 2995 1

原创 AIGC专栏7——EasyPhoto 人像训练与生成原理详解

如何训练一个高品质的人像Lora与应用高品质Lora的链路对于写真生成而言非常重要。由《LoRA: Low-Rank Adaptation of Large Language Models》提出的一种基于低秩矩阵的对大参数模型进行少量参数微调训练的方法，广泛引用在各种大模型的下游使用中。目前对超过数十亿以上参数的具有强能力的大模型针对下游任务进行微调中会呈现出巨大开销。LoRA 建议冻结预训练模型的权重并在每个自注意力部分通过全连接的方式注入可训练层。

2023-09-25 15:37:42 7347 13

原创 PyQt5入门2——添加一个画布并且显示特定的图片

搞搞可视化界面哈，虽然不一定有用，但是搞一下。

2023-09-17 19:29:07 3274 4

原创 AIGC专栏6——通过阿里云与AutoDL快速拉起Stable Diffusion和EasyPhoto

快速拉起AIGC服务对用户体验AIGC的产品而言非常重要，因为环境半天东西都装不好，也用不起来，那哪还有期待去玩呢？通过阿里云与AutoDL可以快速拉起Stable Diffusion和EasyPhoto，简单试试。

2023-09-16 15:24:13 3298 2

原创 AIGC专栏5——EasyPhoto AI写真照片生成器 sd-webui插件介绍、安装与使用

在视觉方向的AIGC领域，AI写真是一个靠谱且经过验证的落地方案，随着StableDiffusion领域开源社区的快速发展，社区也涌现了类似 FaceChain 这样基于 Modelscope开源社区结合 diffusers 的开源项目，用于指导用户快速开发个人写真。然而对于大量使用SDWebUI的 AIGC 同学们，短时间内却没有一个效果足够好的开源插件，去适配真人写真这一功能。对于AI写真而言，需要注意两个方向的重点，一个是一定要和用户像，另外一个是一定要真实。

2023-09-04 17:06:22 12598 11

原创神经网络学习小记录75——Keras设置随机种子Seed来保证训练结果唯一

好多同学每次训练结果不同，最大的指标可能会差到3-4%这样，这是因为随机种子没有设定导致的，我们一起看看怎么设定吧。随机种子（Random Seed）是计算机专业术语。一般计算机的随机数都是伪随机数，以一个真随机数（种子）作为初始条件，然后用一定的算法不停迭代产生随机数。按照这个理解，我们如果可以设置最初的真随机数（种子），那么后面出现的随机数将会是固定序列。以random库为例，我们使用如下的代码，前两次为随机生成，后两次为设置随机数生成器种子后生成。# 生成随机整数。

2023-08-27 18:15:05 3059 1

原创 AIGC专栏4——Stable Diffusion原理解析-inpaint修复图片为例

Inpaint是Stable Diffusion中的常用方法，一起简单学习一下。Inpaint是一项图片修复技术，可以从图片上去除不必要的物体，让您轻松摆脱照片上的水印、划痕、污渍、标志等瑕疵。一般来讲，图片的inpaint过程可以理解为两步：1、找到图片中的需要重绘的部分，比如上述提到的水印、划痕、污渍、标志等。2、去掉水印、划痕、污渍、标志等，自动填充图片应该有的内容。

2023-08-06 21:00:39 10817 23

原创 AIGC专栏3——Stable Diffusion结构解析-以图像生成图像（图生图，img2img）为例

用了很久的Stable Diffusion，但从来没有好好解析过它内部的结构，写个博客记录一下，嘿嘿。Stable Diffusion是比较新的一个扩散模型，翻译过来是稳定扩散，虽然名字叫稳定扩散，但实际上换个seed生成的结果就完全不一样，非常不稳定哈。Stable Diffusion最开始的应用应该是文本生成图像，即文生图，随着技术的发展Stable Diffusion不仅支持image2image图生图的生成，还支持ControlNet等各种控制方法来定制生成的图像。

2023-07-29 17:25:02 10757 44

原创神经网络学习小记录74——Pytorch 设置随机种子Seed来保证训练结果唯一

好多同学每次训练结果不同，最大的指标可能会差到3-4%这样，这是因为随机种子没有设定导致的，我们一起看看怎么设定吧。随机种子（Random Seed）是计算机专业术语。一般计算机的随机数都是伪随机数，以一个真随机数（种子）作为初始条件，然后用一定的算法不停迭代产生随机数。按照这个理解，我们如果可以设置最初的真随机数（种子），那么后面出现的随机数将会是固定序列。以random库为例，我们使用如下的代码，前两次为随机生成，后两次为设置随机数生成器种子后生成。

2023-07-09 15:36:36 10911 30

原创 PyQt5入门1——PyQt5的安装与Hello World应用

搞搞可视化界面哈，虽然不一定有用，但是搞一下。PyQt实现了一个Python模块集。它有超过300类，将近6000个函数和方法。它是一个多平台的工具包，可以运行在所有主要操作系统上，包括UNIX，Windows和Mac。PyQt采用双许可证，开发人员可以选择GPL和商业许可。在此之前，GPL的版本只能用在Unix上，从PyQt的版本4开始，GPL许可证可用于所有支持的平台。

2023-07-02 21:43:42 3759 13

原创 AIGC专栏2——Stable Diffusion结构解析-以文本生成图像（文生图，txt2img）为例

用了很久的Stable Diffusion，但从来没有好好解析过它内部的结构，写个博客记录一下，嘿嘿。Stable Diffusion是比较新的一个扩散模型，翻译过来是稳定扩散，虽然名字叫稳定扩散，但实际上换个seed生成的结果就完全不一样，非常不稳定哈。Stable Diffusion最开始的应用应该是文本生成图像，即文生图，随着技术的发展Stable Diffusion不仅支持image2image图生图的生成，还支持ControlNet等各种控制方法来定制生成的图像。

2023-06-11 23:30:03 14848 48

原创睿智的目标检测66——Pytorch搭建YoloV8目标检测平台

又搞了个YoloV8，看起来似乎在抢这个名字。YoloV8所使用的主干特征提取网络主要为速度快做了一些优化：1、颈部结构使用普通的步长为2的3x3卷积。YoloV5最初使用了Focus结构来初步提取特征，在改进后使用了大卷积核的卷积来初步提取特征，速度都不快。YoloV7则使用了三次卷积来初步提取特征，速度也不快。YoloV8则使用普通的步长为2的3x3卷积核来初步提取特征（估计是感受野够了）。这样做会损失一些感受野，但是可以提高模型的速度。

2023-05-15 00:13:50 33451 256

原创神经网络学习小记录73——Pytorch CA（Coordinate attention）注意力机制的解析与代码详解

神经网络学习小记录72——Pytorch CA（Coordinate attention）注意力机制的解析与代码详解学习前言代码下载CA注意力机制的概念与实现注意力机制的应用学习前言CA注意力机制是最近提出的一种注意力机制，全面关注特征层的空间信息和通道信息。代码下载Github源码下载地址为：https://github.com/bubbliiiing/yolov4-tiny-pytorch复制该路径到地址栏跳转。CA注意力机制的概念与实现该文章的作者认为现有的注意力机制（如CBAM、

2023-05-07 12:00:47 20287 73

原创多模态模型学习1——CLIP对比学习语言-图像预训练模型

学了一些多模态的知识，CLIP算是其中最重要也是最通用的一环，一起来看一下吧。CLIP的全称是Contrastive Language-Image Pre-Training，中文是对比语言-图像预训练，是一个预训练模型，简称为CLIP。该模型是 OpenAI 在 2021 年发布的，最初用于匹配图像和文本的预训练神经网络模型，这个任务在多模态领域比较常见，可以用于文本图像检索，CLIP是近年来在多模态研究领域的经典之作。该模型大量的成对互联网数据进行预训练，在很多任务表现上达到了目前最佳表现（SOTA）

2023-04-05 15:14:09 23175 58

原创憨批的语义分割重制版11——Keras 搭建自己的HRNetV2语义分割平台

最近学了一下HRnet，代码真的好难看懂，还只有Pytorch版本的，Keras复现很有难度，作者写的逻辑很厉害，只能慢慢攻破啦！传统的卷积神经网络模型是自上而下不断进行特征提取的，如VGG、Mobilenet、Resnet系列等，VGG网络中存在5个步长为(2, 2)最大池化，Mobilenet网络中存在5个步长为(2, 2)的逐层卷积，Resnet网络中存在5个步长为(2, 2)的普通卷积。这些网络常常存在多个下采样的过程，输入进来的图片利用卷积或者最大池化进行高和宽的压缩。

2023-03-27 23:05:11 5818 29

原创睿智的目标检测65——Pytorch搭建DETR目标检测平台

基于Transformer的目标检测一直没弄，补上一下。DETR可以采用多种的主干特征提取网络，论文中用的是Resnet，本文以Resnet50网络为例子来给大家演示一下。将靠前若干层的某一层数据输出直接跳过多层引入到后面数据层的输入部分。意味着后面的特征层的内容会有一部分由其前面的某一层线性贡献。其结构如下：深度残差网络的设计是为了克服由于网络深度加深而产生的学习效率变低与准确率无法有效提升的问题。ResNet50有两个基本的块，

2023-03-05 14:58:12 18363 144

原创睿智的目标检测64——目标检测中的MixUp数据增强方法

哈哈哈！我再来一次数据增强！MixUp数据增强方法在最新的几个Yolo算法中得到了广泛的应用，特别在YoloX中，s、m、l、x四个型号的网络都使用了MixUp数据增强。nano和tiny由于模型的拟合能力一般没有使用MixUp，但也说明了MixUp具有强大的数据增强能力。MixUp的思路较为简单，主要是将两张图像按比例进行混合，如图所示：图片混合完成后，原来两幅图片的真实框此时也位于一幅图像上。

2023-02-07 08:00:00 11046 18

原创 AIGC专栏1——Pytorch搭建DDPM实现图片生成

我又死了我又死了我又死了！如上图所示。DDPM模型主要分为两个过程：1、Forward加噪过程（从右往左），数据集的真实图片中逐步加入高斯噪声，最终变成一个杂乱无章的高斯噪声，这个过程一般发生在训练的时候。加噪过程满足一定的数学规律。2、Reverse去噪过程（从左往右），指对加了噪声的图片逐步去噪，从而还原出真实图片，这个过程一般发生在预测生成的时候。尽管在这里说的是加了噪声的图片，但实际去预测生成的时候，是随机生成一个高斯噪声来去噪。去噪的时候不断根据XtX_tXt的图片生成X。

2023-02-05 18:24:38 24716 97

原创推荐系统实战6——EasyRec 搭建WideAndDeep排序模型实现CTR点击平台

一般的推荐系统至少需要两步来完成，基本流程为召回=>排序，当然大型的推荐系统远远不止于此。排序是其中的第二步，目的是对感兴趣的item进行排序，找出其中最重要的item。

2023-02-01 00:36:39 2636 5

原创推荐系统实战5——EasyRec 在DSSM召回模型中添加负采样构建CTR点击平台

当物品池很大上百万甚至是上亿的时候，不能仅考虑少量的正样本与负样本，因为物品太多，大多数物品都是负样本，此时双塔召回模型常常需要针对每个正样本采样一千甚至一万的负样本才能达到比较好的召回效果，

2023-01-08 17:37:43 2706 7

原创推荐系统实战4——EasyRec 搭建DSSM召回模型实现CTR点击平台

一般的推荐系统至少需要两步来完成，基本流程为召回=>排序，当然大型的推荐系统远远不止于此。召回是其中的第一步，目的是最大程度的筛选出user可能感兴趣的item。

2022-12-12 08:00:00 3492 18

原创推荐系统实战3——推荐系统中Embedding层工作原理浅析

Embedding层是推荐系统特征转换的精髓，有必要简单了解一下他的原理。Embedding技术是现代推荐系统的标配，它的主要作用是将稀疏向量转换成稠密向量。

2022-11-22 17:20:48 5125 7

原创推荐系统实战2——EasyRec 推荐框架环境配置

EasyRec是阿里巴巴开源的推荐系统框架。生命苦短，从建好的推荐系统框架开始学，可以更高效的学习与入门推荐系统，也有利于对推荐系统有个整体的认知。

2022-11-16 08:00:00 4325 11

原创睿智的目标检测63——Tensorflow2搭建YoloV7目标检测平台

Tensorflow也复现一下，嘿嘿。YoloV7所使用的主干特征提取网络具有两个重要特点：1、使用了多分支堆叠模块，这个模块其实论文里没有命名，但是我在分析源码后认为这个名字非常合适，在本博文中，多分支堆叠模块如图所示。看了这幅图大家应该明白为什么我把这个模块称为多分支堆叠模块，因为在该模块中，最终堆叠模块的输入包含多个分支，左一为一个卷积标准化激活函数，左二为一个卷积标准化激活函数，右二为三个卷积标准化激活函数，右一为五个卷积标准化激活函数。

2022-11-06 23:52:14 8288 44

原创睿智的目标检测62——Keras搭建YoloV7目标检测平台

Keras也复现一下，SimOTA的复现太痛苦的。https://github.com/bubbliiiing/yolov7-keras喜欢的可以点个star噢。1、主干部分：使用了创新的多分支堆叠结构进行特征提取，相比以前的Yolo，模型的跳连接结构更加的密集。使用了创新的下采样结构，使用Maxpooling和步长为2x2的特征并行进行提取与压缩。2、加强特征提取部分：同主干部分，加强特征提取部分也使用了多输入堆叠结构进行特征提取，使用Maxpooling和步长为2x2的特征并行进行下采样。3、特殊的

2022-10-24 22:45:13 10205 37

原创神经网络学习小记录72——Parameters参数量、FLOPs浮点运算次数、FPS每秒传输帧数等计算量衡量指标解析

神经网络学习小记录72——Parameters参数量、FLOPs浮点运算次数、FPS每秒传输帧数等计算量衡量指标解析学习前言网络的运算时组成我们要关注网络的什么指标1、Parameters参数量2、FLOPs 浮点运算次数3、Latency 延迟4、FPS 每秒传输帧数指标间的关系网络的运算速度与什么有关？学习前言很多同学在学习时想到轻量化这一优化方案，但常常面对到一个困境是为什么参数量减少了，速度反而变慢了？在这个博客中，我会对网络中常用的计算量衡量指标进行解析。网络的运算时组成目前大部分的轻

2022-10-16 17:05:49 17844 41

原创睿智的目标检测61——Pytorch搭建YoloV7目标检测平台

AB哥弄了个YoloV7，我觉得有必要跟进看看，它的concat结构还是第一次见，感觉有点意思。https://github.com/bubbliiiing/yolov7-pytorch1、主干部分：使用了创新的多分支堆叠结构进行特征提取，相比以前的Yolo，模型的跳连接结构更加的密集。使用了创新的下采样结构，使用Maxpooling和步长为2x2的特征并行进行提取与压缩。2、加强特征提取部分：同主干部分，加强特征提取部分也使用了多输入堆叠结构进行特征提取，使用Maxpooli

2022-09-26 22:40:27 79475 506

原创深度学习环境配置10——Ubuntu下的torch==1.7.1环境配置

深度学习环境配置10——Ubuntu下的torch==1.7.1环境配置一直没有制作与Ubuntu相关的环境配置，决定把这个坑给填补上。

2022-09-18 21:47:25 12304 19

原创深度学习环境配置9——Ubuntu下的tensorflow-gpu==2.4.0环境配置

深度学习环境配置9——Ubuntu下的tensorflow-gpu==2.4.0环境配置注意事项学习前言各个版本tensorflow2的配置教程环境内容环境配置一、Anaconda安装二、Cudnn和CUDA的下载和安装三、配置tensorflow2-gpu环境

2022-09-04 13:23:28 5928 7

原创推荐系统实战1——什么是推荐系统与常见的推荐系统评价指标

工作需要了解一些有关推荐系统的内容，首先学一下什么是推荐系统与常见的推荐系统评价指标吧。顾名思义，推荐系统的功能就是推荐，在当前信息量急速膨胀的互联网时代，每一个人都面向了海量的数据，哪怕是一个小平台，数据量可能都是以千万为单位的，这个时候让用户自己一个一个去选择，显然是不可能的。推荐系统则可以面对海量的数据信息，从中快速推荐出符合用户特点的东西。一个好的推荐系统是互利共赢的，用户可以获取到他们最需要的内容（如商品、音乐、新闻等）。平台也可以获取到他们最需要的内容（如流量、成交量、播放量等）。而一个。...

2022-08-25 21:45:48 5256 19

原创睿智的目标检测60——Tensorflow2 Focal loss详解与在YoloV4当中的实现

睿智的目标检测61——Tensorflow2 Focal loss详解与在YoloV4当中的实现学习前言什么是Focal Loss一、控制正负样本的权重二、控制容易分类和难分类样本的权重三、两种权重控制方法合并实现方式学习前言TF2的也补上咯。其实和Keras的一摸一样0 0。什么是Focal LossFocal Loss是一种Loss计算方案。其具有两个重要的特点。1、控制正负样本的权重2、控制容易分类和难分类样本的权重正负样本的概念如下：目标检测本质上是进行密集采样，在一张图像生成成千

2022-08-07 12:36:48 4288 9

原创睿智的目标检测59——Keras Focal loss详解与在YoloV4当中的实现

睿智的目标检测58——Keras Focal loss详解与在YoloV4当中的实现学习前言什么是Focal Loss一、控制正负样本的权重二、控制容易分类和难分类样本的权重三、两种权重控制方法合并实现方式学习前言给YoloV4的仓库加个Focal Loss看看，一直听说Focal Loss在Yolo系列没啥用，但实践出真知呀。而且好多人问，不如先加。什么是Focal LossFocal Loss是一种Loss计算方案。其具有两个重要的特点。1、控制正负样本的权重2、控制容易分类和难分类样本的

2022-07-17 19:40:31 3209 5

空空如也

空空如也