楚沐向阳-CSDN博客

原创零基础看懂免费开源的Stable Diffusion

这篇我们主要讲一下一经推出，就火爆全网的Stable Diffusion模型。Stable Diffusion因其免费，开源，生成图像质量高等优点，一经推出，就火爆全网，后面的推出，更是降低了使用Stable Diffusion模型作画的门槛，一时刷爆了整个社区。今天笔者详细的带大家看一下Stable Diffusion背后的原理。

2023-08-11 17:20:31 1506

原创扩散模型(DDPM)介绍

文章主要介绍了DDPM扩散模型，包含了详细的数学推导，可能公式有点多，但是只要能够耐心看完，相信会有一些收获的。好了下面进入正题。

2023-08-08 10:39:19 1366

原创目标检测的评价指标

总结一下在目标检测中常见的一些评价指标：1.true positive, false positive, true negative, false negative首先解释一下上面四个词：表示分类正确： true positive：对象本来为正例，网络识别为正例 true negative：对象本来为负例，网络识别为负例表示分类错误： false positive：对象本...

2018-07-31 16:58:56 5175

原创论文笔记-SNIPER：Efficient Multi-Scale Training

1. 介绍目前的目标检测架构都是对输入图像的所有像素进行操作，从而产生proposals等，当采用多尺寸的图像金字塔时，所需的存储空间很大，在训练时，单一GPU上能训练的图像数量很小（取决于GPU的显存和图像的分辨率），这样就造成了batch size很小，从而使训练时间很长。因此作者提出了一种新的训练思路：先粗略定位一下正负例所在的区域，然后以该区域内的像素信息作为卷积网络的输入，再精确检测...

2018-07-30 21:32:04 3082 1

原创论文笔记-R-FCN：Object Detection via Region-based Fully Convolutional Networks

分类任务需要网络的转换不变性，目标检测任务需要网络的转换可变性。因为分类任务的目标对象是整张图像，一张图像上只有一个对象。检测任务需要适应每张图像上的多个尺寸不一的对象。对于目标检测网络而言，因其主干网络都是应用于分类任务的网络，因此在目标检测网络中就存在转换不变性和转换可变性的矛盾。作者为了解决这一问题，提出了R-FCN网络。下图为R-FCN的结构图：作者通过一些指定的卷积层块，使卷积输...

2018-07-24 20:40:36 435

原创论文笔记-DetNet: A Backbone network for Object Detection

1. 介绍目标检测是计算机视觉领域最基础的问题。目前的目标检测网络主要分为一级网络，YOLO’，SSD，RetinaNet等；二级网络，Fast R-CNN，Faster R-CNN，Mask R-CNN，R-FCN等。但是这些网络使用的骨架网络都是在ImageNet分类任务上预训练的网络，因此作者想提出一种基于目标检测任务预训练的骨架网络，名为DetNet。2. DetNet...

2018-07-24 15:17:52 855

原创论文笔记—Focal Loss for Dense Object Detection

1. 介绍当前最先进的目标检测网络都是两级的，基于推荐区域的。第一级产生推荐区域的坐标，第二级进行分类和检测。这一架构的网络主要有R-CNN，Fast R-CNN，Faster R-CNN等。现在的一些采用一级的网络，如YOLO，SSD等，与最先进的采用两级的网络相比，速度更快，但是准确度可能就稍微差一些。因此本文作者提出一种采用一级架构的网络，该网络具有一级网络的速度，同时具有二级网络的...

2018-07-19 22:40:48 353

原创论文笔记-Mask R-CNN

本论文由FAIR的Kaiming He等联合创作。1. 介绍Mask R-CNN可以同时执行目标检测和实例分割任务，下图是它的架构： Mask R-CNN是在Faster R-CNN上扩展出了一个并行分支，用来进行实力分割任务，原分支继续执行边界框预测任务。用来进行实例分割的分支就是一个作用于每一个ROI的简单的FCN。2. 相关工作R-CNNR-CNN在每一张图...

2018-07-13 21:32:07 450

论文笔记-DeepLung: Deep 3D Dual Path Nets for Automated Pulmonary Nodule Detection and Classification

这篇论文来自与加州大学欧文分校，百度研究和腾讯AI医学AI实验室。该论文提出了一整套自动检测和分类肺结节的系统。系统架构如下图：前半部分为肺结节检测系统，采用3D Faster R-CNN网络来检测肺结节，在3D Faster R-CNN中采用了一种类似于U-net的encoder，decoder结构以及DPN结构，更好的学习特征。后半部分使用3D DPN来提取检测到的肺结节的特征，然...

2018-07-11 15:01:21 2828

论文笔记-IGCV3：Interleaved Low-Rank Group Convolutions for Efficient Deep Neural Networks

介绍在这篇论文中，作者同时使用低秩核和稀疏核（low-rank and sparse kernel）来组成一个密集kernel。基于ICGV2的基础上，作者提出了ICGV3。近几年，卷积网络在计算机视觉上的有效性已经得到了验证。目前卷积网络的发展主要有两个方向：一是朝着更深的方向发展，在网络各层之间增加skip connection，使得训练更深的网络成为可能；二是简化卷积网络的结构，消除...

2018-07-11 14:05:46 1876

原创论文笔记-Feature Pyramid Networks for Object Detection

本文作者提出了一种特征金字塔网络（FPN），可以作为一种通用的特征提取器用于多个应用。作者将FPN与Faster R-CNN结合，在COCO2016上运行结果超过了现有的单一模型的表现。1. 介绍图像金字塔的优势就是可以提供一个多尺寸的特征表征，每一层级的语义更强。下图是最近的一些金字塔层级的网络架构: （a）图像金字塔的模型。每一尺寸图像连接一卷积网络，输出多个尺寸的特征映射，...

2018-07-03 11:35:29 352

翻译论文笔记-Tracking Emerges by Colorizing Videos

1. 介绍可视化追踪是视频分析中不可缺少的一部分。然而，为了提高表现而收集大量的数据会花费很高的代价，并不实际。因此，本文提出了一种在大量原始无标签数据上进行追踪的方法。我们将视频着色视为一种自监督学习问题。这种方法并不是直接预测灰度级视频帧的指定区域的颜色，而是学习将一个彩色参考帧的指定区域与一个灰度帧的区域建立联系，然后将参考帧指定区域的颜色复制到灰度帧的相应区域。这是一种迂回的方式，...

2018-07-02 13:42:39 1881

原创解决Github的Contribution没有增加的问题

最近在看自己的Github时，偶然间发现，自己的许多Conmmit都没有计算在Contribution内，然后看自己库中的Commit记录时，发现没有被记录在Contribution Graph中的Commit并不显示自己的头像，同时显示的用户名和自己创建Github账号时填的用户名也不一样。于是在网上找了一些资料，其中Github官方给出了一个官方文件，告诉我们什么样的Commit可以被记入Co...

2018-06-25 13:29:11 3496 1

翻译论文笔记-YOLOv3: An Incremental Improvement

1. YOLOv3的改进1.1 边界框预测YOLOv2的边界框预测引入了anchor boxes。每一个边界框由网络预测出的4个坐标表示，分别为tx，ty，tw，th。网格相对图像左上角的距离为（cx，cy），真实边界框的宽度和高度为pw，ph，那么预测边界框的坐标就为： YOLOv3使用logistic回归来预测每一个边界框的对象分数。如果一个真实边界框交叠一个真实对象的面积超...

2018-06-18 21:12:02 974

翻译论文笔记-YOLO9000：Better，Faster，Stronger

1. 简单介绍目前，用于目标检测的数据集的体量远远小于用于图像分类的数据集的体量，因为给目标检测数据集人工标记标签要比为分类数据集标记标签要昂贵的多。2. BetterYOLOv1相对于Fast R-CNN来说，在对象定位上有更大的误差；相对基于推荐区域的方法，YOLO的召回率也更低。因此，YOLOv2版本在保持分类精度的基础上，要着重提高召回率和定位精度。作者在YOLOv...

2018-06-16 22:37:25 420

翻译论文笔记-You Only Look Once:Unified，Real-Time Object Detection

摘要：YOLO的统一架构可以达到每秒45帧的速度，更小一点的版本，Fast YOLO，可以达到155fps。相比于最先进的检测系统，YOLO的检测错误更多，但是对于图片背景预测的准确率更高。1. 简单介绍在YOLO出现之前，检测系统都是基于对象分类来进行对象检测。为了检测一个对象，基于分类的检测系统都是先对对象进行分类，然后在大量不同的位置和尺寸窗口上来评估和测试这个对象分类的准确性。...

2018-06-15 20:31:55 811

原创语义分割算法总结（二）

承接之前的语义分割算法（一）2.4 DeepLab (v1 &amp;amp;amp; v2)DeepLab v1: 通过前面的介绍，我们总结出，最后得到的分割图像质量的高低，主要取决于卷积和池化层输出数据的维度大小和数据中每一个元素的感受域大小。数据维度主要决定分割图像的分辨率等微观特征，感受域主要决定图像上各对象的相对位置关系等宏观特征。最后得到的分割图像分辨率的在经过卷积和池化操作后，得到...

2018-06-10 15:26:07 8533

原创语义分割算法总结（一）

1、什么是语义分割图像语义分割可以说是图像理解的基石性技术，在自动驾驶系统（具体为街景识别与理解）、无人机应用（着陆点判断）以及穿戴式设备应用中举足轻重。我们都知道，图像是由许多像素（Pixel）组成，而「语义分割」顾名思义就是将像素按照图像中表达语义含义的不同进行分组（Grouping）／分割（Segmentation）。上面的图片就是一个具体的语义分割的例子。左边的实际图片作为输入...

2018-06-10 13:34:10 21885 1

原创 tensorflow中使用save和restore保存和恢复模型

我们在训练模型过程中，有时训练一段时间后，往往想要在验证集上验证一下，模型是否存在过拟合，然后视验证情况，再选择继续训练还是修改模型参数。这时tensorflow提供的Saver类，就能很好的帮助到我们。当我们保存一个模型到指定路径后，还目录下将会出现四种类型的文件： checkpoint: 具有最近检查点列表的协议缓存区 .data: 保存模型中的变量 .index: 标识检查点 ....

2018-06-06 15:10:02 9736

原创 RNN网络架构详解

刚接触RNN时，网上看到的最多的RNN的结构是下面这个图：这个图对于初学者来说，并不太友好，因为隐藏了许多RNN结构内部的细节，其实节点A中包括了许多隐藏节点和计算，内部是一个个全连接层的神经网络。下面我们来看一下标准的全连接层神经网络：很好理解，每一个节点代表一次计算，（事实上也有很多人把节点作为计算的输出值，把单向箭头作为矩阵计算）。我们再来看一下CNN：也很好理解，与...

2018-05-25 10:23:44 6617 4

原创 python中list和numpy中array，matrix的全面辨析

list是python中的普通列表对象，而array和matrix是python numpy库中封装的两个对象，array就是我们常说的数组，matrix是矩阵。本文先探讨list、array和matrix的异同，然后分析一下在tensorflow中，创建的随机变量属于哪种类型。1、listlist可以明显的与array，matrix区别开来。list通过[ ]申明，支持append和ex...

2018-05-24 22:48:00 2316

原创如何在github上下载单个文件夹

在网上看了多种下载方法，有的很复杂，有的不好用，经过查找相关资料，找到了一种方法，本人亲测有效。例如：想要下载的github上的文件网址为： https://github.com/aymericdamien/TensorFlow-Examples/tree/master/examples/2_BasicModels启动终端，将目录转换到想要将文件下载到的目录下，然后输入：svn chec...

2018-05-21 17:03:49 507

原创 tf.variable_scope( )和tf.get_variable( )在jupyter中的使用

写本篇博客的初衷：因本人使用tf.variable_scope()变量域在jupyter多次运行程序时，经常会遇到： Variable …… already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at:…… 此报错，在查看...

2018-05-06 21:23:19 868

原创 GAN理论的详细推倒

GAN理论的详细推倒GAN理论的详细推倒生成对抗网络基本概念概念与过程的形式化理论完美的生成器最优化问题理论推倒KL 散度推倒存在的问题最优判别器最优生成器收敛重述训练过程生成对抗网络基本概念要理解生成对抗模型（GAN），首先要了解生成对抗模型可以拆分为两个模块：一个是鉴别模型，另一个是生成模型。这里引用Goodfellow在论...

2018-05-04 18:28:58 1772 1

原创生成对抗网络入门：读懂GAN的基本原理

你怎么教一台从未见过人脸的机器学会绘出人脸？计算机可以存储字节级的照片，但它却不知道怎样的一堆像素组合才具有与人类相似的外表。多年以来，已经出现了很多各种各样旨在解决这一问题的生成模型。它们使用了各种不同的假设来建模数据的基本分布，有的假设太强，以至于根本不实用。对于我们目前的大多数任务来说，这些方法的结果仅仅是次优的。使用隐马尔可夫模型生成的文本显得很笨拙，而且可以预料；变分自编码器生成的图像很...

2018-05-04 15:22:26 1157

Liven_Zhu的博客