自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

00000cj的博客

计算机视觉、深度学习、图像处理、OCR、缺陷检测

  • 博客(183)
  • 收藏
  • 关注

原创 SimCLR v2(NeurIPS 2020)论文解读

本文在SimCLR的基础上做了一些改进,提出了SimCLR v2,进一步提升了无监督预训练模型的性能。此外,基于SimCLR v2,本文提出一种新的半监督学习算法,包括无监督预训练、监督微调、知识蒸馏,并在ImageNet上取得了新的SOTA。

2024-04-18 22:10:23 561

原创 MoCo v2 论文解读

这篇文章的内容只有2页,不能称之为paper,作者本人也称之为note。主要内容就是将SimCLR中的两点改进直接拿来用,作者发现它们和MoCo框架是“orthogonal”的关系,可以改进MoCo的效果并取得比SimCLR更好的精度。

2024-04-17 11:18:59 273

原创 SimCLR v1(ICML 2020)原理与实现解读

本文提出了SimCLR:一种简单的视觉表示对比学习的框架。通过系统的研究该框架的主要组成部分,作者发现以下几个关键因素对于学习有效的表示至关重要:数据增强的组合在定义有效的对比预测任务中起着关键作用。无监督对比学习相比于有监督学习,从数据增强的获益更多。在representation和对比损失之间引入可学习的非线性变换可以显著提高学习到的表示的质量。归一化的embedding和适当调整的温度参数对使用对比交叉熵损失的representation learning是有益的。对比学习受益于更大的bat

2024-04-17 09:44:04 708

原创 Noisy Student(CVPR 2020)论文解读

本文提出了一种新的半监督方法Noisy Student Training,主要包括三步:(1)在有标签数据上训练一个教师模型(2)利用教师模型在无标签数据上生成伪标签(3)结合有标签的图片和伪标签的图片训练学生模型。重复迭代这个过程,将学生作为教师重新生成伪标签,然后再训练一个新的学生模型。

2024-04-16 22:37:52 654

原创 MoCo v1(CVPR 2020)原理与代码解读

本文提出了动量对比(Momentum Contrast,MoCo)作为一种构建大型和一致的字典的方法,用于对比损失的无监督学习

2024-04-13 22:07:21 1009

原创 YOLO-MS 论文解读

本文没有引入新的训练或优化技术,而是通过学习更丰富的多尺度特征表示来改进实时目标检测模型。这使得我们的方法与之前的工作有很大的不同。具体来说,我们从两个新的角度来思考编码多尺度特征的实时目标检测从局部的角度来看,我们设计了一个具有简单而有效的层次特征融合策略的MS-Block。受Res2Net的启发,我们在MS-Block中引入了多个分支来进行特征提取,但不同的是,我们使用了一个带有深度卷积的inverted bottleneck block,从而可以有效地使用大卷积核。从全局的角度来看,我们提出随着

2024-03-21 11:44:35 1074

原创 CAM: Class Activation Mapping(CVPR 2016)速读

类激活热力图(class activation map)中响应高或者说值大的区域对该类别的贡献更大,即突出显示图中哪些区域对该类的识别更重要。

2024-03-21 11:30:29 138

原创 MobileNeXt(ECCV 2020)

针对上述问题,本文提出了一种新的bottleneck设计,称为sandglass block。与在linear bottleneck之间构建shortcut的Inverted residual block不同,sandglass block在线性高维表示之间建立shortcut,如图2(c)所示。与反向残差块相比,这种结构保留了块之间更多的信息传递,同时由于高维残差可以反向传播更多的梯度从而更好的优化网络训练。

2024-03-16 12:08:05 454

原创 激活函数Mish

本文提出了一种新的自正则化、非单调的激活函数,Mish,定义为 \(f(x)=xtanh(softplus(x))\)。在大多数情况下,超越了ReLU、Leaky ReLU和Swish。我们还观察到,最先进的数据增强技术,如CutMix和其他已被验证的技术如标签平滑,表现与预期一致。我们探索了Mish与Swish函数族相关的数学公式,并提出了一个关于一阶导数行为如何作为一个正则化器来帮助优化深度神经网络的直观理解。

2024-03-14 00:29:21 843

原创 ASFF自适应空间特征融合

本文提出了一种新的数据驱动的金字塔特征融合策略,称为自适应空间特征融合(adaptively spatial feature fusion, ASFF)。它学习对冲突信息进行空间过滤以抑制不一致性的方法,从而提高了特征的尺度不变性,并几乎没有增加额外开销。

2024-03-14 00:28:17 804

原创 Slim-Neck by GSConv

本文提出了一种新的轻量级卷积方法,即GSConv。该方法使卷积计算的输出尽可能接近SC,并降低了计算成本。本文为自动驾驶的检测架构提供了一个设计范式,即标准backbone和slim-neck。本文验证了各种广泛使用的trick在GSConv-Slim-Neck Detector上的有效性,为该领域的研究提供了参考。

2024-03-12 21:08:48 977

原创 Coordinate Attention(CVPR 2021)

本文提出了一种新的有效的注意力机制Coordinate Attention,将位置信息嵌入到通道注意力中,使移动网络能够关注更大的区域范围,同时避免产生显著的计算开销。为了缓解2D全局池化造成的位置信息丢失,我们将通道注意力分解为两个并行的一维特征编码过程,从而有效的将位置坐标信息整合到生成的特征图中。具体来说,我们的方法利用两个一维全局池化操作,分别沿着垂直和水平方向将输入特征聚合到两个独立的方向感知的direction-aware特征图中。这两个嵌入了特定方向信息的特征图随后被分别编码成两个attent

2024-03-12 20:58:17 1526

原创 CBNet v2 论文解读

本文在CBNet v1的基础上,提出了一种新的辅助训练方法、一个更好的连接策略以及一个剪枝策略,综合这些得到了一个新的骨干网络CBNet v2。除了取得了更好的性能表现,在泛化性和兼容性(和模型集成以及特征增强网络如DCN和HRNet的兼容)都得到了提升。

2024-03-11 19:29:26 548

原创 CBNet(AAAI 2020)论文解析

本文提出了一种新的方法,通过聚合多个相同的backbone来构建一个更强大的针对目标检测的骨干网络,称为复合骨干网络(Composite Backbone Network, CBNet),显著提高了各种检测模型的性能。

2024-03-11 19:17:26 791

原创 YOLOX论文解读

本文在YOLOv3的基础上进行了一些改进:包括将检测头进行解耦的decoupled head、从anchor-based转为anchor-free、标签分配使用OTA的简化版本SimOTA,提出了YOLOX,在large-scale和light-weight模型方面都取得了SOTA的结果

2024-03-08 18:34:08 677

原创 DetNet论文速读

下面介绍一下DetNet的具体结构。我们采用ResNet-50作为baseline,它被广泛用于各种检测模型的backbone。为了公平比较,前4个stage与原始的ResNet-50保持一致。为目标检测设计一个有效的骨干网络存在两个挑战。一方面,保持深度神经网络的空间分辨率会消耗大量的时间和内存。另一方面,减少降采样比例等价于减少有效的感受野,这对许多视觉任务,如图像分类和语义分割都是有害的。DetNet 经过精心设计,以解决这两个挑战。

2024-03-08 17:43:52 591

原创 激活函数Swish(ICLR 2018)

本文提出用自动搜索技术来寻找新的激活函数。结合穷举和基于强化学习的搜索,作者发现了许多新的激活函数。作者还通过对找到的最优激活函数的经验评估来验证搜索的有效性。实验表明,找到的最优激活函数 \(f(x)=x\cdot siogmoid(\beta x)\),作者称之为 \(Swish\),在许多具有挑战性的数据集上,效果都优于ReLU。

2024-03-04 23:47:04 763

原创 RandAugment(NeurIPS 2020)论文速读

本文为了消除了上述两个障碍,提出了一种新的数据增强策略RandAugment,它显著减小了搜索空间,并可以直接在目标任务上训练而不需要一个单独的代理任务。此外它的正则化强度可以根据不同模型和数据集的大小进行定制,并可以在不同任务和数据集上统一使用。在CIFAR-10/100、SVHN、ImageNet数据集上,RandAugment相较于之前的所有自动增强方法,取得了匹配或更优的性能。

2024-02-24 23:30:52 985

原创 VoVNet(CVPR workshop 2019)原理与代码解析

为了解决DenseNet的低效问题,本文提出了一种高效的架构VoVNet,由One-Shot Aggregation(OSA)组成。OSA不仅保留了DenseNet的优势即具有多种感受野的多样性特征,同时通过在最后一个特征图只聚合所有特征一次克服了密集连接的低效问题。基于VoVNet的检测模型与基于DenseNet的检测模型相比,速度快了2x,能耗减少了1.6x - 4.1x。同时与在速度和能耗方面还优于广泛使用的ResNet骨干网络的检测模型。特别是,小目标的检测性能比DenseNet和ResNet得到了

2024-02-24 16:13:34 863

原创 AutoAugment(CVPR 2019)原理与代码解析

本文提出了AutoAugment,自动搜索改进的数据增强策略。实现中,作者设计了一个搜索空间,其中一个策略由多个子策略组成,对于每个mini-batch中的每张图片随机选择一个子策略。每个子策略包含两个算子,每个算子是一个图像处理函数如平移、旋转、剪切以及函数对应的概率和大小。然后通过搜索算法找到最佳策略,使得模型在目标数据集上达到最高的验证精度。

2024-02-22 23:52:39 810

原创 RegNet(CVPR 2020)原理与代码解析

本文提出了一个新的网络设计范式,并不是专注于设计单个网络实例,而是设计了一个网络设计空间network design space。整个过程类似于经典的手工网络设计,但被提升到了设计空间的水平。使用本文的方法,作者探索了网络设计的结构方面,并得到了一个由简单、规则的网络构成了低维设计空间并称之为RegNet。RegNet设计空间提供了各个范围flop下简单、快速的网络。在类似的训练设置和flops下,RegNet的效果超过了EfficientNet同时在GPU上快了5倍。

2024-02-22 22:22:31 1666

原创 Deep Layer Aggregation(CVPR 2018)原理与代码解析

骨干网络的设计主要关注于设计出更深更宽的网络,但是如何更好的聚合不同layer和block的信息缺乏足够的关注。虽然skip connection已经被用来组合不同的网络层,但这些连接本身都是“浅层的”并且只是通过简单的单步操作进行融合。本文通过更深层的聚合来更好的实现跨层信息的融合,提出了深层聚合结构deep layer aggregation,通过迭代、分层级的合并特征,使得网络具有更高的精度以及更少的参数。

2024-02-21 20:49:37 1236

原创 CoordConv(NeurIPS 2018)

本文提出的CoordConv是对标准卷积层的一个简单延伸,这里只考虑二维的情况。卷积在很多任务中都表现良好可能是由于下面三个因素:学习参数较少、在GPU上计算快、具有平移不变性。CoordConv保留了前两个特性,但是允许网络根据任务需要学习保留或丢弃第三点即平移不变性。丢弃平移不变性似乎会阻碍网络学习可泛化函数的能力,但在后续实验中可以看到,分配少量的网络容量来建模问题的non-translation invariant非平移不变性可以得到一个更容易训练的模型并且泛化能力更强。

2024-02-21 20:44:11 715

原创 Copy-Paste(CVPR 2021)原理与代码解析

本文针对实例分割提出了一种新的数据增强方法Copy-Paste,可以显著增强实例分割的精度。尽管scale jittering和random resizing等数据增强方法已经用于之前的实例分割模型中,但它们本质上是通用的方法,并不是专门为实例分割设计的。

2024-02-20 22:03:55 1175 3

原创 Sample Pairing(ICLR 2018)

本文提出了一种新的应用于图像分类的数据增强方法SamplePairing,这种简单的数据增强技术显著提高了所有测试的数据集的分类精度。此外当训练集中的样本数量非常少时,SamplePairing技术很大程度的提高了精度,因此该方法对于训练数据非常有限的任务更有价值,比如医学图像任务。

2024-02-20 19:45:48 324

原创 Stochastic Depth 原理与代码解析

本文提出了一种新的训练深度网络的方法,随机深度stochastic depth,在训练阶段随机删除某些层使得网络的总层数变少,既缓解了梯度消失和特征重用减少的问题,又缩短了训练时间。此外和Dropout类似,stochastic depth还起到了正则化的作用,即使在有BN的情况下。用随机深度训练的网络还可以看作不同深度网络的隐式集和ensemble。

2024-02-19 19:50:54 903

原创 Asymmetric Temperature Scaling(NeurIPS 2022)论文速读

在知识蒸馏中,一个奇怪的现象是大的教师模型未必教的好,调整温度也无法缓解模型容量不匹配的问题。为了解释这个问题,本文将KD的作用分解为三个部分:correct guidance, smooth regularization, class discriminability。最后一点描述的是在蒸馏中教师模型提供的错误类别概率的区分性,大的教师模型往往会过度自信,传统的温度缩放限制了类别差异的作用,导致错误类别概率的区分度变小。因此,本文提出了不对称温度缩放Asymmetric Temperature Scali

2024-02-19 19:31:32 1062

原创 Factor Transfer(NeurIPS 2018)

本文提出了一种知识蒸馏方法,使得教师和学生都能生成更容易传递的知识,文中称为“factor”。和传统的方法不一样,该方法不是仅仅直接比较网络的输出,而是训练一个神经网络可以提取好的factor并匹配这些factor。从教师网络中提取factor的网络称为paraphraser,从学生网络提取factor的网络称为translator。paraphraser以无监督的方式训练,期望它提取不同于有监督损失可以获得的知识。translator和学生网络一同训练用来吸收paraphraser从教师网络提取的fact

2024-01-27 16:13:36 571

原创 Feature Pyramid Grids 原理与代码解析

本文提出了Feature Pyramid Grids(FPG),一种深度多路径特征金字塔网络,它将特征尺度空间表示为平行路径之间通过多向横向连接融合的规则网格。FPG通过多个平行金字塔路径丰富了卷积网络的backbone中构建的层次特征表示。FPG是FPN在密集横向连接结构下从1到 \(p\) 条路径的深度推广。

2024-01-24 21:14:11 851

原创 Nas-FPN(CVPR 2019)原理与代码解析

本文采用神经网络结构搜索(Neural Architecture Search, NAS),在一个覆盖所有跨尺度连接的新型可扩展搜索空间中发现了一个新的特征金字塔结构,NAS-FPN。与原始FPN相比,NAS-FPN显著提高了目标检测的性能,并取得了更好了速度-精度的平衡。

2024-01-24 21:13:20 1137

原创 DropBlock(NeurIPS 2018)论文与代码解析

本文提出了DropBlock,一种结构化形式的dropout,特征图中一个连续相邻区域中的所有特征被一起丢弃,作者通过实验发现,除了在卷积层中,在skip connection中应用DropBlock也可以提高精度。此外在训练过程中,逐渐增加丢弃特征的数量可以进一步提高精度并且对超参的选择更加鲁棒。

2024-01-23 21:40:59 887

原创 Gold-YOLO(NeurIPS 2023)论文与代码解析

针对FPN式结构存在的问题,本文在TopFormer理论的基础上,提出了一种新的聚合-分发(GD)机制,它通过融合多层特征并将全局信息注入到更高层,在YOLO中实现高效的信息交换。这显著增加了neck的信息融合能力,同时没有显著增加延迟。基于此提出了一个新的模型Gold-YOLO,它提高了多尺度特征融合的能力,并在所有尺度上实现了延迟和精度之间的理想平衡。此外,本文首次在YOLO系列中实现了MAE-style的预训练,使得YOLO系列可以从无监督预训练中受益。

2024-01-23 21:25:26 1549

原创 DDOD(Disentangle Your Dense Object Detector)解析

本文通过实验证明了解耦上述三种联结可以显著提升模型性能。对于标签分配的联结,针对分类和回归设计了分离的label assigner,从而可以分别为两个分支挑选出最合适的训练集。对于空间特征的联结,基于可变形卷积提出了一种自适应特征解耦模块(adaptive feature disentanglement module),可以自动关注有利于分类和回归的不同特征。对于FPN监督的联结,设计了一种重加权机制,基于每一层的正样本,自适应的调整不同FPN层的监督大小。结合上述三点,提出了一种新的dense detec

2024-01-22 20:59:59 969

原创 Dual Weighting Label Assignment(CVPR 2022)论文与代码解析

本文探索了一种新的加权范式,称为双加权dual weighting(DW)来分别定义正权重和负权重。作者首先通过分析目标检测中的评价指标,确定正/负权重的关键影响因素,然后在这基础上设计正/负权重。具体来说,一个样本的正权重由其分类和定位得分之间的一致性确定,而负权重被分解为两项:样本作为负样本的概率和重要性。这种加权策略为区分重要样本和不重要样本提供了更大的灵活性,从而得到一个更有效的检测模型。

2024-01-22 20:58:41 1126

原创 Feature Fusion for Online Mutual KD

本文提出了一个名为特征融合学习(Feature Fusion Learning, FFL)的框架,该框架通过一个组合并行网络特征图并生成更有意义特征图的融合模块(fusion module)高效的训练一个强大的分类器。具体来说,首先训练多个并行网络作为子网络,然后通过融合模块组合来自每个子网络的特征图得到一个更有意义的特征图,这个融合特征图送入融合分类器fused classifier中进行整体的分类。与现有的特征融合方法不同,该框架集成各个子网络的分类器ensemble classifier并将知识蒸馏到

2024-01-13 21:37:18 977

原创 FasterNet(CVPR 2023)论文解读

为了实现更快的网络,本文重新研究了常用的operator并证明了这种low FLOPS主要是算子的频繁内存访问frequent memory access导致的,尤其是深度卷积depthwise convolution。因此,本文提出了一种新的partial convolution (PConv),通过同时减少冗余的计算和内存访问,更高效的提取空间特征。基于Pconv,本文进一步提出了FasterNet,一种新的神经网络家族。它在各种设备上获得了比其它网络更快的运行速度,同时又没有影响在各种视觉任务上的

2024-01-13 21:23:38 1454

原创 实时语义分割模型PIDNet(CVPR 2023)解析

本文将卷积神经网络CNN和PID (Proportional-Integral-Derivative)控制器联系起来,并表明一个两分支网络就相当于一个PI控制器,因此本质上存在类似的超调问题。为了解决这个问题,本文提出了一种新的三分支网络架构PIDNet,它包含三个分支分别用来解析细节信息、上下文信息和边缘信息,并采用边界注意力来指导detail branch和context branch的融合。截至发文时间,PIDNet是实时语义分割模型中的SOTA。

2024-01-10 22:16:47 1337

原创 实时语义分割模型ICNet(ECCV 2018)解析

本文提出了image cascade network (ICNet),一个兼顾精度与速度的语义分割模型。它利用低分辨率图像的处理效率和高分辨率图像的处理质量,想法是首先让低分辨率的图像经过完整的分割网络得到一个粗糙的预测图,然后提出了级联特征融合单元cascade feature fusion unit和级联标签指导策略cascade label guidance整合中、高分辨率的特征,然后逐步细化粗预测结果。

2024-01-10 22:15:50 1016

原创 实时语义分割模型PP-LiteSeg论文解读

本文的创新点提出了一种灵活的轻量级解码器(Flexible and Lightweight Decoder, FLD),减轻了解码器的冗余性,平衡了encoder和decoder的计算成本。提出了一个新的注意力融合模块(Unified Attention Fusion Module, UAFM),利用空间和通道注意力来加强特征表示。提出了Simple Pyramid Pooling Module(SPPM)来聚合全局上下文。

2024-01-06 17:55:50 1000

原创 轻量检测模型NonoDet-Plus解析

nanodet-plus在nanodet的基础上做了一些改进,保持轻量的同时大大提高了检测精度

2024-01-06 17:54:32 1043

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除