计算机科研狗@OUC-CSDN博客

原创 (arxiv2401) CrossMAE

MAE在decoder重建时，将 unmask 的 token恢复到图像中，整体进行self-attention计算，作者认为 masked token 彼此间也进行了attention计算，是没有必要的。所以，作者进行了改进，在解码器中将masked token 做为Q，unmasked token做为KV，进行cross attention计算。不过，这个改进并没有刻意的在引言里强调。论文主要探讨了在MAE的解码中，图像patch之间的依赖性，并提出了一种新的预训练框架 CrossMAE。

2024-04-05 20:23:11 270

原创 (arxiv2401) ClassWise-SAM-Adapter

task specific input module，本质就是加入了图像的低频信息，作者认为可以提供足够的土地覆盖特征信息，以增强分割性能。注意先是给每一层使用MLP生成特征，然后有一个共享的MLP继续对特征处理。首先介绍 adaptor，如下图所示，就是在每个 attention后面加了一个 MLP，同时在 layer norm 后面也加了一个MLP。这是第一个将SAM应用于SAR图像分割的工作。Class-wise mask decoder理解也不困难，就是把二分类改为了多分类。

2024-04-05 20:17:46 315

原创【CVPR2023】Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning

在这个论文中，作者提出了一个通用的时空预测学习框架，其中空间编码器和解码器捕获帧内特征，中间的时域模块捕获帧间相关性。为了并行化时域模块，作者提出了时间注意力单元（Temporal Attention Unit, TAU），它将时间注意力分解为帧内静态注意力和帧间动态注意力。TAU 使用注意力机制来并行化的处理时间演变，该模块将时空注意力分解为：帧内静态注意力和帧间动态注意力。帧间动态注意力本质是通道注意力，给各个通道动态分配权重，作者描述这样可以捕获帧间的变化趋势。具体可以参照作者论文，这里不过多介绍。

2024-03-28 15:22:30 326

原创【CVPR2024】PEM: Prototype-based Efficient MaskFormer for Image Segmentation

论文总体架构如下图所示，和MaskFormer等方法类似，不同的地方在于 pixel decoder 和 Transformer decoder。Pixel decoder里的蓝色的CSM（上下文调制）是通道注意力，紫色的Def Conv是 Deformable conv。需要注意的是，有一个 argmax 操作，正常会有不能反向传播的问题，不清楚实现的细节是如何的。研究挑战：基于Transformer的架构在图像分割领域取得了显著的成果，但这些架构通常需要大量的计算资源，特别是在边缘设备上。

2024-03-24 11:31:23 346

原创【ARXIV2402】MambaIR

该方法的网络架构如下图所示，可以看出和当前主流的网络总体结构是一致的。作者是用 Mamba 替换了 attention，当然在实现时，以两个分支并行的方式，而且也加入了卷积操作。作者认为Mamba可以理解为RNN和CNN的结合，可以较好的用于图像修复。2）使用四个方向的扫描，让当前像素的输出实际上是来自上下左右四个方向邻域的一维卷积结果。下图是论文的研究动机图，可以看出 MambaIR 有整幅图像范围的感受野，从而可以好地利用图像块重复先验。具体可以参考作者论文，这里不再过多介绍。

2024-03-24 11:29:40 203

原创【AAAI2024】RVQCNIR: Clearer Night Image Restoration with Vector-Quantized Codebook

这个论文引入 VQGAN 的思想进行图像修复。作者认为，现有的夜间图像恢复方法效果不好是因为缺乏稳定和可靠的先验知识。为了解决这个问题，论文引入了向量量化（VQ）代码簿作为一个可靠和高质量的外部特征库，为纯数据驱动的图像恢复提供高质量先验。同时，做了两个改进，提出了自适应光照增强模块（AIEM）和可变形双向交叉注意力（DBCA）模块来确保细节和光照的真实恢复。AIEM利用特征之间的通道相关性来动态维持退化特征与高质量代码特征之间的光照一致性。

2024-03-24 11:27:50 241 1

原创【CVPR2024】CricaVPR

论文技术框架如下图所示，主要的跨尺度的图像编码器。需要注意的是，该方法是在关联一个 batch 所有图像第i个区域的特征，而不是单个图像的所有区域特征。可以这么理解，以前的 attention 是考虑 token 和 token 之间的相似性，这里作者考虑的是图像与图像之间的关联。第二个创新点： multi-scale convolution-enhanced adaptation 比较容易理解，作者使用多尺度卷积来微调DINO，如下图所示，这里不过多介绍。实验部分可以参考作者论文，这里不过多介绍。

2024-03-24 11:26:03 172

原创【CVPR2023】Efficient and Explicit Modelling of Image Hierarchies for Image Restoration

作者首先观察一个现象发，下图所示，低分辨率图像中青色点的 attention map 和高分辨率图像中红色点的 attention map 非常相似，说明图像的结构在不同尺度上被复制。这个论文的代码地址叫GRL，意思是 Global, Regional, Local 的意思，作者从三个尺度对特征建模，核心是构建了一个 anchored strip self-attention。也许我看的不够仔细，欢迎大家指正。论文还提到使用了 strip attention 的概念，但是我感觉，这个。

2023-10-31 16:21:02 152

原创【CVPR2023】Learning A Sparse Transformer Network for Effective Image Deraining

论文：https://readpaper.com/paper/4736105248993591297代码：https://github.com/cschenxiang/DRSformerTransformer 模型通常使用标准的 QKV 三件套进行计算，但是部分来自 K 的 token 与来自 Q 的 token 并不相关，如果仍然对这些 token 进行特征聚合计算会影响图像修复的性能。

2023-10-31 10:20:25 418

原创【23秋软工第7周作业】项目选题

下次课（10月30日）安排一次汇报，每个小组汇报自己的选题想法，时间3分钟以内，不允许超时。周日晚上将 PPT上传至云盘，链接：https://www.jianguoyun.com/p/DSVzHKAQrKKIBhjch6MFIAA （云盘只可上传不可下载，文件以组号命名，如“03组汇报.pptx”）一、如何提出靠谱的项目建议，参见邹欣老师的博客：http://www.cnblogs.com/xinz/archive/2010/12/01/1893323.html。候选题目可以参见课程主页。

2023-10-26 11:23:13 396

原创【AAAI2023】Spatial-Spectral Transformer for Hyperspectral Image Denoising

高光谱图像（HSI）去噪是后续HSI应用的关键预处理过程，但是基于CNN的方法需要在计算效率与非局部特征建模能力之间进行权衡。为了解决这个问题，作者提出了 Spatial-Spectral Transformer。论文的主要贡献：（1）构建了一个spatial-spectral Transformer挖掘 non-local spatial similarity 和 global spectral correlation. （2）设计了一个由空间自注意力和光谱自注意力组成的去噪模块。

2023-09-20 00:08:07 301

原创新学期加油啊

铁道旁赤脚追晚霞 / 玻璃珠铁盒英雄卡 / 玩皮筋迷藏石桥下 / 姥姥又纳鞋坐院坝 / 铁门前篮框银杏花 / 茅草屋可有住人家 / 放学路打闹嘻嘻哈 / 田埂间流水哗啦啦。我们就一天天长大 / 记忆里有雨不停下 / 蝉鸣中闷完了暑假 / 新学年又该剪头发。我们就一天天长大 / 也开始憧憬和变化 / 曾以为自己多伟大 / 写了诗不敢递给她”我们就一天天长大 / 四季过老梧桐发芽 / 沙堆里有宝藏和塔 / 长板凳搭起一个家。歌词写的真好，泛黄的温柔到极致的回忆，分享一下。

2023-08-17 14:59:58 103

原创【学术搬砖】第一期

一期一会” —— 珍惜我们遇见的论文，把和每个论文的相遇，当做一种缘分。我们会定期推荐若干优质学术论文，并分享一段总结，非常欢迎提出任何建议和想法。

2023-04-12 10:11:16 736 1

原创【AAAI2023】Ultra-High-Definition Low-Light Image Enhancement

代码：https://github.com/TaoWangzj/LLFormer这个论文首先构建了ultra-high definition low-light （UHD-LOL）数据集，然后提出了 Low-Light Transformer (LLFormer)。LLFormer 的整体框架如下所示，可以看出和 Restormer 有些类似。我的理解，作者改进了三个点：1、Transformer block里面修改了 attention；2、Transformer block里修改了FFN；

2023-01-31 00:41:31 1197

原创【TPAMI2023】Global Learnable Attention for Single Image Super-Resolution

GLA可以动态的调整特征间的相似性，同时因为使用了Locality-Sensitive Hashing，降低了计算的复杂度。这是来自福州大学的工作，提出一个有意思的观点：当前方法大多使用 non-local attention 来计算图像块之间的相似性，而且认为与query更为相似的图像块能够提供更丰富的信息，但是作者认为并不总是这样。论文有一个实验很有趣，如下图所示，使用LSS的时候，就能够动态的找到真正具有相似纹理以及信息比较强的区域。其它实验可以参考作者论文，这里不过多介绍。

2023-01-26 22:36:00 599

原创【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer

（图里描述是分了H个组，相似性矩阵大小为 (C/H)x(C/H)，但是H这个参数具体取的多少论文里没有介绍）这是来自阿里巴巴的工作，作者构建了一个轻量级的Transformer网络用于语义分割，主要有两点创新：1、用prototype representation作为可学习的局部描述代替decoder；，这样可以显著降低计算量（但是 H 和 h 的比例关系，我没有看到，实验里也没有分析）。实验上，该方法对标的是SegFormer，有明显的性能提升。最后，三部分计算的结果直接相加，得到AFF模块的最终输出。

2023-01-26 17:06:33 972

原创【ARXIV2211】Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

AIWalker将这个工作与VAN进行了对比，两者区别是：Conv2Former是注意力范式，使用LN；尽管注意力可以更好的捕获 long-range dependency ，但是其计算复杂性会随着 HW 的增加而几何级增长。如下图所示，该方法采用了Transformer典型的四阶段架构，核心在于中间应用了 Convolution modulation。表示Hadamard积，这样该模块使每个位置的元素与其kxk邻域相关，而通道间的信息聚合可以通过线性层实现。这是来自南开大学侯淇彬老师的工作，

2023-01-25 15:42:53 387

原创【ECCV2022】Improving Image Restoration by Revisiting Global Information Aggregation

但是，全局操作在训练和测试阶段的表现是不一致的：它们在训练中是基于裁剪图像的部分信息，而在测试时是基于全分辨率图像的所有信息，这可能导致特征的分布完全不一致。如下图所示，在推理阶段，TLC直接改变了特征层面的信息聚合的区域范围，将全局操作(例如全局平均池化)仅在推理过程中被转换为局部操作。下图为例，当前方法在训练时使用从原图中裁剪出的256x256的小块，而在推理过程中，训练好的模型会直接复原720x1280的高分辨率图像。这样的好处是，测试阶段每个点的统计量分布与训练时的分布相近（均基于局部区域）。

2023-01-25 09:22:15 519

原创【ARIXV2209】Multi-Scale Attention Network for Single Image Super-Resolution

代码：https://github.com/icandle/MAN这是来自南开大学的工作，将多尺度机制与大核注意机制结合，用于图像超分辨率。2022年初，大核卷积火了，Visual Attention Network （VAN）提出将大核卷积划为：depth-wise conv，dilated conv，和 point-wise conv 的组合（如下图所示）。作者提出的方法叫做 Multi-scale Attention Network（MAN），总体框架如下图所示。

2023-01-24 21:57:47 981

原创课题组最新的高光谱解混研究工作被 IEEE TGRS 录用

近年来，基于深度学习的方法在高光谱解混中获得了广泛关注，尤其是无监督的自动编码器（AE）网络在高光谱解混任务中取得了优异的性能。我们通过光谱划分引入了多视角光谱信息，并提出了一个多视角空间-光谱双流网络（MSSS-Net）。MSSS-Net是一个共享解码器的双流深度解混网络，它的两个AE网络采用递归神经网络协作利用多视角光谱和空间信息。同时，我们为多视角空间-光谱信息设计了一个级联的双向和单向的RNNs编码器结构，以学习区分能力更强的 patch-pixel 特征。作者：Lin Qi;Xinbo Gao;

2023-01-24 10:34:43 536

原创课题组王猛的论文被遥感领域顶级期刊 IEEE TGRS 录用

尽管深度学习方法在多源数据分类任务中取得了非常好的性能，但自监督学习却很少被应用在多源遥感数据分析任务中。由于现有的对比学习框架没有利用邻近区域的语义相似性，因此为多源数据分类建立一个强大的自监督学习模型通常是不容易的。此外，多源数据的不一致分布引起的异质性也影响了分类性能。为了克服上述两个不足，本文提出了一个基于最近邻的对比学习网络（NNCNet），它充分利用了大量的未标记数据来学习地物的特征表征。具体来说，我们提出了一个基于最近邻的数据增强方案，利用附近区域之间的相似性增强语义关系。

2023-01-15 00:01:01 1860

原创课题组甘言海博士的论文被国际顶级期刊 IEEE TIP 录用

现有的基于深度学习的纹理合成方法都集中在对纹理生成的细粒度控制上。由于大多数这些方法所采用的网络总是与单个示范纹理联系在一起，在对各种纹理进行建模时，必须训练大量的网络。一个粗粒度的信号首先决定了马尔可夫随机场的分布，然后用马尔可夫随机场来模拟最终输出纹理的分布。最后，从采样的马尔可夫随机场分布中生成输出纹理。本文所提出的方法将纹理创建和纹理合成整合到一个框架用于实时生成纹理，并使用户能够随时获得具有任意尺度的纹理图像。广泛的实验表明，所提出的方法能够生成符合用户定义的纹理图像。

2023-01-14 23:50:39 691

原创【NeurIPS2022】Cross Aggregation Transformer for Image Restoration

【NeurIPS2022】Cross Aggregation Transformer for Image Restoration**研究动机：**当前方法 Transformer 方法把图像分成8x8的小块处理，the square window lacks inter-window interaction, leading to the slow increase of the receptive field。同时，the channel-wise attention mechanism may lose

2022-12-07 20:29:35 430

原创【ARXIV2211】Efficient multi-order gated aggregation network

作者认为，交互复杂性是视觉识别一个重要特点。为此，作者通过复杂特征交互构建了一个纯卷积的网络 MogaNet 用于图像识别。MogaNet的整体框架如下图所示，架构和一般的 Transformer 网络非常类似，核心包括两个模块：spatial aggregation （取代注意力）和 channel aggregation （取代FFN）。（1）spatial aggregation 如下图所示，蓝色部分叫做 feature decomposition，用于 exclude trivial intera

2022-12-07 15:08:50 479

原创【CVPR2022】Detecting Camouﬂaged Object in Frequency Domain

【CVPR2022】Detecting Camouﬂaged Object in Frequency Domain论文有一个非官方的实现：https://github.com/VisibleShadow/Implementation-of-Detecting-Camouflaged-Object-in-Frequency-Domain感觉这个论文是CVPR2022 Learning in the frequency domain 论文的延续。为了将频率域信息很好地融入到CNN模型中，作者设计了一种新的频率增

2022-12-04 11:36:18 1624 4

原创【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer这篇论文来自清华大学深圳研究生院和字节跳动。从Swin开始，attention一般都包括局部 window attention 和全局attention 两个部分。模型的改进一般有两个：局部注意力和全局注意力。这篇论文也是如此，整体框架如下图所示，核心包括：局部注意力 Interactive Window Self-At

2022-12-03 21:38:52 332

原创【NeurIPS2022】Fast Vision Transformers with HiLo Attention

这个论文的核心贡献是提出了一种新的注意力机制 HiLo（High / Low frequency）。如下图所示，在上面部分，分配了 1−α1-\alpha1−α 比例的 head 用于提取高频注意力，下面分配了 α\alphaα 比例的 head 用于提取低频注意力。高频注意力：在2x2的窗口中计算 attention。低频注意力：将2x2的窗口池化，得到的特征做为 K 和 V。原始特征做为 Q，再计算注意力。（基本上和 PVT 中的计算方法一样）。因为 KV 特征维度减少，计算效率显著提升。论文中还

2022-12-03 20:20:05 327

原创【ECCV2022】DaViT: Dual Attention Vision Transformers

消融实验中有趣的是两个 attention 模块的顺序，如下表所示。因此，作者使用了两种 attention，如下图所示，分别是在token维度上进行计算最常规的 windows self-attention，和在 channel 维度上计算的 channel group self-attention。Transformer都是在处理 PxC 二维的数据，其中 P 是token 的数量，C是特征的维度。论文的核心思想就是这些了，和以往论文不同的是，论文写了一个 Analysis 章节，专门分析模型的特点。

2022-11-18 19:33:00 529

原创【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers

论文地址：https://arxiv.org/abs/2207.05557代码地址：https://github.com/hunto/LightViT。

2022-11-18 06:59:55 322

原创【ECCV2022】AMixer: Adaptive Weight Mixing for Self-Attention Free Vision Transformers

Vision Transformer模型最近非常流行，最后也出现了一些以 MLP-Mixer 为代表的完全由MLP组成的模型（下图展示了attention 和 MLP 模型的区别）。另外，f动态卷积只能生成空间共享的权值，而本文的方法可以为不同的空间位置产生特定的权值。本文的方法比使用MLP直接预测参数的方法，包括合成器和动态卷积，高效得多。在ImageNet的实验结果可以看出，AMixer-DeiT-S所取得的准确率为80.8%，比DeiT-S的79.8%提高了1%。建议用2分钟时间学习一下谷歌公司的。

2022-11-14 18:13:19 389

原创【NeurIPS2021】MLP-Mixer: An all-MLP Architecture for Vision

总体架构如下图所示，如图举例：将图片拆分为9个patch，用一个FC层将所有patch提取特征变为 token，经过 N 个Mixer层，进一步提取特征，最后用一个 FC 层预测类别。MLP-Mixer将上图所示的这两个任务切割开来，用两个MLP网络来处理，分别为**（1）不同位置的mix叫做token-mixing （2）同一位置不同通道的mix叫做channel-mixing**。之所以叫Mixer，是因为卷积其实就是相当于mix不同维度的特征。用5分钟时间学习一下谷歌公司的 MLP-Mixer。

2022-11-03 03:16:18 354 2

原创【ACMMM 2022】Depth-inspired Label Mining for Unsupervised RGB-D Salient Object Detection

这篇论文主要是利用无监督的思想，来解决RGBD显著性检测问题。通过观察，depth包括更明显的对比度，可以更好的为显著性检测提供线索。因此作者提出一种全新的思路，用 depth 来估计目标区域，然后以此为RGB图像中的显著性检测提供线索。作者使用 applyColorMap 将depth映射到彩色空间，这里为了提升性能，作者使用两种颜色映射，然后分别计算得到一个目标区域。代码：https://github.com/youngtboy/DLM。这篇论文的想法非常有趣，细节可以参考作者论文，这里不再过多介绍。

2022-10-29 00:18:41 478

原创【ACMMM 2022】Learning Hierarchical Dynamics with Spatial Adjacency for Image Enhancement

不过，和分类中使用的 Mixup 有一定区别，该思想来自于论文：Contrastive Learning for Compact Single Image Dehazing，如下图所示，UNet 的skip connection 一般是直接相加，但 Mixup 的思想是加入一个参数来自适应的调节特征输入的权重。该论文的研究动机：近年来动态网络非常流行，因此作者引入了 channel-spatial-level，structure-level 和 region-level 的动态机制用于图像增强。

2022-10-28 21:16:25 440

原创【ACMMM2022】Structure-Inferred Bi-level Model for Underwater Image Enhancement

该论文提出了一个 Structural-Inferred Bi-level Model (SIBM) 用于水下图像增强，集成了三种模态的知识：semantic domain, gradient domain, pixel domain. （非常奇怪，不清楚为什么题目要叫做 bi-level）不过，架构图中该模块应该是有三个输出，但这个模块图中只有一个输出，应该是作者不小心漏画了。消融实验中，作者分析了三个分支的有效性，损失函数的有效性，尺度、边缘算子的有效性。其它的部分可以参考作者论文，这里不再多说。

2022-10-28 20:41:37 439

原创【NeurIPS 2022】SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

SegFormer 是NeurIPS 2021 提出的方法，如下图所示，是一个 encoder-decoder 结构，encoder 部分是标准的 Transformer，decoder 把之前输出的特征拼接，然后利用MLP得到最终输出。本文提出的 SegNeXt，主要改进了两部分：1）encoder 里 Transformer 结构的 attention 使用多尺度卷积注意力替换；2）改进了 decoder 的结构。

2022-10-05 19:15:22 733

原创【ACM MM 2021】Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection

代码： https:// rmcong.github.io/proj_CDINet.html。

2022-10-03 11:49:22 262

原创【CVPR2022】NFormer: Robust Person Re-identification with Neighbor Transformer

如下图所示，由于光照、遮挡、视角等因素，同一个类别的图片可能外观存在差异，导致outlier比较敏感（空心样本是因遮挡产生的ourlier，跑到别的类里了）。为此，作者提出了 Neighbor Transformer Network (NFormer)，旨在建模所有输入图像之间的关系，可以看到所有类内部的联系更加紧密，outlier能够正确分类。原始的softmax计算是聚合所有的样本，但是不相关样本的显著存在会对最终计算产生负面影响。该模块如下图所示，在以前的 attention 计算中，需要将输入。

2022-09-27 12:58:02 1040

原创【CVPR2022】Beyond Fixation: Dynamic Window Visual Transformer

可以看出，一共6个 channel 的数据，均分成三份，分别用尺寸为 7、14、21的 window 计算 attention ，最后将特征拼接，通过一系列pooling，FC层后，用 softmax 给各个通道分配权重，然后跟原始特征加权。因此，作者提出使用多尺度的窗口计算 attention，类似于 SKNet ，用 softmax 动态为各个分支的窗口分配权重。个人感觉，这个论文的 idea 部分来自于 SKNet ，模块的图也类似。总体架构上还是标准的4阶段，如下图所示。

2022-09-24 17:55:32 239

原创【CVPR2022】CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

这个论文的想法是受了 CCNet 的启发，CCNet 是认为注意力计算过于复杂，因此提出 criss-cross 的注意力计算方法（如上图所示）。这篇论文中提出的 CSWin 是使用了条状区域来计算 attention ，在网络的不同阶段使用不同宽度的条状区域，在节约计算资源的同时实现了强大的特征建模能力。同时，论文还有一个创新点是提出了Locally Enhanced Positional Encoding，这个创新相对弱一些，后面会介绍。CSWin 总体框架如上图所示，主要是一个四阶段的网络，只是 at

2022-09-24 16:16:00 318

原创【CVPR2022】AdaViT: Adaptive Vision Transformers for Efficient Image Recognitio

类似的论文从去年起有很多，比如【ICLR2022】Expediting vision transformers via token reorganization，【AAAI2022】EVO-vit，【NeurIPS2021】DynamicVIT，【ARXIV2106】IA-RED2，【NeurIPS2021】Dynamic Grained Encoder for VIT 等等，都是在丢弃一些 token 来加速VIT的计算。因这里使有和了 hard gate，自然会面临训练时无法反向传播的问题。

2022-09-24 11:30:33 284

空空如也

空空如也