CV科研随想录-CSDN博客

原创论文阅读《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》

图像复原任务旨在从低分辨率的图像（模糊，子采样，噪声污染，JPEG压缩）中恢复高质量的图像。图像复原是一个不适定的放问题，因为图像在退化过程中丢失了重要的信息。因此，图像复原任务需要充分挖掘低分辨率图像中的丰富信息。自然场景下的图像包含全局、区域与局部三个尺度的信息。局部信息指的几个像素跨度的特征信息如边缘与局部颜色特征，这些信息可以通过小卷积核来获取。

2023-12-27 22:45:25 1180

原创论文阅读《Restormer: Efficient Transformer for High-Resolution Image Restoration》

图像恢复任务旨在从受到各种扰动（噪声、模糊、雨滴等）影响的低质量图像中恢复出高质量图像，该任务需要强大的先验知识作为引导。基于卷积神经网络的方法感受野受限，无法对像素间的长程依赖进行建模，且在推理过程卷积核的参数固定，无法应对多变的输入内容。相对而言，Transformer中的自注意力机制可以解决以上的问题，而传统的Transformer空间注意力计算过程显存消耗大。为了解决以上的问题，文中提出一种高效的Transformer框架（Restormer）用于图像恢复任务。

2023-12-27 13:39:15 1368

原创论文阅读《Wavelet-Based Texture Reformation Network for Image Super-Resolution》

这篇论文提出了一种基于小波变换的纹理重构网络（WTRN），用于从参考图像中提取和迁移纹理信息，提高低分辨率图像的质量。该方法利用小波变换将纹理特征分解为不同频率的子带，分别进行特征匹配和特征交换，同时引入了一种基于小波的纹理对抗损失函数，使得生成的图像具有更真实的纹理效果。该方法在四个数据集上的实验结果表明，它优于之前的RefSR方法。图像超分辨率的方法分为三种：基于失真的方法，基于感知的方法和基于参考的方法。

2023-12-25 14:07:35 1042 1

原创论文阅读《Spherical Space Feature Decomposition for Guided Depth Map Super-Resolution》

GDSR是一种多模态图像处理的热门话题，它的目的是利用同一场景中的高分辨率（HR）RGB图像中的额外信息来放大低分辨率（LR）深度图。这个任务的关键步骤是有效地提取RGB/深度特征中的域共享和域独有信息。此外，还需要解决三个细节问题，即模糊的边缘，噪声的表面和RGB纹理伪影。为了解决这些问题，文中提出了一种球形空间特征分解网络（SSDNet）。为了更好地建模跨模态特征，使用基于Restormer块的RGB/深度编码器来提取局部-全局特征。

2023-12-25 13:56:04 947

原创论文阅读《SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map Super-Resolutio》

深度图的图像引导超分辨率在各个领域有着广泛的应用。但是，复杂的成像环境会导致深度图的结构边缘变得模糊。如图2所示，从梯度图可以看出，它能够很好地表现出图像的结构信息。从频谱图可以看出，高分辨率的深度图和RGB图像都包含了丰富的高频和低频信息，而低分辨率的深度图则丢失了高频信息。基于这些观察，本文关注于利用梯度域和频域来进行深度图的超分辨率。在梯度域中，使用梯度校准模块（GCM）来提取梯度特征的结构表达信息。

2023-12-15 22:25:35 924

原创论文阅读《Parameterized Cost Volume for Stereo Matching》

现有的立体匹配方法针对大视差场景预测时时间和显存消耗成本大，限制了模型在现实世界的应用。先前的研究工作主要聚焦于使用局部信息的动态代价体进行迭代优化，此类方法虽可以节省内存，但由于缺乏全局视差视野而需要更多的迭代步数才能收敛到目标视差，如图1(a) 所示。为此，文中提出使用高斯分布来编码视差空间。

2023-12-14 22:16:30 1227 1

原创论文阅读《DPS-Net: Deep Polarimetric Stereo Depth Estimation》

立体匹配模型难以处理无纹理场景的匹配，现有的方法通常假设物体表面是光滑的，或者光照是受控的，这些条件在实际场景中很难满足，只适用于物体级别的重建或者特定的拍摄环境。此外，这些方法还难以处理偏振图像中表面法向的固有歧义性，例如方位角和天顶角的歧义性（指从偏振图像中恢复表面法向量时，由于不同的反射类型和非线性方程的影响，可能存在多个解，导致法向量的方位角和天顶角不唯一），这些歧义性需要依赖于预先计算的粗糙深度或者已知的反射类型来解决。

2023-12-14 00:46:20 1187 1

原创论文阅读《Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching》

当前基于相关性代价体的立体匹配方法在跨域预测上表现不佳，导致模型在现实世界应用困难。大场景差异、不平衡的视差分布是带来噪声与特征失真的主要原因，也降低了模型的鲁棒性。此外，感受野受限限制模型获得全局信息，使模型对不同数据集敏感。针对该问题，文中提出一种动态计算相关性的方法 Uncertainty Guided Adaptive Correlation (UGAC) 用于调整模型适应不同场景。在warp过程使用一个基于方差的不确定估计模块自适应调整采样区域。

2023-12-13 16:38:11 839 3

原创论文阅读《High-frequency Stereo Matching Network》

在立体匹配研究领域，当前的方法在估计视差图的细微特征方面表现不足，尤其是在对象的边缘性能方面。此外，弱纹理区域的混淆匹配和细小物体的错误匹配也是模型性能表现不佳的重要因素。在迭代式的方法中，现有的基于GRU的结构存在一定局限性，用于生成视差图更新的信息与GRU的隐藏状态信息耦合在一起，使得在隐藏状态中保持细微的细节变得困难。

2023-12-12 00:20:21 1291 1

原创论文阅读《Masked representation learning for domain generalized stereo matching》

近年来，立体匹配的领域泛化能力受到了越来越多的关注，但是现有的方法往往忽略了模型在不同训练阶段的泛化性能变化。如图1所示。现有的工作常使用带有标签的目标域样本来测试模型的泛化性能，而现实世界里，目标域数据集的标签是难以获取的。本文基于掩码表征学习和多任务学习的思想，提出了一种简单有效的掩码表征方法，用于提升立体匹配的领域泛化性能。具体地，将掩码后的左视图和完整的右视图作为模型的输入，然后利用一个轻量级的解码器和一个特征提取模块来重建完整的左视图。

2023-12-11 15:14:18 1189

原创论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》

立体匹配模型是近年来的研究热点。但是，现有的方法过分依赖特定数据集上的简单特征，导致在新的数据集上泛化能力不强。现有的立体匹配方法在训练过程中容易学习合成数据集中的表面特征（捷径特征 shortcut features）。这些特征主要有两种伪影（artifacts）：一是局部颜色统计特征的一致性，二是对局部色度特征的过度依赖。这些特征不能有效地适应不同域之间的迁移。之前的研究主要关注于（1）利用目标域的有标签数据对模型进行微调。（2）同时使用有标签的合成数据集和无标签的真实数据集来训练域自适应立体匹配模型。

2023-12-10 19:55:59 1268 1

原创论文阅读《Unsupervised Deep Asymmetric Stereo Matching with Spatially-Adaptive Self-Similarity》

无监督立体匹配因摆脱视差标签的限制而广受关注，而多数无监督立体匹配算法都基于左右视图具有一致的视觉属性的前提，当该前提不成立时模型可能会坍塌。在本文中，作者提出一种空间自适应的自相似（SASS）用于无监督非对称的立体匹配。该方法通过扩展自相似来自适应生成对非对称鲁棒的深度特征。为了学习到有效的采样模式，作者提出了一种带有正负权重的对比相似性损失，该损失进一步引导SASS生成对称性不敏感的特征，同时保持同名点特征之间的一致性。在多个数据集上的实验结果表明该方法可以应对不同尺度与不同非对称的噪声条件。

2023-12-10 00:37:00 822 1

原创论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》

事件相机在低光照条件下可以稳定工作，然而，基于事件相机的立体方法在域迁移时性能会严重下降。无监督邻域自适应作为该问题的一种解决方法，传统的无监督自适应方法依赖于源域的标签值，但源域的视差标签值难以获取。针对该问题，文中提出一种新的无监督域自适应密集时间立体匹配方法（ADES）用于缓解目标域域源域之间的域偏差导致的模型性能下降问题。首先，文中提出一种自监督模块通过图像重建来训练在目标域的模型。与此同时，在源域上训练一个伪影去除网络协助去除重建图像中的间歇性伪影。

2023-12-08 21:59:24 1197 1

原创论文阅读《Robust Monocular Depth Estimation under Challenging Conditions》

现有SOTA的单目估计方法在理想的环境下能得到满意的结果，而在一些极端光照与天气的情况下往往会失效。md4all。该方法首先生成一组与正常样本对应的复杂样本，然后通过生成的样本来计算相应原始视图上的标准损失，引导其自监督或者全监督来训练模型，使得模型在不同条件下能够恢复原始的信息。在nuScenes 和 Oxford RobotCar 数据集上的结果表明该方法的有效性，在标准条件下和极端条件下的表现都超过了之前的工作。

2023-09-06 17:32:24 662 1

原创 ELFNet: Evidential Local-global Fusion for Stereo Matching

针对现有立体匹配模型面临可靠性和跨域泛化的问题，本文提出了Evidential Local-global Fusion（ELF）框架，该框架包含了不确信估计和置信度感知融合模块，并基于模糊不确定性和认知不确定性来预测视差图。此外，该模型还使用逆伽马分布来引导多层级融合与基于成本代价体和transformer结构的立体匹配信息融合。实验结果表明该框架在准确度和跨域泛化性能上达到了最先进的水平。

2023-08-24 22:20:15 415

原创论文阅读《Centralized Feature Pyramid for Object Detection》

特征金字塔模块在众多计算机视觉任务中都有优异的性能表现。针对现有的方法过渡关注于层间的特征交互而忽略了层内的特征交互的问题，本文提出一种基于全局显式集中式特征调节的中心化的特征金字塔（Centralized Feature Pyramid, CFP）用于目标检测任务。其中，发明了一个空间视觉中心策略用于捕获信息，包含一个捕获全局长程依赖的轻量化MLP与一个捕获局部角落区域信息的可学习的视觉中心机制；

2023-05-08 16:22:02 787 2

原创论文阅读《PIDNet: A Real-time Semantic Segmentation Network Inspired by PID》

针对双分支模型在语义分割任务上直接融合高分辨率的细节信息与低频的上下文信息过程中细节特征会被上下文信息掩盖的问题，提出了一种新的网络架构PIDNet，该模型受启发于PID控制器并包含：空间细节分支、上下文分支与边界注意力分支。通过使用边界注意力来引导空间细节与上下文信息融合。实验结果表明该模型的精度超过了具有相似推理速度的所有模型，在Cityscapes和CamVid数据集上取得了最佳的推理速度和精确度的平衡。将PID控制器与CNN相结合，提出一个三分支的网络结构。

2023-04-30 22:38:31 1100

原创论文阅读《Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty Est》

受启发于多任务学习模型，本文提出一种联合了视差与不确定性估计的损失函数用于监督立体匹配模型的训练，通过使用KL散度来约束预测的不确定性分布与预测误差分布，从而实现模型性能的提升。此外，文中还提出一种可微的 soft-histogramming 来拟合分布。实验结果表明，该方法可以使得模型在视差与不确定性预测的性能得到较大提升。提出一种新的不确定性估计模块来从视差子网络生成的中间多分辨率视差图中提取信息。提出一种可微的软直方图技术，用于近似视差误差和不确定性的分布。基于KL散度损失监督模型训练。

2023-04-19 16:51:51 370

原创论文阅读《GlueStick: Robust Image Matching by Sticking Points and Lines Together》

针对视角变化时在闭塞、无纹理、重复纹理区域的线段匹配难的问题，本文提出一种新的匹配范式（GlueStick），该方法基于深度图神经网络将点、线的描述符统一到一个框架中，利用点之间的信息将来自匹配图像之间的线进行粘合，提高了模型的联合匹配效率，表明了在单一框架中使用两种特征的互补性能大幅度提升性能。使用数据驱动的方法代替启发式几何策略进行线匹配，在统一的框架中联合表征点与线。提供了一种新的架构，充分挖掘图像内特征之间的局部关联信息。实验结果表明，所提出的方法比之前最先进的方法有较大提升。

2023-04-12 20:14:34 1699 1

原创论文阅读《NeRF-Supervised Deep Stereo》

针对深度估计的标签数据难以获取，自监督方法在病态（遮挡、非朗伯面）区域的表现差，跨域泛化能力弱的问题，本文提出了一种新的框架用于在无标签条件下训练双目立体深度估计模型，该方法通过NeRF来对单目拍摄的图像序列进行有监督训练得到目标场景的神经辐射场，使用体渲染得到的立体三元组来补偿遮挡区域的信息，并将深度图作为代理标签（proxy label）对双目深度估计模型进行训练。

2023-04-11 11:14:26 1202 1

原创论文阅读《LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs》

本文针对 3D 卷积过程中深度分离卷积与大卷积核卷积难以有效应用的难题，提出了空间分区卷积与与适用于3D卷积过程的大卷积核卷积方式，通过在空间上相邻的位置之间共享权重来将大卷积核重新映射为小卷积核，与普通大卷积核相比，该方法的延迟更短，而且空间维度之间的权重共享可以克服过拟合问题，实验数据表明该方法在多个下游任务中有较好的性能表现。

2023-04-06 13:48:33 669

原创论文阅读《Iterative Geometry Encoding Volume for Stereo Matching》

该文章针对立体匹配中缺乏非局部几何知识，难以处理病态区域中的局部歧义性的问题，提出用于立体匹配。该模型构建了一个来学习几何信息与上下文信息，并通过迭代优化的策略来更新视差图。

2023-04-05 12:08:14 708

原创 torch.gather函数的简单理解与使用

功能：根据索引来对高维tensor进行选择。

2023-03-23 16:14:14 197

原创论文阅读《Parallax Attention for Unsupervised Stereo Correspondence Learning》

不同数据集的视图之间的基线、焦距与分辨率不同，基于Cost Volume固定预设视差范围的立体匹配方法无法很好处理大视差预测问题。为此，作者提出一个基于视差注意力机制的立体匹配方法来捕捉大视差范围的匹配点的信息，通过将极线约束与注意力机制结合，计算沿着极线方向的特征相似度来获取匹配点之间的匹配关系。

2023-03-21 12:34:39 400 1

原创论文阅读《Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields》

基于神经辐射场的渲染过程中，每个像素仅对应一条渲染射线导致当训练与测试图像尺度不同会引起渲染场景出现模糊与锯齿现象。增加采样光线（增加采样频率）可以缓解锯齿与模糊现象但同时伴随计算量的剧增，为此Mip-NeRF的将沿射线的渲染过程改进为渲染圆锥体的过程。

2023-03-14 15:05:25 231 1

原创论文阅读《Block-NeRF: Scalable Large Scene Neural View Synthesis》

Block-NeRF是一种能够表示大规模环境的神经辐射场（Neural Radiance Fields）的变体，将 NeRF 扩展到渲染跨越多个街区的城市规模场景。该方法将场景分解为单独训练的 NeRF，使渲染时间与场景大小解耦，并允许对环境进行每个街区的更新。

2023-03-10 17:37:02 2168

原创论文阅读《Point NeRF:Point-based Neural Radiance Fileds》

体素神经渲染的方法生成高质量的结果非常耗时，且对不同场景需要重新训练（模型不具备泛化能力），而基于MVS的方法可以快速重建场景。Point NeRF结合了两种方法的优点，通过在基于光线进行的渲染管道中聚合场景表面附近的神经点特征来有效渲染。Point NeRF与可以与其他 3D 重建方法结合，并使用一种新的剪枝与生长机制来处理此类方法中的错误与异常值，其重建方法比NeRF提升了30倍。

2023-03-09 20:46:04 1148

原创基于神经辐射场（Neural Radiance Fileds， NeRF）的三维重建- 简介

Nerf（neural Radiance Fileds）为2020年ICCV上提出的一个基于隐式表达的三维重建方法，使用2D的 Posed Imageds 来生成（表达）复杂的三维场景。现在越来越多的研究人员开始关注这个潜力巨大的领域，也有方方面面关于 Nerf 的工作在不断被提出。Nerf 为输入为稀疏的、多角度、带有姿态信息的图像的神经网络模型，可以用于渲染出任意视角下的清晰照片。

2023-03-04 00:29:02 2870

原创论文阅读《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》

此文提出了一个基于transformer的匹配方法名为STereo TRansformer (STTR)，该方法使用位置信息与注意力机制来提高模型表现。放宽了视差范围限制明确了遮挡区域并进行了置信度估计保证了匹配的唯一性基于transformer架构，使用可以选择的自注意力与交叉注意力机制和最优传输理论来进行特征匹配提出一个相对位置编码来增强匹配特征的表达性使用注意力机制来处理匹配过程中的易混淆特征提出一种内存节省的STTR模型，使得模型能在现有的硬件上训练与推理。

2023-02-27 11:44:32 271 1

原创 pytorch单机多卡混合精度分布式训练(DDP+AMP) 简单完整例程

pytorch单机多卡混合精度分布式训练(DDP+AMP) 简单完整示例

2022-11-06 15:15:40 1307

原创论文阅读《Local Similarity Pattern and Cost Self-Reassembling for Deep Stereo Matching Networks》

基于CNN的立体匹配网络存在以下的不足：1) 卷积特征(CF)只学到了外观信息。2)由于卷积操作带有滤波作用，目前基于卷积的视差细化模块往往会产生过于平滑的结果。在这篇工作中，作者提出了两个模块来解决这些问题，首先，为深度立体匹配模型引入了一个成对的特征，名为LSP(Local Similarity Patern)，通过探索邻域之间的信息来得到一个更具有判别性的匹配特征。其次，作者设计了一个视差增强策略，并将其应用于代价分布与视差图上。

2022-10-16 13:21:29 797 1

原创论文阅读《SimpleRecon: 3D Reconstruction Without 3D Convolutions》

传统的室内三维场景重建方法分为两个阶段:单图像深度估计、深度融合与表面重建。现有的基于学习的重建方法依赖于3D卷积，使得模型的计算复杂度较高。为此，本文提出一种多视图深度估计模型，主要包含两个部分：(1) 精心设计的2D CNN模块，该模块充分利用了图像先验以及平面扫描特征量和几何损失。（2）使用多层感知器(MLP)将关键帧和几何元数据集成到代价体中。

2022-10-15 10:57:21 1489 1

原创概率扩散模型（Denoising Diffusion Probabilistic Models）基本原理

引入：大自然中的扩散现象都遵循一个熵增的过程，比如一滴墨水滴到清水里，比如罐子里的气体一步一步扩散到空气中，都是一个不可逆的过程，但当前状态是包含着上一个状态的信息且扩散规律是可遵循的。Diffusion Models 就是基于一些假设条件，通过找到并掌握扩散过程的每一个步骤与当前的状态，从一个初始的各向同性的高斯噪声分布来一步一步逆推上一个的状态，经过不断的逆推得到了粒子原来的状态。

2022-10-11 14:41:36 1585

原创论文阅读《Revisiting Domain Generalized Stereo Matching Networks from a Feature Consistency Perspective》

虽然目前立体匹配网络能取得不错的效果，但在跨域预测时的效果并不佳。在跨域预测过程中，保持匹配像素之间的特征一致性是提高立体匹配网络泛化能力的关键因素。为此，本文提出了像素级的对比学习，使用立体对比特征损失（The stereo contrastive feature loss）约束匹配像素对学习到的特征之间的一致性。

2022-10-03 11:02:09 595 3

原创 pytorch：子模型参数冻结 + BN冻结

使用场景：需要完全冻结某部分的 weight 加载预训练模型时，如果只将 para.requires_grad = False ，并不能完全冻结模型的参数，因为模型中的 BN 层并不随 loss.backward() 与 optimizer.step() 来更新，而是在模型 forward 的过程中基于动量来更新，因此需要每个 forward 之前冻结 BN 层：完整的冻结方式如下：# 冻结BNdef freeze_bn(m): classname = ly.__class__.__na

2022-05-27 18:13:36 2460 4

原创论文阅读《LEAStereo:Hierarchical Neural Architecture Search for Deep Stereo Matching》

论文地址：https://arxiv.org/pdf/2010.13501.pdf源码地址：https://github.com/XuelianCheng/LEAStereo概述神经网络结构搜索（NAS）方法已经在多个邻域得到了应用，其基础思想为让模型在搜索空间中（如不同卷积核大小）根据设定的搜索策略来得到最适合该任务的架构。目前立体匹配任务是基于人工设计的复杂模型结构来实现的，NAS方法还没应用到该邻域中。本文提出一种端到端训练的分层NAS框架，通过将特定任务的人类知识融入神经结构搜索框架中来

2022-05-23 20:46:02 670

原创立体匹配（视差估计）评价指标（MiddleBurry、KITTI 2012、KITTI 2015、Scene Flow、ETH3D)

MiddleBurry 数据集：评估区域：dics(Depth Discontinuity Region)：视差不连续区域all(All Region)：全部区域non-occ（Non-Occlusion Region）：非遮挡区域评估指标：bad δD\delta_{D}δD：1N∑(x,y)∈N{∣dest(x,y)−dgt(x,y)∣>δD}\frac{1}{N} \sum_{(x, y)\in N}\{|d_{est}(x, y)-d_{gt}(x, y)|>\del

2022-04-29 12:13:18 7611 7

原创论文阅读《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》

论文地址：https://arxiv.org/abs/2003.08934源码地址：https://github.com/yenchenlin/nerf-pytorch背景知识体渲染体渲染假设了一个基本的辐射模型，如图所示：假设空间中进入人眼的一条射线上的每一点都辐射出一定的能量，那么最后人眼接收到的总能量为该视线上所有粒子辐射能量的累积；体渲染可以简化为以下的模型：图中方格为一个成象平面，0为该成像对应的视角，ddd 空间中某个视角下视线中的所有粒子辐射出总能量最后在二维图像上展示为

2022-04-28 21:27:45 1003

原创 MiddleBury与SceneFlow 数据集相机参数与pfm文件解析

MiddleBury相机参数（calib.txt）cam0=[1758.23 0 953.34; 0 1758.23 552.29; 0 0 1]cam1=[1758.23 0 953.34; 0 1758.23 552.29; 0 0 1]doffs=0baseline=111.53width=1920height=1080ndisp=290isint=0vmin=75vmax=262cam0,1: 相机内参：[f 0 cx; 0 f cy; 0 0 1] f: 焦距

2022-04-24 16:16:08 3116 14

原创论文阅读《Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometry》

论文地址：https://arxiv.org/abs/2112.08177源码地址：https://github.com/baegwangbin/MaGNet概述出发点：MVS构建多视角匹配代价体带来巨大的显存消耗单目深度估计在无（弱）纹理区域、反射表面、运动的物体的情况下的的估计效果比好为此，本文提出一种融合了单视图深度概率与多视图几何的新框架(Monocular and Geometric Network : MaGNet)，对于每一帧图像，MaGNet预测单视图的深度概率分布，并将

2022-04-22 21:39:34 1107

空空如也

空空如也