BIT可达鸭-CSDN博客

原创【CVPR2024】ReID3D：首个使用激光雷达行人充实别 ReID 的工作！

基于摄像头的重识别（ReID）系统在公共安全领域得到了广泛的应用。然而，摄像机往往缺乏对人类三维形态信息的感知，并且容易受到各种限制，如照明不足、背景复杂和个人隐私，如图：在本文中，我们提出了一种基于激光雷达的 ReID 框架，ReID3D，该框架利用预训练策略来检索三维体型的特征，并引入了基于图的互补增强编码器来提取综合特征。由于缺乏激光雷达数据集，我们构建了第一个基于 LiDAR 的行人 ReID 数据集 LReID，该数据集在几个自然条件变化的室外场景中收集。

2024-03-11 16:55:46 390

原创【2024 目标检测】CascadeV-Det：探究基于点的 3D 目标检测中心点定位的对模型精度影响

本文分析了 3D 目标检测中，中心点定位对于模型精度的影响，并进一步提出了一种级联投票（Cascade Voting）策略，该策略不断地在联级的检测头中，优化基于点的预测的中心点位置，并提供了基于点的预测的高质量三维目标检测。

2024-01-15 14:17:40 1333

原创【2024 行人重识别最新进展】ReID3D：首个关注激光雷达行人 ReID 的工作！

基于摄像头的重识别（ReID）系统在公共安全领域得到了广泛的应用。然而，摄像机往往缺乏对人类三维形态信息的感知，并且容易受到各种限制，如照明不足、背景复杂和个人隐私，如图：在本文中，我们提出了一种基于激光雷达的 ReID 框架，ReID3D，该框架利用预训练策略来检索三维体型的特征，并引入了基于图的互补增强编码器来提取综合特征。由于缺乏激光雷达数据集，我们构建了第一个基于 LiDAR 的行人 ReID 数据集 LReID，该数据集在几个自然条件变化的室外场景中收集。

2023-12-25 22:48:11 1278 2

原创【ICCV 2023】MPI-Flow：什么，只需要单张图片就能训练光流估计模型了？

来源：ICCV 2023机构：北京理工大学 & 小红书论文题目：MPI-Flow: Learning Realistic Optical Flow with Multiplane Images本文的关键思路在于将单图→多视角生成模型，引入数据合成思路，用于多视角任务的训练12.18 作者更新了 Online-training 版本代码，当前只需要准备应用场景的单视角图像，就可以无缝衔接光流估计模型的训练代码（例如 RAFT），并且增强的合成数据的随机性。

2023-12-20 19:58:25 964

原创 ICCV 2023 | MPI-Flow：从单视角构建的多平面图像中学习光流

本文提出了一种从单目图像中使用多平面图像合成成对新视角图像及其光流图的方法，用于弥补真实光流数据集不足的问题，目前已被国际计算机视觉会议ICCV 2023接收

2023-09-14 16:46:01 2004 4

原创【CVPR 2021】无约束生成 - NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

本文提出了一种基于学习的方法，仅使用非结构化的野外照片集合合成复杂场景的新视图。在神经辐射场（NeRF）的基础上，本文的方法使用一个多层感知器的权重作为一个三维坐标的函数，来模拟一个场景的密度和颜色。虽然 NeRF 在受控设置下捕获的静态主题的图像上表现得很好，但它无法在不受控设置的图像中建模许多普遍存在的真实现象，如可变照明或瞬态遮挡。为了解决这个问题，本文引入了一系列的 NeRF 扩展来解决这些问题，从而能够从从互联网上获取的非结构化图像集合中进行精确的重建。

2022-09-28 22:54:27 1389 2

原创【ECCV 2022】Visual Prompt Tuning

目前采用预训练模型的方法包括更新所有的主干参数，即完全微调。本文则介绍了视觉提示调优（VPT）作为一种有效的大型 Transformer 模型的替代方案。VPT 从有效调优大型语言模型的最新进展中获得灵感，在输入空间中只引入了少量（少于模型参数的1%）的可训练参数，同时保持模型主干冻结。对各种下游识别任务的广泛实验表明，与其他参数高效的调优协议相比，VPT获得了显著的性能提高。最重要的是，在许多情况下，VPT在跨模型容量和训练数据规模的情况下甚至优于完全微调，同时降低了每个任务的存储成本。

2022-09-27 21:27:14 1491

原创【大模型迁移 2022】Exploring Visual Prompts for Adapting Large-Scale Models

本文研究了视觉提示（visual prompting）对适应大规模视觉模型的有效性。根据最近的提示调优（prompt tuning）和敌对抗重编程（adversarial reprogramming）方法，本文提出学习一个单一的图像扰动，然后由这个扰动提示的冻结模型执行一个新的任务。通过全面的实验，本文证明了 visual prompting 对 CLIP 特别有效，并且对分布转移具有鲁棒性，实现了与标准线性探头竞争的性能。本文进一步分析了下游数据集的特性、及时设计和输出转换的适应性性能。

2022-09-26 23:25:36 1317 6

原创【CVPR 2021】Shadow Neural Radiance Fields for Multi-view Satellite Photogrammetry

本文提出了一种新的地球观测场景阴影感知多视点卫星摄影测量的通用方法。S-NeRF 遵循了隐式体积表示学习的最新进展。对于每个场景，S-NeRF 使用从已知的视角拍摄的非常高的空间分辨率的光学图像来训练。学习过程不需要标签或形状先验：它是由图像重建损失进行自监督的。为了适应来自方向光源（太阳）和漫射光源（天空）的不断变化的光源条件，本文以两种方式扩展了 NeRF 方法。首先，通过局部光源可见场模拟太阳的直接照明。第二，从漫射光源的间接照明作为一个非局部色场作为太阳位置的函数。

2022-09-24 11:16:38 886

原创【CVPR 2022】NeRFReN: Neural Radiance Fields with Reflections

神经辐射场（NeRF）利用基于坐标的神经场景表示法实现了前所未有的视图合成质量。然而，NeRF 的视图依赖关系只能处理简单的反射，如高光，而不能处理复杂的反射，如那些来自玻璃和镜子。在这些场景中，NeRF 将虚拟图像建模为真实几何，导致不准确的深度估计，当违反多视图一致性时，会产生模糊的渲染，因为反射的对象可能只在某些视点下看到。为了克服这些问题，本文引入了 NeRFReN，它建立在 NeRF 上来建模反射场景。

2022-09-20 17:16:42 1127

原创【CVPR 2022】HDR-NeRF: High Dynamic Range Neural Radiance Fields

本文提出了高动态范围神经辐射场（HDR-NeRF），以从一组不同曝光的低动态范围（LDR）视图中恢复 HDR 辐射场。通过 HDR-NeRF，我们能够在不同的曝光下生成新的 HDR 视图和新的 LDR 视图。HDR-NeRF 的关键是建模简化的物理成像过程，它指示一个场景点的亮度转换为 LDR 图像中的像素值与两个隐式函数：一个辐射场和一个 tone mapper。其中辐射场对场景辐射进行编码（值在000到+∞+∞+∞之间变化），通过给出相应的射线原点和射线方向，输出射线的密度和亮度。

2022-09-19 21:39:48 944

原创【ICML 2018】Noise2Noise: Learning Image Restoration without Clean Data

本文将基本的统计推理用于通过机器学习进行信号重建——将损坏的观察映射到干净的信号，并得出了一个简单而强大的结论：可以只通过带噪图像来学习恢复图像，在性能上甚至有时超过使用干净的数据训练的模型，而无需明确的图像先验或噪声的概率模型。在实践中，作者证明了一个单一的模型可以仅基于噪声数据学习图像的噪声去除，去噪合成蒙特卡罗图像，并重建欠采样的 MRI 扫描——所有这些都被不同的过程破坏（加噪）。从损坏或不完整测量的信号中进行重建是统计数据分析的一个重要子领域。

2022-09-18 15:28:12 678

原创【CVPR 2022】Deblur-NeRF: Neural Radiance Fields from Blurry Images

神经辐射场（NeRF）由于其显著的合成质量，近年来在三维场景重建和新的视图合成方面得到了广泛的关注。然而，在野外捕捉场景时经常发生的由离焦或运动引起的图像模糊，严重降低了其重建质量。为了解决这个问题，本文提出了 Deblur-NeRF，这是第一种可以从模糊的输入中恢复清晰的 NeRF 的方法。为此作者采用了一种综合分析的方法，通过模拟模糊过程来重建模糊视图，从而使 NeRF 对模糊输入具有鲁棒性。

2022-09-16 19:01:34 860

原创【CVPR 2021】pixelNeRF: Neural Radiance Fields from One or Few Images

现有的构建 NeRF 的方法通常独立地优化对每个场景的表示，需要许多校准的视图和显著的计算时间。作者通过引入了全卷积的架构，为解决这些缺点迈出了一步。这允许网络跨多个场景进行训练，以预先学习一个场景，使它能够以前馈的方式从稀疏的视图集（只有一个视图）执行新的视图合成。然后利用 NeRF 的体积渲染方法，pixelNeRF 可以直接从图像中训练，而无需明确的三维监督。作者在 ShapeNet 基准测试上进行了广泛的实验，包括保留的对象以及整个看不见的类别。

2022-09-15 22:21:27 652

原创【ECCV 2020】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

本文提出了一种方法，通过使用稀疏的输入视图集来优化底层的连续体积场景函数，来实现合成复杂场景的新视图的最新结果。本文的算法使用全连接（非卷积）深度网络表示一个场景，该网络的输入是一个连续的 5D 坐标（包括空间位置(x,y,z)(x,y,z)(x,y,z)和视角方向(θ,φ)(θ,φ)），其输出是该空间位置的体积密度（volume density，可以理解成不透明度σ\sigmaσ）和视图相关的发射辐射cc。

2022-09-15 11:30:20 560

原创【CVPR 2022】NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images

神经辐射场（NeRF）是一种技术，从高质量的新观点合成的姿态输入图像的集合。与大多数视图合成方法一样，NeRF 使用调制的映射低动态范围（LDR）作为输入；这些图像经过一个有损的摄像机管道处理，可以平滑细节、剪辑高光，并扭曲原始传感器数据的简单噪声分布。本文中作者修改了 NeRF，直接对线性原始图像进行训练，保持场景的全动态范围。通过从生成的 NeRF 中渲染原始输出图像，我们可以执行新的高动态范围（HDR）视图合成任务。

2022-09-14 22:30:03 865

原创【CVPR 2022 多模态融合（有3D检测）】Multimodal Token Fusion for Vision Transformers

在本文中，作者提出了一种多模态 Token 融合方法（Token Fusion），针对基于 Transformer 的视觉任务。为了有效地融合多种模式，Token Fusion 动态检测无信息的 token，并用投影和聚合的跨模态特征替代这些 token。

2022-09-12 18:48:45 2207

原创【2022】计算机视觉算法岗面试题目和复习知识点汇总

基于上述两个观察就有了这篇文章的cascade R-CNN，简单讲cascade R-CNN是由一系列的检测模型组成，每个检测模型（检测头）都基于不同IOU阈值的正负样本训练得到，前一个检测模型的输出作为后一个检测模型的输入，因此是stage by stage的训练方式，而且越往后的检测模型，其界定正负样本的IOU阈值是不断上升的。补充：cross-attention的Q代表当前序列，K和V是同一个输入，对应的是被编码的序列，也即encoder最后一层的输出结果；为一个query和key向量的维度。

2022-09-03 21:55:42 1711

原创【CVPR2022 点云3D检测SOTA】SoftGroup for 3D Instance Segmentation on Point Clouds

现有的最先进的三维实例分割方法先进行语义分割然后执行分组。当执行语义分割时，会进行硬预测，使每个点与单个类相关联。然而，如下图所示，由硬决策引起的错误传播到分组中会导致预测实例与真值之间的低重叠，以及出现许多假阳性。为了解决上述问题，本文提出了一种被称为 SoftGroup 的三维实例分割方法，即进行自下而上的软分组，然后进行自上而下的细化。...

2022-08-18 11:07:13 698

原创【2022 小目标检测综述】Towards Large-Scale Small Object Detection: Survey and Benchmarks

本文的主要贡献有：- 回顾了深度学习时代小目标检测的发展，并对该领域的最新进展进行了系统的调查，并对这些方法的优利弊进行了深入的分析；- 发布两个小目标检测的大规模基准，第一个专门用于驾驶场景，另一个专门用于空中场景。所提出的数据集是首次尝试为SOD量身定制的大规模基准测试；- 研究了几种具有代表性的目标检测方法在本文的数据集上的性能，并根据定量和定性的结果进行了深入的分析，有利于后续小目标检测的算法设计；...

2022-07-31 14:34:15 2693

原创【点云】M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers

本文提出了一种新的三维目标检测架构，M3DETR，它将不同的点云表示（原始、体素、鸟瞰图）与基于多尺度特征金字塔的不同特征尺度相结合。M3DETR 是第一种使用 Transformer 同时统一多个点云表示、特征尺度以及建模点云之间的相互关系的方法。...

2022-07-26 14:35:00 760

原创【CVPR2022】A Unified Query-based Paradigm for Point Cloud Understanding

对三维点云的理解是自动驾驶和机器人技术中的一个重要组成部分。在本文中，作者提出了一种新的嵌入-查询范式（EQ-范式），用于三维理解任务，包括检测、分割和分类。EQ-范式是一个统一的范式，它能够将现有的 3D 主干架构与不同的任务头相结合。在 EQ-范式下，输入点云首先在嵌入阶段进行编码，采用任意的特征提取体系结构，该体系结构独立于任务和头部。然后，查询阶段允许针对不同的任务头进行特征编码。这是通过在查询阶段引入中间表示，即 Q-表示来实现嵌入阶段和任务头。作者还设计了一种新的 Q-Net 作为查询阶段网

2022-07-25 20:55:26 955 1

原创【DETR用于3D目标检测】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

本文介绍了一个用于多摄像机三维目标检测的框架。现有的工作是直接从单目图像中估计三维边界框，或使用深度预测网络从二维信息中生成三维目标检测的输入，与此不同，本文的方法直接在三维空间中操作预测。DETR3D 从多个相机图像中提取二维特征，然后使用一组稀疏的 3D 对象查询来索引到这些二维特征中，使用摄像机转换矩阵将 3D 位置链接到多视图图像，然后对每个对象查询进行边界框预测，使用集合到集合的损失来测量地面真实值和预测之间的差异。...

2022-07-23 09:53:12 1179

原创【DETR用于3D目标检测】3DETR: An End-to-End Transformer Model for 3D Object Detection

本文提出了基于端到端的 3D 目标检测模型，并提出了具有非参数查询和傅里叶位置嵌入的 Transformer。通过大量的实验发现，3DETR 在具有挑战性的 ScanNetV2 数据集上比 VoteNet 基线高出9.5%。此外，本文还展示了 3DETR 适用于检测之外的三维任务，并可以作为未来研究的构建块。...

2022-07-20 17:30:32 1359

原创【CVPR 2021】解决目标检测长尾分布：Adaptive Class Suppression Loss for Long-Tail Object Detection

本文设计了一种新的自适应类抑制损失（ACSL）来有效地解决目标检测长尾分布问题，提高了尾类的检测性能。具体来说，本文引入了一个无需统计的方法来分析长尾分布，从而打破了手工分组的局限性。根据这一观点，本文的 ACSL 自适应地调整了每个类别的每个样本的抑制梯度，确保了训练的一致性，并提高了对罕见类别的区分。......

2022-07-10 15:36:56 1577

原创【无监督纳米粒子分割】AutoDetect-mNP: An Unsupervised Machine Learning Algorithm

因此本文开发了一种无监督的算法 AutoDetect-mNP，用于分析 TEM 图像和对 mNPs 的粒子形状进行分类，在这个过程中需要最少的人工输入，如上图。本文演示了 AutoDetect-mNP 算法的定量可靠性，以及它作为一个无偏的一般检测方法的潜力，可以用于纳米颗粒的形状分布的描述。本文使用两个不同醒转的金纳米颗粒（AuNPs）数据集用作演示。...

2022-07-08 14:30:43 857

原创【CVPR 2022】半监督目标检测：Dense Learning based Semi-Supervised Object Detection

本文提出了一种用于无锚框SSOD的半监督学习算法。具体来说，为了对密集学习进行仔细的标签指导，本文首先提出了一种自适应过滤（AF）策略，从而将伪标签划分为三个细粒度的部分，包括背景、前景和可忽略区域。然后使用 MetaNet 对这些伪标签进行细化，以消除分类伪正样本...

2022-07-04 19:51:31 2100 1

原创【CVPR 2022】目标检测SOTA：DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

本文提出了DINO（DETR with Improved deNoising anchOr boxes）使用 ResNet50 作为主干网络能够在 COCO 训练 12 轮能达到 48.3 mAP，36 轮能达到 51.0 mAP。与排行榜上的其他模型相比，DINO显著减少了模型大小和训练前的数据大小，同时取得了更好的结果。...

2022-06-30 20:52:12 1568

原创【ICLR 2021】半监督目标检测：Unbiased Teacher For Semi-Supervised Object Detection

半监督学习，即同时使用有标记和未标记数据的训练网络，最近取得了重大进展。然而，现有的工作主要集中在图像分类任务上，而忽略了目标检测。因此在这项工作中，作者重新讨论了半监督对象检测（SSOD），并确定了SSOD中的伪标记偏差问题。为了解决这个问题，作者引入了无偏见教师模型（Unbiased Teacher），这是一种简单而有效的方法，以互惠互利的方式共同训练学生模型和逐步进步的教师模型。...

2022-06-27 15:51:20 1211

原创【ICCV 2019】特征超分检测：Towards Precise Supervision of Feature Super-Resolution for Small Object Detection

作者提出了一种新的特征级超分辨率方法，利用适当的高分辨率目标特征作为监督信号训练的SR模型和匹配的相对感受野的训练对输入低分辨率特征和目标高分辨率特性，而且可以与任何基于特征池化的检测器集成。...

2022-06-25 22:30:51 822

原创【CVPR 2020】会议版本：A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising

由于缺乏丰富和真实的数据，学习到的单幅图像去噪算法不能很好地推广到不类似于训练所用数据的真实原始图像。虽然噪声合成的异方差高斯模型可以缓解这一问题，但数码相机电子器件引起的噪声源在很大程度上仍被忽视。为了解决这个问题，作者提出了一个基于CMOS光传感器特性的高度精确的噪声形成模型，从而使我们能够合成真实的样本，更好地匹配图像形成过程的物理特性。...

2022-06-23 09:45:55 235

原创【ICPR 2021】遥感图中的密集小目标检测：Tiny Object Detection in Aerial Images

为了建立一个在航空图像中的微小物体检测的基准，作者还在AI-TOD数据集上评估了最先进的目标检测器。实验结果表明，将这些方法直接应用于AI-TOD会产生次优目标检测结果，因此需要设计新的微型目标检测器。因此，作者提出了一种基于多中心点的学习网络（M-CenterNet）来提高小目标检测的定位性能，实验结果表明，该性能提高显著。...

2022-06-22 15:37:35 2845

原创【ICCV Workshop 2021】基于密度图的小目标检测：Coarse-grained Density Map Guided Object Detection in Aerial Images

对于每一幅图像，本文的方法的过程可以分为三个阶段。首先，利用密度估计模型预测图像的粗粒度密度图。其次，通过密度连接区域生成初始聚类区域，然后估计目标区域在聚类区域中的比例，并通过分割或扩大操作来调整聚类区域。最后，通过非最大抑制（NMS）来检测并合并所有的聚类区域。...

2022-06-22 11:10:16 750

原创【CVPR 2022】高分辨率小目标检测：Cascaded Sparse Query for Accelerating High-Resolution Smal Object Detection

根据低层特征的计算高度冗余和特征金字塔高度结构化，QueryDet首先预测低分辨率特征上小物体的粗略位置，然后使用由那些粗略位置稀疏引导的高分辨率特征来计算准确的检测结果。这样，不仅可以收获高分辨率特征图的好处，而且还可以避免对背景区域进行无用的计算。此pipeline以级联方式应用，可实现快速，准确的小物体检测。...

2022-06-21 20:43:16 1641

原创【SPRS J P & RS 2022】小目标检测模块：A Normalized Gaussian Wasserstein Distance for Tiny Object Detection

作者提出了一种新的框间距离的度量方法，用来解决传统的 IoU 度量对于小目标过于敏感的问题，可以直接用于基于锚框的检测器和NMS中。在我自己采集的数据上进行训练发现该方法确实比较好用。...

2022-06-21 16:30:18 1475

原创【CVPR 2020 Oral】极低光去噪论文：A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising

CVPR2020 oral & TPAMI 2021 的很优秀的里程碑式的暗光去噪文章

2022-06-20 16:19:28 534

原创【2022.05.31】大学本科毕业总结，再见北理工

来自一个北理工18级本科生毕业答辩后的瞎写的东西

2022-05-31 21:28:57 757 3

原创【微调视觉-语言模型】Learning to Prompt for Vision-Language Models

【微调视觉-语言模型】Learning to Prompt for Vision-Language Models代码地址：论文简介：动机和思路：具体实现：Vision-Language Pre-training：Context Optimization：Unified Context：代码地址：https://github.com/KaiyangZhou/CoOp论文简介：像CLIP这样的大型预训练视觉-语言模型在学习表征方面显示出了巨大的潜力，并且可以将学习到的表征用于下游视觉任务。在这项工作中

2022-05-22 13:44:21 553

原创【2022】将3D目标检测看作序列预测-Point2Seq: Detecting 3D Objects as Sequences

这篇文章跟Pix2seq基本一致，只不过将每个3D对象视为一系列单词序列，并将3D对象检测任务重新表示为以自回归的方式从3D场景中解码单词

2022-04-22 11:34:16 4183

原创【CVPR2022】无需示例的类增量学习的自我维持表示扩展

Self-Sustaining Representation Expansion for Non-Exemplar Class-Incremental Learning论文地址：摘要：介绍：论文地址：https://arxiv.org/abs/2203.06359摘要：无示例的类增量学习是指在无法保存旧类样本时，同时识别新旧类。这是一项具有挑战性的任务，因为表示优化和特征保留只能在新类的监督下实现。为了解决这一问题，作者提出了一种新的自维持表示扩展方案，该方案包括一个融合主分支扩展和侧分支更新的结

2022-04-01 12:33:07 3481

autoCAD练习模板

空空如也