- 博客(62)
- 资源 (1)
- 收藏
- 关注
原创 【论文精读】HAMMER: Learning Entropy Maps to Create Accurate 3D Models in Multi-View Stereo
为了减少在深度图融合点云参数调整上的实验负担,可以学习基于entropy的filtering mask进而根据两个视角的几何验证来重建三维模型。并且,提出的网络计算开销不大,训练只需要6GB,测试时,3.6GB即可处理1920*1024的图片,性能也和sota很接近。
2024-01-08 21:04:04 957
原创 【论文精读】CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning
无监督多视图立体方法最近取得了可喜的进展。然而,以前的方法主要依赖于光度一致性假设,这可能会受到两个限制:无法区分的区域和依赖于视图的效果,例如低纹理区域和反射。为了解决这些问题,我们提出了一种新的双层对比学习方法,称为 CL-MVSNet。具体来说,我们的模型将两个对比分支集成到无监督 MVS 框架中,以构建额外的监督信号。一方面,我们提出了图像级对比分支来引导模型获得更多的上下文感知,从而在不可区分的区域中实现更完整的深度估计。
2023-11-13 02:04:47 344 2
原创 【论文精读】Pose-Free Neural Radiance Fields via Implicit Pose Regularization
Pose-free的NeRF最近很火,近期的工作大部分先是使用渲染的图片训练一个粗略的姿态估计器,再对NeRF和姿态进行联合优化。然而,训练期间只使用了rendered image,姿态估计经常偏移或不准确,因为渲染图与真实图片之间本来就有domain gap。这导致了很差的robustness,并且在联合优化中会陷入局部最优。我们设计了IR-NeRF,使用implicit pose regularization来细化pose estimator。
2023-11-13 01:24:15 628
原创 【论文精读】DMVSNet: Constraining Depth Map Geometry for Multi-View Stereo
现有方法忽略了一个事实,即合适的深度几何形状在 MVS 中也至关重要。在本文中,我们证明了即使使用相同的深度预测误差,不同的深度几何形状也具有显着的性能差距。因此,我们引入了由鞍形细胞组成的理想深度几何形状,其预测深度图围绕真实表面向上和向下振荡,而不是保持连续且平滑的深度平面。为了实现这一目标,我们开发了一个名为 Dual-MVSNet (DMVSNet) 的从粗到细的框架,它可以产生一个振荡的深度平面。
2023-11-12 22:20:44 356
原创 【论文精读】ET-MVSNet: When Epipolar Constraint Meets Non-Local Operators in Multi-View Stereo
learning-based MVS严重依赖特征匹配。一个有效的解决方案是应用非局部的特征聚合,例如 Transformer。尽管这些技术很有用,但会给MVS带来大量的计算开销。每个像素都密集地关注整个图像。相反,我们建议将非局部特征增强限制在一对线内:每个点仅关注相应的一对极线。我们的想法受到经典对极几何的启发,它表明具有不同深度假设的一个点将投影到另一个视图上的极线。该约束将2D搜索空间减少为立体匹配中的极线。类似地,这表明MVS的匹配是为了区分位于同一条线上的一系列点。
2023-11-09 01:10:13 385 3
原创 多卡训练Runtime Error: Function BroadcastBackward returned an invalid gradient at index XXX
代码在单卡训练时没有问题,但是在多卡训练(DP或者DDP模式)时,会在loss.backward()处报错,但是报错并不详细,只停留在loss.backward(),再往后就是pytorch后端C++代码了。可见是反向传播时shape不一致。但是经过检查,我的loss并没有出错,单卡训练测试也没问题,这个就比较棘手了。
2023-11-02 16:45:51 333 2
原创 使用telegram机器人发送通知
在训练深度学习模型时,除了粗略估计外,很难预测训练何时结束。此外,我们可能还想随时随地查看训练情况,如果每次都需要登录回服务器的话并不方便。因此,为我们的训练设置自动通知会大有裨益。
2023-10-20 20:35:54 1039
原创 《计算机视觉中的多视图几何》笔记(0)
计算机视觉的一大研究目标是使计算机具有通过2D图像认知3D环境信息的能力。近年来,随着SLAM、SfM+MVS、NeRF等技术的爆火和相关产业的蓬勃发展,越来越多的人加入到三维重建的领域当中。
2023-09-13 05:41:56 264
原创 【论文精读】MVSDF: Learning Signed Distance Field for Multi-view Surface Reconstruction
最近关于隐式神经表示的研究在多视图表面重建方面显示出了有希望的结果。然而,大多数方法仅限于相对简单的几何形状,并且通常需要干净的对象mask来重建复杂和凹面对象。在这项工作中,我们引入了一种新颖的神经表面重建框架,该框架利用立体匹配和特征一致性的知识来优化隐式表面表示。更具体地说,我们应用有符号距离场(SDF)和表面光场分别表示场景几何形状和外观。SDF由立体匹配的几何结构直接监督,并通过优化多视图特征一致性和渲染图像的保真度进行细化。我们的方法能够提高几何估计的鲁棒性并支持复杂场景拓扑的重建。
2023-08-21 04:09:06 260
原创 使用localhost访问远程服务器的tensorboard
16006:127.0.0.1代表localhost的16006端口,6006代表远程服务器tensorboard服务的端口。在远程服务器上运行代码,想要通过tensorboard查看,需要将远端的端口映射到本地。
2023-08-07 01:39:50 451
原创 【论文精读】NR-MVSNet:Learning Multi-View Stereo Based on Normal Consistency and Depth Refinement
提出了一种由粗到细的结构,具有基于正态一致性模块(DNHC)的深度假设,以及具有可靠注意模块(DRRA)的深度细化。DNHC从具有相同法线的相邻像素收集深度假设,因此预测的深度更平滑准确,尤其是在无纹理和重复纹理区域。DRRA用于更新粗略阶段的初始深度图,它可以结合参考图像的特征和cost volume特征来提高深度估计精度并解决累积误差问题。
2023-08-03 21:09:30 338 4
原创 《视觉SLAM十四讲》笔记(4-6)
每个李群都有与之对应的李代数,李代数描述了李群的局部性质。李代数由一个集合V、一个数域F和一个二元运算[ , ](又称李括号)组成。如果它们满足以下几条性质,则称( V , F , [ , ] )为一个李代数,记作g。封闭性双线性自反性(自己与自己的运算为零)雅可比等价。
2023-07-30 02:04:41 302
原创 【论文精读】CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction
由于缺乏深度信息,现有的基于volume的技术只是简单地沿着整个相机光线复制物体表面的2D图像特征。我们认为这种重复会在空旷和封闭的空间中引入噪声,给生成高质量 3D 几何体带来挑战。受传统MVS的启发,我们提出了一种端到端 3D 神经重建框架 CVRecon,旨在利用cost volume中丰富的几何嵌入来促进 3D 几何特征学习。此外,我们提出了射线上下文补偿cost volume(RCCV),这是一种新颖的 3D 几何特征表示,可编码视图相关信息,并提高完整性和鲁棒性。
2023-07-25 19:54:32 213
原创 【论文精读】Vis-MVSNet: Visibility-aware Multi-view Stereo Network
Vis-MVSNet的论文解读
2023-07-16 22:40:40 322
原创 【论文精读】RA-MVSNet:Multi-View Stereo Representation Revisit: Region-Aware MVSNet
基于深度学习的多视图立体已经成为从多视图重建完整几何细节对象的强大范例。大多数现有方法仅通过最小化预测点与光线与表面交点之间的间隙来估计像素级深度值,这通常忽略表面拓扑。这对于无法正确重建的无纹理区域和表面边界至关重要。为了解决这个问题,我们建议利用点到面的距离,使模型能够感知更广泛的表面。为此,我们从成本体积预测距离体积,以估计表面周围点的有符号距离。我们提出的 RA-MVSNet 是补丁感知的,因为通过将假设平面与表面补丁相关联来增强感知范围。因此,它可以增加无纹理区域的完成度并减少边界处的异常值。
2023-07-06 00:58:03 353 1
原创 【论文精读】IGEV-MVS:Iterative Geometry Encoding Volume for Stereo Matching
Recurrent All-Pairs Field Transforms(RAFT)在匹配任务中显示出巨大的潜力。然而,all-pairs correlations缺乏非局部几何知识,并且难以解决不适定区域中的局部模糊性。本文提出了迭代几何编码体(IGEV-Stereo),这是一种用于立体匹配的新深度网络架构。所提出的 IGEV-Stereo 构建了一个组合的几何编码体,该体对几何和上下文信息以及局部匹配细节进行编码,并对其进行迭代索引以更新视差图。
2023-07-05 23:22:11 629 2
原创 使用Pages+Hexo搭建个人博客总结
Github Pages是Github免费给开发者提供的一款托管个人网站的产品,而Hexo是一款基于Node.js的静态博客框架,拥有依赖少、易安装、易使用的特性,它们的组合非常适合快速搭建个人博客。接下来是我搭建个人博客的步骤总结。
2023-03-12 21:28:26 641 1
原创 【论文精读】AligNeRF
现有的基于 NeRF 的方法在重建高分辨率真实场景时面临一些限制,包括大量的参数、未对齐的输入数据和过度平滑的细节。在这项工作中,我们对使用高分辨率数据训练 NeRF 进行了首次试点研究,并提出了相应的解决方案:1)将MLP与卷积层结合,可以编码更多的邻域信息,同时减少参数总数;2) 一种新的训练策略来解决由移动物体或小相机校准误差引起的未对准问题;3)高频感知损失。
2023-02-12 23:26:10 759
原创 【论文精读】KD-MVS
监督多视图立体 (MVS) 方法在重建质量方面取得了显着进步,但面临收集大规模地面实况深度的挑战。在本文中,我们提出了一种基于知识蒸馏的新型 MVS 自监督训练管道,称为 KD-MVS,主要包括自监督教师培训和基于蒸馏的学生培训。具体来说,教师模型使用光度和特征一致性以自我监督的方式进行训练。然后我们通过概率知识转移将教师模型的知识提炼到学生模型。在经过验证的知识的监督下,学生模型能够大大优于其教师。在多个数据集上进行的大量实验表明我们的方法甚至可以胜过监督方法。
2023-01-27 17:20:53 729 4
原创 【论文精读】360MVSNet
随着深度学习技术的进步,最近的多视图立体方法取得了可喜的成果。尽管取得了进展,但由于常规图像的视野有限,重建大型室内环境仍然需要收集许多具有足够视觉重叠的图像,这是相当劳动密集型的。360° 图像覆盖的视野比常规图像大得多,并且有助于捕获过程。在本文中,我们介绍了 360MVSNet,这是第一个用于具有 360° 图像的多视图立体的深度学习网络。我们的方法将不确定性估计与球形扫描模块相结合,用于从多个视点捕获的 360° 图像,以构建多尺度成本量。通过以粗到细的方式回归体积,可以获得高分辨率的深度图。
2023-01-08 20:46:17 582 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人