FLOWVERSE-CSDN博客

原创 ResFields：一种即插即用的MLP增容工具

作者单位Microsoft;投稿期刊：仍在arxiv preprint如果希望用比较小的改动，来减少当前MLP的体量，又不损失效果，可以尝试一下本文的方法项目主页MLP的容量问题。设计了一个时间残余层，命名为ResFields。文章全面分析了ResFields的性质，并提出了一种矩阵分解的技术来减少训练参数的体量。可以与现有的技术无缝集成，并不影响现有技术的效果。MLP在诸多任务中都取得了成功，尤其是近年的神经辐射场，对三维重建领域的研究者影响较大。

2023-09-15 21:09:16 205

原创 Bug记录： CUDA error_ device-side assert triggered

而引发的该问题，但是直接在gpu上运行，就只会报上面的错，导致初次见到这个bug的时候，难以定位。

2023-07-31 15:58:31 650

原创 NeRF知识点：不同Contraction的数学表达

Foward-facing 场景：NDC（Normalized Device Coordinate）1360°，object-centric 场景： inverse-sphere warping1自由轨迹： Persepective warping1。

2023-07-31 13:56:35 253

原创 NeRF知识点：Mip-NeRF

rtotdrtotd，在这条射线上会进行采样，进而形成一系列intervals，有：。而在mip-nerf中，对于每一个intervaliii，都会对其计算对应截锥体（半径由射线的焦距与像素大小共同决定）的均值与协方差：。最后，再通过integrated positional encoding进行特征化：这些特征将被喂入NeRF网络的MLP中：通过MLP输出的体密度与颜色，就可以照常进行体渲染工作：关于采样，首先在给定near和far平面的情况下，均匀采样为tc。

2023-07-24 11:00:34 434

原创 text-to-3d方面的论文列表分享

以下给出几篇我个人觉得比较有价值的text-to-3d的论文列表，论文的超链接会连接到arxiv上。

2023-07-08 17:53:50 365

原创 bug记录：遇到的tinycudann编译的N种错误

发现其所在的文件夹名称并不是干净的tinycudann_bindings，而是有不少后缀。而原本的tinycudann_bindings文件夹中，却只有一个pyd文件，猜测这个是找不到dll的原因，因此，将带有后缀的文件夹中的所有文件，即这三个文件：拷贝到tinycudann_bindings文件夹中，发现生效。错误解除。我才逐渐意识到，是不是有可能因为tinycudann_bindings里面并没有这个_75_C的py文件，然后才去检查，最终解决了问题。

2023-05-18 11:48:34 2309 1

原创配环境技巧：用好代理

参考链接是：https://blog.csdn.net/SHERLOCKSALVATORE/article/details/123599042。当然，如果同时配置了git以及conda的话，下载包以及数据的时候都会快一些，但其实快一些的需求还好，主要是，如果不配置，根本无法下载。如果有科学上网工具，可以直接配置系统的环境变量 http_proxy以及https_proxy等。如果不配置，可能gdown之类的会有问题。

2023-05-17 17:59:18 119

原创论文笔记：tri-plane 【持续更新】

从一堆单视角的2D图像中生成有效的三维表达。混合的显式与隐式三维表达；dual-discremination的训练策略，以保持神经渲染之间的一致性。为生成器引入 pose-based的条件，能够解耦与pose相关的特性（比如面部表达）从神经渲染过程中解耦特征生成，这使得能够直接应用SOTA的2D CNN特征生成器。可以实现在各种3D场景内的泛化，同时也可以在3D多视角一致的神经体渲染过程中受益。【为什么2D CNN特征生成器可以实现泛化，和从多视角一致的渲染过程中收益？

2023-05-17 17:14:00 2144

原创 bug记录：windows vscode remote-ssh失败

最终，我更改了config的路径，更改了remote ssh path的路径（指向了git的ssh.exe），甚至，更改了vscode里面cmd的路径，指向了powershell。参考了：https://zixizixi.cn/windows_vscode_ssh_error_bad-owner-or-permissions 的回答。在vscode里面remote ssh一直失败，发现直接cmd去ssh的时候也会失败，而且报： bad owner or permission的错误。

2023-05-12 16:31:29 117

原创 Text-to-3D 任务论文笔记： Latent NeRF

论文链接： https://arxiv.org/pdf/2211.07600.pdf使用Sketch-Shape可以让用户定义基础几何形状，而Latent-NeRF则会根据引导提示来优化形状并引入纹理。此外，还还提出了Latent-Paint，这是另一种形状引导的形式，其中生成过程直接应用于给定的3D网格，注意，这里不仅有结构，还有输入网格的精确参数。这是通过在潜在空间中表示纹理映射，并通过渲染的网格直接传播引导梯度到纹理映射来实现的。通过这样做，我们首次允许使用预训练扩散模型的引导来着色网格。

2023-05-09 23:30:58 1769

原创数据结构与算法：递归范式

在算法中，递归是一种解决问题的常见方法，即通过在函数内调用自身来解决问题。

2023-03-05 23:37:32 152

原创 openCL笔记【更新中】

OpenCL is a heterogeneous programming standard（异构平台并行编程的开放标准），全称是open computing language，即开放计算语言。同时，也是一个编程框架。“使用OpenCL，开发人员可以编写在GPU上运行的通用计算程序，而无须将其算法映射到OpenGL或DirectX的3D图形API上。

2023-02-06 16:16:22 554

原创论文笔记：Modeling Kinect Sensor Noise for Improved 3D Reconstruction and Tracking

对相机进行噪声模型分析，主要目的是为了更好地处理kincet深度图。此外，噪声模型也可以更好地应用给kinectfusion系统pipeline中的滤波、体积融合以及位姿估计等动作。实验结果表示，这样做的好处是可以重建更为精细的细节以及thinner surface。定量结果进一步地表明，噪声模型的引入，亦可以提高姿态估计的精度。

2023-01-29 18:01:40 652 1

原创数字图像相关系列笔记：DuoDIC

3D-DIC is a non-contact optical-numerical technique for measuring the 3D shape and full-field displacement, deformation and strain, from stereo digital images of the surface of an object.The MATLAB package is composed of four main scripts:Figure 1 outlines

2023-01-11 14:12:50 488

原创三维重建基础：坐标系 (更新中)

世界坐标系与相机坐标系之间存在着互逆的转换。具体有：世界坐标系到相机坐标系： W2C相机坐标系到世界坐标系： C2W左右手坐标系的xyz通过拇指、食指、中指三者的组合来确定。目标是，三维坐标转换至屏幕上的像素坐标。我们假定起初的三维坐标是在世界坐标系下，那么为了获得其在像片上的对应坐标，我们首先需要做的事情是将三维点的坐标先从世界坐标系转换至相机坐标系下。然后我们再根据摄像机空间中的点坐标，将其投影至像平面上就可以了。

2023-01-10 11:40:10 1401

原创 QT & Qmake 笔记

需要先安装osg，然后再编译安装osgQOpenGL的插件。其中，osgQOpenGL是OSG嵌入到qt中的一种实现方式，换言之，能够支持QT的一个osg插件。可以通过qmake命令，编译pro文件来生成Makefile。Makefile保存了编译器和链接器的参数选项，以及所有源文件之间的关系。DEFINES += DDD_FUNC # CONFIG 变量的所有值都可以直接用作条件语句的条件!!!!!!!AAA {

2022-12-21 10:05:09 532

原创 cmake笔记 &编译与链接

本文为《cmake practice》的个人笔记。注意，如果仅仅使用qt编程的话，没必要使用cmake，因为qmake已经足够专业。找一个合适的位置，mkdir build & cd build (也就是 out-of-source build)cmake … (…代表的是父目录，也就是cmakelists所在的路径)make注意，清理工程的命令为：make clean。

2022-12-15 09:44:50 891

原创 OpenGL、Open3D常用代码片段(C++, python)【更新中】

分为On-Screen Rendering 和 Off-Screen Rendering，分别指代GPU的渲染操作是在当前用于显示的屏幕缓冲区中进行还是在缓冲区之外另外开辟一块缓冲区进行渲染。Off-Screen Rendering 的渲染成本较高，因为其需要新开辟缓冲区，且需要多次在当前屏幕和离屏之间进行切换。在设定,masks,shadows,,中的一个或多个属性时，会触发 Off-Screen Rendering。且当。

2022-11-18 11:05:28 898

原创论文笔记：Geo-Neus: Geometry-Consistent Neural Implicit Surfaces Learning for Multi-view Reconstruction

我们的目标重建物体是不透明物体，物体的部分对于特定的相机视角来说是不可见的。一次你，对于每一个视角来说，可能只有有限的稀疏点是可见的。给定某一个目标物体有位姿的多视图影像，Geo-Neus可以实现没有mask监督的表面重建。在这一节中，首先分析了颜色渲染的内在偏差，这种内在偏差会导致渲染颜色和内在几何之间的不一致性。所谓颜色渲染中的有偏是指，物体表面的真实颜色和渲染颜色之间的有偏性。而言，其在影像上的投影是一小部分的像素patch。然后，将引入显式的SDF优化，实现几何一致性。

2022-10-24 15:23:00 1432 2

原创论文笔记：SRF（stereo radiance fileds）

我们知道，对于原生的NeRF来说，重新训练一个场景往往需要两三天的时间。这篇文章提出了所谓的Stereo Radiance Fields，即SRF，号称只用少量的视角就可以泛化至新的场景。这篇文章最吸引人的地方就在于对于新的场景并不需要一轮重新的训练，取而代之的，只需要10~15分钟的微调即可，而这种微调也只需要10余张的影像就够了。其核心的idea受传统的MVS方法启发，即，通过寻找立体图像中patch的相似性来估计物方表面点。在SRF中，通过给定立体像对待相似性程度来预测物方点的颜色和体密度。

2022-09-26 21:50:28 1734 2

原创手撕算法：数组

确定区间是左闭右闭还是左闭右开，这决定了之后进行while循环的时候如何选择区间；暴力解法就是直接平方然后再排序，如果用快排的话，时间复杂度就是。并没有真正意义的删除，而只是元素的覆盖而已；这里记录一个时间复杂度为。...

2022-08-28 23:33:59 94

原创几何角度理解线性代数（3）：点积与叉积

因为，我们可以知道等式右边的行列式就代表着平行六边形的体积，而点积代表着投影长度与向量长度的乘积，那要等式成立，要找的对偶向量就应该是长度为平行四边形的面积，且方向垂直于平行四边形。但显然，这是不对的，因为这并不是三维的叉积，三维的叉积只会输入两个向量，而输出一个向量。从多维空间变换到一维空间的过程中，可以找到一个向量使得整个变换可以看作与这个特定向量的点积。我们知道，这个函数是线性的，也就是说，我们可以找到一个向量。在几何角度上，我们可以认为这个对偶向量，一定与。来定义，此时，我们可以找到一个。...

2022-08-28 17:07:14 535

原创几何角度理解线性代数（2）: 逆矩阵、列空间与零空间

首先看线性方程组的表示：对于线性方程组的几何直觉，我们可以将其视作对x⃗\vec{x}x寻找一种变换方式，使得其在变换之后变成v⃗\vec{v}v，示意图如下：那么如何来找到这种变化，我们通过判断行列式是是否为0，这两种情况分别进行讨论。......

2022-08-28 00:30:41 286

原创几何角度理解线性代数（1）：向量、线性组合、矩阵乘法、行列式

本笔记主要基于三蓝一棕的视频进行记录。

2022-08-27 23:42:33 793

原创论文笔记：NeRF++（2020）

论文链接：https://arxiv.org/pdf/2010.07492.pdf。

2022-08-10 17:38:32 1264

原创论文笔记：NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction

S={x∈R3∣f(x)=0}S={x∈R3∣f(x)=0}其中，x\mathbf{x}x表示三维点，f(x)f(x)表示从三维点到SDF值的映射关系。为了能够在SDF网络的训练与volume rendering之间建立联系ϕs(f(x))ϕs(f(x))，将其命名为S-densityϕs(x)=se−sx/(1+e−sx)2ϕs(x。..................

2022-08-09 22:00:19 3731 7

原创 ToFNest: Efficient normal estimation for ToF Depth cameras

文章目录概述方法算法结构损失函数实验数据集结果评估与对比预处理评价指标不同方法之间的定量及定性结果在有噪声数据上的评估推理时间评估在抓取的真实数据上的评估总结参考文献概述论文名称： ToFNest: Efficient normal estimation for ToF Depth cameras开源代码： https://github.com/molnarszilard/ToFNest通过FPN为ToF相机获得的深度图估计得到法向估计。网络命名为ToFNest，其输入为2D的深度图，而后将其

2022-04-13 17:48:44 2208

原创双目网络中的预训练技巧与数据增强

文章目录理论说明预训练数据增强实验结果预训练小数据集上的Finetune数据增强理论说明预训练参考文章： Rethinking Training Strategy in Stereo Matching我们知道在基于深度学习的双目深度估计中，为了获得一个有着良好表现的模型，研究人员往往会采用两阶段的训练技巧：即预训练和微调。往往预训练模型会先训练足够的轮次。 Sceneflow数据集是一个相对来说比较庞大的数据集，其中有着35,454张影像。通常看来，模型在大的数据集上面训练后，会有着相对于其

2022-03-29 23:40:00 1184 1

原创双目网络公开数据集的特性

概述参考文章：Rethinking Training Strategy in Stereo Matching主流双目公开数据集有：SceneFlow、KITTI、ETH3D、MB。各个双目网络主流训练数据视差分布的直方图：SceneFlow合成数据。有35454张训练数据，4370张测试数据。影像大小为：540（H）*960（W）。可以用于做消融实验，同时不用担心会过拟合。预训练模型可以更好的泛化。视差在0到256之间，99.9%在200以内。KITTI 2012 & 2

2022-03-29 21:24:27 1993

原创 ToFNET：Deep End-to-End Time-of-Flight Imaging（CVPR 2018）

文章目录概述ToFNET 网络结构概述论文名称： Deep End-to-End Time-of-Flight Imaging论文链接： https://openaccess.thecvf.com/content_cvpr_2018/papers/Su_Deep_End-to-End_Time-of Flight_CVPR_2018_paper.pdf无开源代码被引： 55作者单位： UBC、斯坦福、KAUST文章提出了一个卷积神经网络结构，以双频的ToF rawData作为输入，深度图

2022-03-23 15:56:08 3116

原创关于IDE、调试技巧、常规库的安装卸载以及奇怪的工作小技巧

linux下载与安装：https://lindevs.com/install-vcpkg-on-ubuntu/vcpkg的安装：https://lindevs.com/install-vcpkg-on-ubuntu/链接：https://pan.baidu.com/s/1Y9OTbu2EyROZgJ7mBfEUXw。有时候需要回退版本进行开发，2008的资源还是蛮难找的，该网盘中包含了安装包与sp。C++和python都可以，windows和linux都可以。3.个人ctrl+← ctrl+→。

2022-03-19 15:25:37 1453

原创 CVPR 2022： ConvNeXt - FAIR再探纯卷积结构的极限（优于Transformer）

文章目录概述从ResNet到ConvNet训练技巧概述论文名称： A ConvNet for the 2020s论文链接： https://arxiv.org/pdf/2201.03545.pdf开源代码链接： https://github.com/facebookresearch/ConvNeXt作者单位： FAIR（Facebook AI Research)、 UC Berkeley无疑，transformer的结构在视觉识别领域内获得了巨大的成功，然而，普通的transformer

2022-03-09 00:01:07 839

原创 SMD-Net_首次在立体匹配任务中使用连续变量表示（CVPR 2021）

概述论文名称： SMD-Nets: Stereo Mixture Density Networks论文链接: https://arxiv.org/pdf/2104.03866.pdf开源代码链接: https://github.com/fabiotosi92/SMD-Nets作者单位： University of Bologna、 MPI-IS / University of Tubingen被引： 4文章是2021年的CVPR，是第一篇在立体匹配任务中使用连续函数表达的文章是SMD-Net

2022-03-02 21:19:52 2940 1

原创首个可用于深度学习的ToF相关数据集：Deep Learning for Confidence Information in Stereo and ToF Data Fusion（ICCV 2017）

文章目录概述方法以及网络结构使用网络学习置信度数据实验结果参考文献概述论文名称： Deep Learning for Confidence Information in Stereo and ToF Data Fusion被引： 29数据链接： https://lttm.dei.unipd.it//paper_data/deepfusion/作者单位：意大利帕多瓦大学期刊或会议： ICCV 2017这篇文章提出了一个用于立体相机以及ToF相机深度图融合的框架。其中的关键在于分别得到ToF

2022-02-28 23:38:35 2577

原创 CVPR 2021：英伟达开源局部隐式图像函数 Learning Continuous Image Representation with Local Implicit Image Function

文章目录概述局部隐式图像函数（Local Implicit Image Function, 简称LIIF）Feature unfolding局部ensembleCell decoding学习连续的图像表达实验学习连续影像表达设定实现细节定量结果定性结果消融实验学习不同尺寸的GT： image-to-image设定方法及结果结论参考文献概述论文名称： Learning Continuous Image Representation with Local Implicit Image Function论

2022-02-28 09:51:20 3604

原创 ECCV 2018: 基于深度学习纠正ToF中的多路径误差 Deep Learning for Multi-Path Error Removal in ToF Sensors

文章目录概述网络结构ToF数据表达概述论文链接： https://openaccess.thecvf.com/content_ECCVW_2018/papers/11131/Agresti_Deep_Learning_for_Multi-Path_Error_Removal_in_ToF_Sensors_ECCVW_2018_paper.pdf作者单位：意大利帕多瓦大学期刊或会议： ECCV 2018这篇文章是ECCV 2018的文章，来自意大利帕多瓦大学的团队，他们提出了一个用于去除MPI

2022-02-23 15:17:16 704

原创 ECCV 2018：通过深度学习的方式以及仿真ToF数据集(FLAT)对ToF的固有问题进行解决

文章目录概述ToF相机模型理想的相机模型多路径效应的影响移动（Motion）的影响Kinect v2的特性FLAT的数据集网络结构实验MPI纠正运动纠正以及消融实验Putting Everything Together方法限制结论参考文献概述论文链接： https://openaccess.thecvf.com/content_ECCV_2018/papers/Qi_Guo_Tackling_3D_ToF_ECCV_2018_paper.pdf数据及代码链接： https://research.nv

2022-02-22 15:08:37 1973

原创 StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction（ECCV 2018）

文章目录概述网络结构特征提取网络代价空间可微分的argmin分层的Refinement损失函数实现细节实验数据和实验设置亚像素精度讨论概述论文链接： https://arxiv.org/pdf/1807.08865.pdf作者单位： Google Inc.被引： 161tag： ECCV 2018StereoNet是端到端的立体匹配网络中比较经典的方法，源于谷歌实验室，是2018年的ECCV。StereoNet在Nividia Titan X上可以跑到60帧，可以归类于基于2D卷积的端到端

2022-02-18 14:40:03 1848

原创联合深度以及法向图优化的ToF深度估计：Joint Depth and Normal Estimation from Real-world Time-of-flight Raw Data

概述关于ToF传感器的真实数据的深度估计，在传统方法中使用成体系的pipeline对数据进行处理，整个过程中需要考虑到的因素很多，是一套精细又有些繁冗的过程。而《Joint Depth and Normal Estimation from Real-world Time-of-flight Raw Data》这篇文章则采用了深度学习端到端的方式，以ToF相机的Raw数据作为输入，深度和法向图作为输出，试图构建一个优雅的流程。我们知道，ToF相机的真实数据GT并不好获取，在许多相关工作中，都采用了合成数据

2022-02-17 17:55:20 1800 4

原创 stereo focal loss：当Focal loss遇到立体匹配任务

文章目录概述代码简单实现延伸：stereo focal loss概述focal-loss是在交叉熵损失的基础上改进而来的损失，主要作用在于不忽略所有样本，同时能够让模型的训练更加专注于难训练的样本上。focal loss试图解决的问题是，梯度在训练过程中被大量easy example主导的问题。focal loss的出发点在于，想要处理类别不均衡的问题，是不是对不同类别所产生的loss的权重进行控制就可以了？也就是说，加一个控制权重αt\alpha_{t}αt，注意，这里的控制权重并不是一个值，而是

2022-02-16 14:15:48 1159

python字典.emmx

python内置函数.emmx

计算机视觉岗位面试学习_DNN.py

经纬度转米的小函数，半径为月球

空空如也