X_Student737-CSDN博客

原创 Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields

Tri-MipRF是ICCV2023年的Oral和Best Paper Finalist，研究单位是字节跳动、清华大学和中国科学院计算技术研究所，文章主要思想是，将Mip-NeRF和Tri-plane进行结合，能够实现神经辐射场的快速重建，以及抗锯齿、高保真的实时渲染。

2023-12-28 16:41:48 1046 6

原创 TensoRF: Tensorial Radiance Fields

TensoRF是第一个从张量的角度来看待辐射场建模，并提出了辐射场重建作为一个低秩张量重建的问题，整体思路非常巧妙，而且数学原理丰富，理论扎实。美中不足在于代码里的工程trick较多，特别是涉及到alpha mask的更新和体素上采样，细节非常复杂，还是不够简洁优美。从实验效果来看，TensoRF的渲染效果其实并不算特别惊艳，但确实是大幅减少了NeRF的训练时间，并且降低了渲染所需要的显存，总体而言是令人眼前一亮的工作。

2023-12-05 17:04:36 1159

原创 In-Place Scene Labelling and Understanding with Implicit Scene Representation

ICCV 2021 oral

2023-07-24 17:34:25 256 2

原创 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

NeRF ECCV2020 oral

2023-07-21 22:13:42 1241 2

原创 Vision Transformer原理分析

Vision Transformer是2021年Google团队提出的将Transformer应用在图像分类的模型，因为其模型简单、效果好、可扩展性强，成为CV领域的里程碑著作，也引爆了后续相关研究。

2023-06-25 00:26:36 309

原创 Kinect Fusion三维重建

KinectFusion三维重建

2023-02-25 22:47:24 859 2

原创双目立体匹配_StereoNet网络

传统立体匹配算法通常选取立体校正后的左视图作为参考图像，通过在目标图像上进行行搜索寻找同名点并计算视差，将每个像素的视差进行保存，得到单通道的视差图。距离相机越近的空间点，在视差图中灰度值越大。传统立体匹配算法将双目立体匹配问题转化寻找最小化能量函数的图D问题，此处的D可以时深度图或视差图，因此在深度学习领域立体匹配又被成为视差估计、深度估计。

2022-11-07 20:06:31 4600 11

原创双目立体匹配_DispNet网络

双目立体匹配

2022-10-12 21:26:56 2422 2

原创双目立体匹配_SGM算法

双目立体匹配

2022-10-10 19:59:11 2666 1

原创 ubuntu环境配置

ubuntu环境配置

2022-09-19 15:50:50 2160

原创 3D视觉(六)：PnP问题（pespective-n-point）

3D视觉(六)：PnP问题（pespective-n-point）PnP问题，是指已知3D点（x, y, z）及其在相机上的投影（u，v），求相机位姿变换R、T。投影方程可表示为：这里K为相机内参矩阵，是已知的。我们要做的就是，从n对这样的2D-3D对应关系中，恢复出相机姿态变换，即旋转矩阵R和平移向量t。文章目录3D视觉(六)：PnP问题（pespective-n-point）前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：

2021-12-28 10:28:37 9034

原创 3D视觉(五)：对极几何和三角测量

3D视觉(五)：对极几何和三角测量对极几何（Epipolar Geometry）描述的是两幅视图之间的内在射影关系，与外部场景无关，只依赖于摄像机内参数和这两幅试图之间的的相对姿态。文章目录3D视觉(五)：对极几何和三角测量一、对极几何二、三角测量三、实验过程四、源码五、项目链接一、对极几何假设我们从两张图像中得到了一对配对好的点对，如果有若干对这样的匹配点对，就可以通过这些二维图像点的对应关系，恢复出在两帧之间的摄像机的运动。从代数角度来分析这里的几何关系。在第1帧的坐标系下，设P的空间位置为

2021-12-15 11:08:39 3407

原创 3D视觉(四)：ORB特征提取与匹配

3D视觉(四)：ORB特征提取与匹配提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录3D视觉(四)：ORB特征提取与匹配前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础

2021-12-13 16:30:00 4295

原创 3D视觉(三)：双目摄像头的标定与校正

3D视觉(三)：双目摄像头的标定与校正对于双目摄像头而言，除了需要分别标定左目摄像头的内参矩阵K1、畸变系数D1、右目摄像头的内参矩阵K2、畸变系数D2，还需要标定左右目对应的旋转矩阵R和平移向量T。当双目摄像头固定在一个平面上时，旋转矩阵R可近似为一个单位阵，平移向量T的欧式范数即为基线长度b。我们可以把两个相机都看作针孔相机，它们是水平放置的，意味着两个相机的光圈中心都位于x轴上，两者之间的距离称为双目相机的基线b，它是双目相机的重要参数。通过粗略测量可看出，这里基线b的长度在0.06m-0.07

2021-12-10 15:58:05 30694 29

原创 3D视觉(二)：单目摄像头的标定与校正

3D视觉(二)：单目摄像头的标定与校正文章目录3D视觉(二)：单目摄像头的标定与校正1、相机模型一、机器车坐标系到相机坐标系二、相机坐标系到归一化平面坐标系三、归一化平面坐标畸变四、归一化平面坐标系到像素坐标系2、单目摄像头标定3、实验结果4、源码1.引入库2.读入数据总结相机将三维世界中的坐标点（单位为米）映射到二维图像平面（单位为像素），这个过程可用针孔相机模型和透镜畸变模型来刻画。这两个模型能够把外部的三维点投影到相机内部成像平面，构成相机的内参数。1、相机模型假设存在一个机器小车，以小车

2021-12-08 10:10:22 7049 1

原创 3D视觉(一)：双目摄像头的调用

3D视觉(一)：双目摄像头的调用文章目录3D视觉(一)：双目摄像头的调用1、计时器 chrono2、单目摄像头的调用3、双目摄像头的调用参考1、计时器 chronochrono是C++11新加入的方便时间日期操作的标准库，它既是相应的头文件名称，也是std命名空间下的一个子命名空间，所有时间日期相关定义均在std::chrono命名空间下。通过这个新的标准库，可以非常方便进行时间日期相关操作。#include <iostream>#include<unistd.h> #

2021-12-07 11:05:43 2200

原创深度学习卷积神经网络从入门到精通

深度学习卷积神经网络从入门到精通—阅读笔记计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。人们致力于建立一种视觉系统，这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。文章目录深度学习卷积神经网络从入门到精通---阅读笔记第一章：概述第二章：预备知识第三章-第七章：图片分类模型第八章：目标检测模型第九章：语义分割模型第十章：特殊卷积神经网络模型第一章：概

2021-09-10 17:59:43 1215

原创 STN_空间变换网络

STN_空间变换网络深度卷积网络虽然已经在很多领域取得了较好的效果，但这些模型依旧十分脆弱。例如，对一幅图像进行平移、旋转和缩放等操作后，会使原有的模型识别准确度下降。这种现象可以理解为深度卷积网络的一个通病，一般可以从两方面入手：一是样本多样性，数据增强，进行更多的变换，令模型见多识广，可以处理各种角度的图片。二是样本预处理，一般会采用仿射变换对现有的图片进行修正，令后面的卷积网络专门负责处理调整后的标准图片，使模型训练起来更容易。空间变换网络（Saptial Transformer Networ

2021-08-23 17:16:34 3366 3

原创 OCR_文字识别

OCR_文字识别OCR(Optical Character Recognition)，指通过光学技术对字符进行识别。1929年，德国科学家Tausheck首先提出了OCR，并为此申请了专利。这种技术直到计算机诞生之后才变成了现实，通过光学技术对字符进行扫描、识别，最后转化为计算机的内编码。文章目录OCR_文字识别一、随机生成模拟数据集二、多尺度输出网络三、训练过程四、深入思考五、源码六、相关链接一、随机生成模拟数据集常用的验证码生成库有captcha和gvcode。captcha库支持文字验证码和语

2021-08-18 20:42:19 700

原创 PSPNet ：语义分割

PSPNet：语义分割随着卷积神经网络在目标检测任务上的推进，它也开始被用于更精细的图像处理任务：语义分割和实例分割。目标检测只需要预测图像中每个对象的位置和类别，语义分割还要把每个像素都进行分类，而实例分割的任务则更难，要进一步把每个对象的不同实例都区分开。图像语义分割（semantic segmentation），从字面意思上理解就是让计算机根据图像的语义来进行分割。语义分割是对图像中的每一个像素进行分类，目前广泛应用于医学图像与无人驾驶等。语义在语音识别中指的是语音的意思，在图像领域，语义指的是

2021-08-07 15:37:45 4931 1

原创 CRNN：文本序列识别

CRNN：文字序列识别文字序列识别是图像领域的一个常见问题。一般来说，从自然场景图片中识别文字需要两步，首先定位图像中的文字位置，然后对文字序列进行识别。文字检测：解决的问题是哪里有文字，文字的范围有多长。文字识别：对定位好的文字区域进行识别，主要解决的问题是每个文字是什么，将图像中的文字区域进转化为字符信息。文章目录CRNN：文字序列识别一、相关背景介绍二、CRNN模型结构三、实验结果四、深入思考五、源码总结一、相关背景介绍常用的文字识别算法主要有两种框架，本文主要介绍第一种框架：1、CN

2021-08-02 14:40:36 2566

原创 Opencv车牌号字符分割

Opencv车牌号字符分割字符分割的任务，就是把多字符图像中的每个字符从整体图像中分割出来，使其成为单个字符图像，为下一步的单个字符的图像识别做准备。字符分割是字符识别的基础，字符分割的质量直接影响到字符识别的效果。文章目录Opencv车牌号字符分割一、算法流程二、效果展示三、源码四、项目链接一、算法流程输入原始图片，将其resize到(320, 100)尺寸，灰度化处理：利用cv2.bilateralFilter函数，在保持边界清晰的情况下有效去除噪声：利用cv2.Canny函数，检

2021-06-24 17:34:01 1996

原创 YOLOv3_目标检测

YOLOv3_目标检测YOLOv1最初是由Joseph Redmon实现的，和大型NLP transformers不同，YOLOv1设计的很小，可为设备上的部署提供实时检测速度。YOLO-9000是Joseph Redmon实现的第二个版本YOLOv2目标检测器，它对YOLOv1做了很多技巧上的改进，并强调该检测器能够推广到检测世界上任何物体的能力。YOLOv3对YOLOv2做了进一步的改进，引入多尺度特征融合，针对不同网格尺寸并行处理，大大提升了不同尺寸目标的检测精度。文章目录YOLOv3_目标检

2021-06-19 17:14:47 2967

原创 Tiny_Yolov1_VOC2007目标检测

Tiny_Yolov1_VOC2007目标检测相较于YOLO模型，Tiny_YOLO版本将网络压缩了许多，不管是训练还是移植速度都比较快，更加适用于业界应用。文章目录Tiny_Yolov1_VOC2007目标检测一、 Tiny_Yolov1结构二、VOC2007数据集上的训练过程三、检测效果四、深入思考五、源码六、相关链接一、 Tiny_Yolov1结构网络输入：（448，448，3）第一轮处理：（1）Conv2D(16, (3, 3), padding=‘same’, use_bias=Fal

2021-05-26 17:17:35 770

原创 OpenCV-车牌号检测

OpenCV-车牌号检测在github上看到一个小项目觉得挺有意思：借助传统图像处理技巧，通过opencv进行车牌号位置检测。虽然我实际测试后效果不太好，但也能学到另一种检测处理思路。原作者链接：https://github.com/Aqsa-K/Car-Number-Plate-Detection-OpenCV-Python文章目录OpenCV-车牌号检测一、传统图像处理目标检测二、效果三、深入思考四、源码五、项目链接一、传统图像处理目标检测输入一张原始图片，要求检测出车牌号位置。第1步：对图

2021-05-25 20:47:09 1403 1

原创 YOLO-v1-目标检测

YOLO-v1-目标检测目标检测是一件比较实际的且具有挑战性的计算机视觉任务，可以看成图像分类与定位的结合。给定一张图片，要求能够识别出图片中的目标并给出其具体位置。相比于图片分类问题，目标检测问题更加复杂。针对目标检测，一个很自然的想法就是：将图片输入到深度网络，让网络输出目标物体的中心坐标比例和长宽比例(x，y，w，h)。这种做法原理上是可行的，因为前期可以通过卷积、池化不断提取图片的深度特征，后期再利用全连接对提取到特征进行编码，就可以让它映射成我们想要的位置坐标。但如果要对多目标进行检测，上

2021-05-21 20:59:27 370

原创 YOLOv1-车辆位置检测

YOLOv1-车辆位置检测Vehicle Detection，在自动驾驶领域、车牌号识别系统中非常重要。其实可以看成一个单类别目标检测问题，对YOLOv1算法做一些调整：训练数据集true_y调整为（7，7，5）、网络输出pre_y调整为（7，7，10）、loss损失函数只保留location_loss、confidence_loss，而把class_loss注释掉。文章目录YOLOv1-车辆位置检测一、数据集简介二、YOLOv1训练过程三、实验结果四、源码五、项目链接一、数据集简介Stanfo

2021-05-17 09:48:00 1132

原创 RCNN_人脸检测

RCNN_人脸检测1966年，Marvin Minsky让他的学生Gerald Jay Sussman花一个暑假的时间，把相机连接到电脑上并使得电脑能描述出看到的东西，这就是目标检测的由来。2014年，作者RBG提出RCNN模型，创造性地使用Selective Search方法代替滑动窗口策略，并利用CNN提取图像特征，成为第一个可以真正工业级应用的解决方案，掀起了目标检测领域的研究热潮。文章目录RCNN_人脸检测前言一、数据集准备二、网络结构三、区域检测四、模型效果五、对结果的一些深入思考六、源码

2021-04-23 20:57:51 1080 1

原创 Selective Search算法-候选框生成

Selective Search算法—候选框生成相比于滑动搜索策略，Selective Search算法采用启发式的方法，过滤掉图像中很多断裂的子区域，候选生成所需的目标区域（Region Proposal），计算效率大幅提升。文章目录Selective Search算法---候选框生成引论：学习算法前的问题思考一、Selective Search算法实现步骤二、Selective Search算法流程图三、代码2.读入数据总结引论：学习算法前的问题思考Ques：如何粗略地度量两张图片的相似度？

2021-04-20 10:44:05 1878

原创 Keras-VGG16-图片分类

Keras-VGG16-图片分类VGG模型的名称，来源于牛津大学的Oxford Visual Geometry Group，该网络模型是他们在ILSVRC 2014上的相关工作，主要是证明了增加网络的深度能够在一定程度上影响网络最终的性能。目录Keras-VGG16-图片分类1、原始数据集2、VGG16网络细节3、模型求解结果4、对模型的一些深入思考5、具体代码6、项目链接1、原始数据集原始图片文件夹train：包含1200张猫的图片，1200张狗的图片，尺寸不尽相同。将2400张rgb

2021-04-16 11:01:07 3166 2

原创 Keras-Alexnet-图片分类

Keras-Alexnet-图片分类在自动驾驶、医学图像、目标检测领域，语义分割发挥着巨大的作用。相比于yolo、ssd等目标检测算法，Unet可以实现对图像中每个像素点的分类，精度大大提升。语义分割，简单来说就是给出一张图，分割出图像中所需物体的一个完整准确的轮廓，其实也就相当于现实中的“抠图”。但这里“抠图”的难度在于，不是由人来抠，而是让机器学会自动帮我们抠。并且要求“抠图”的像素点要很精确，这个是人眼达不到的。目录Keras-Alexnet-图片分类1、原始数据集2、U-net网络细节3、模

2021-04-15 19:48:46 924

原创 Keras-Unet-语义分割

Keras-U-net-语义分割在自动驾驶、医学图像、目标检测领域，语义分割发挥着巨大的作用。相比于yolo、ssd等目标检测算法，Unet可以实现对图像中每个像素点的分类，精度大大提升。语义分割，简单来说就是给出一张图，分割出图像中所需物体的一个完整准确的轮廓，其实也就相当于现实中的“抠图”。但这里“抠图”的难度在于，不是由人来抠，而是让机器学会自动帮我们抠。并且要求“抠图”的像素点要很精确，这个是人眼达不到的。目录Keras-U-net-语义分割1、原始数据集2、U-net网络细节3、模型求解

2021-04-14 16:58:05 1595

原创 Keras-LeNet5-图片分类问题

Keras-LeNet5-图片分类问题1、原始数据集2、LeNet5网络细节3、对模型结果的深入思考4、具体代码5、项目链接1、原始数据集下载mnist.pkl.gz数据集，得到raw_train, raw_validation, raw_test。raw_train是一个三维列表，第1个分量是（50000，784）的列表，表示50000个样本，每个样本是（28，28）图片拉直成的向量。第2个分量是50000大小的一维列表，记录每个样本的数字。raw_validation是一个三维列表，第1个分量是

2021-04-12 11:06:44 595

Dispnet双目匹配深度估计

data_generator.py文件：数据生成器。 DispNet.py文件：网络结构。第1步：运行annotation.py文件，在model_data文件夹下生成.txt。第2步：运行DispNet_Trainer.py文件。第3步：运行DispNet_Tester.py文件。

2022-10-15

双目立体匹配_SGM算法

SGM算法在KITTI2015数据集上测评结果开发环境：python=3.6、numpy=1.19.5、opencv-python=4.5.5.64 操作系统：Ubuntu20.04LTS 处理器：Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz 实验记录： 1、WTA、SSD策略，disparity=190，radius=3，视差<=3精度：0.5611，运行时间：7.4344s 2、WTA、SSD策略，disparity=64，radius=3，视差<=3精度：0.5611，运行时间：2.7495s 3、SGM、SSD策略，disparity=64，radius=3，视差<=3精度：0.8161，运行时间：22.7137s 4、SGM、NCC策略，disparity=64，radius=3，视差<=3精度：0.8119，运行时间：28.0640s 5、SGM、SAD策略，disparity=64，radius=3，视差<=3精度：0.6681，运行时间：22.3349

2022-10-10

facenet.zip

Facenet：人脸识别模型在Pytorch当中的实现

2022-01-14

Siamese.zip

实现了孪生神经网络（Siamese network），该网络常常用于检测输入进来的两张图片的相似性。该仓库所使用的主干特征提取网络（backbone）为VGG16。 scipy==1.4.1 numpy==1.18.4 matplotlib==3.2.1 opencv_python==4.2.0.34 tensorflow_gpu==2.2.0 tqdm==4.46.1 Pillow==8.2.0 h5py==2.10.0

2022-01-14

PnP问题-头部姿态估计.zip

典型的PnP问题求解方式有很多种，例如P3P、直接线性变换DLT、EPnP、UPnP，另外还有非线性的Bundle Adjustment。旋转平移矩阵T一共有12维，因此最少通过6对匹配点即可实现矩阵T的线性求解，这种方法称为DLT。当匹配点大于6对时，也可以使用SVD等方法对超定方程求最小二乘解。

2021-12-28

对极几何_三角测量_双目视觉.zip

环境：c++版本、OpenCV 4.5.3、Eigen data文件夹：存储左右目图片 demo文件夹：点对匹配结果、深度信息、三角测量可视化效果 main.cpp：主函数，调用orb_match进行点对匹配，调用antipolar_geometry计算对极几何位态变换，调用triangulation进行三角测量 get.cpp：调用双目摄像头，存储左右目图片 orb_match.cpp：库函数，功能包括：orb特征检测、描述子计算、landmark标志点对匹配 antipolar_geometry：库函数，功能包括：对极几何，计算两幅图像之间的位姿变换 triangulation：库函数，功能包括：三角测量，还原landmark标志点深度信息，得到landmark标志点3D坐标

2021-12-15

ORB特征提取与匹配.zip

orb特征提取与匹配

2021-12-13

双目视觉标定与校正.zip

calib_imgs文件夹：存储拍摄得到的左右目图片，左目棋盘格图片存于文件夹1，右目棋盘格图片存于文件夹2。 calib_left.cpp：进行左目摄像头的标定。 calib_right.cpp：进行右目摄像头的标定。 calib_stereo.cpp：进行双目标定。 get_img.cpp：用于移动棋盘格，存储左右目拍摄的图片。 undistort_rectify.cpp：进行双目校正。环境配置：c++代码、OpenCV 4.5.3环境。

2021-12-10

单目摄像头标定.zip

c++版本代码，对应环境Ubuntu20.04、OpenCV 4.5.3版本。 images1、images2分别是两组不同摄像头拍摄的棋盘格图片，我们分别对它们进行标定，其实就是实验重复了两次。 images1文件夹中的图片是网上下载的，尺寸为480*640，OpenCV计算起来非常快，每张0.3s左右。 images2文件夹中的图片是我自己借助海康摄像头拍摄的，尺寸为1440*2560，非常大，OpenCV计算起来很慢，每张80s左右。 images1_demo、images2_demo是这两组图片的棋盘格检测结果。 images1_undist、images2_undist是这两组图片的校正结果。 camera_Calibration1.cpp、camera_Calibration2.cpp是单目相机标定的源码。 camera_Undistortion1.cpp、camera_Undistortion2.cpp是单目相机校正的源码。

2021-12-08

目标跟踪Sort算法_车流量统计.zip

1、tiny_yolov4文件夹：目标检测算法源码，包括：网络搭建、训练好的权重、解码文件、预测文件。为提升算法速度，我摒弃了YOLOv4框架而采用了Tiny_YOLOv4框架，检测精度虽然有所下降，但每帧推理速度从0.17s提升至0.03s。 2、predict.py：用于验证目标检测的效果，可单独独立出来运行，与目标跟踪无关。 3、kalman.py：卡尔曼滤波器，基于恒速运动模型，预测下一帧目标物体的位置。 4、tracker.py：存储每个时刻不同目标物体的状态，管理目标跟踪整个系统运作过程。 5、main.py：整个项目的运行入口，直接运行main.py，就可以调用Tiny_YOLOv4 + Sort，处理视频流信息，完成目标跟踪、车流量统计。 6、MVI_39211、MVI_39031：DATRAC数据集测试集的两个视频，交通路段车流量画面。demo1、demo2：调用目标跟踪算法，车流量的每帧统计结果。

2021-11-30

算法性能： 1、检测正面清晰车牌号图片，车牌号在整张图片占比1/8-1/3之间，精度可达99%以上。 2、整体算法耗时104ms-164ms之间，处理视频流畅。算法原理： 1、利用u-net网络做语义分割，检测得到车牌号位置。 2、按比例裁减图片，得到省份汉字图片和字母数字图片。 3、利用vgg网络分类，识别省份类别。 4、利用c_rnn网络分割分类，识别字母数字。

2021-08-16

PSPNet_语义分割.zip

1、基于VOC_2012_AUG数据集进行语义分割，10000张训练集，1136张测试集。 2、语义分割精度达到93%，非常不错。 3、PSPNet模型，基于mobilenet特征提取框架。

2021-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人