bestrivern-CSDN博客

原创 Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

一.introduction目前的计算机视觉算法任务，基于输出结果是否与输入图像在同一个参考系下，可以分为两类：• 预测结果与输入不在同一个参考系：分类• 预测结果与输入在同一个参考系：目标检测、语义分割、全景分割从这个角度来看，基于BEV的自动驾驶感知算法，属于前一个类别，即预测结果与输入不在同一个参考系，这个最终得到的BEV结果属于本体车辆参考系。一般的做法是，通过算法模型，把属于多个参考系下的多模态数据，进行融合预测，形成在BEV参考系下的预测结果，如下图所示。那么，多参考

2022-05-12 22:08:32 2954

原创 A Sim2Real Deep Learning Approach for theTransformation of Images from Multiple Vehicle-Mounted Cam

A Sim2Real Deep Learning Approach for theTransformation of Images from Multiple Vehicle-Mounted Cam

2022-05-09 12:37:39 591

原创 PersFormer

Motivation在前视图上做2D图像的分割技术很成熟，但是2D的图像空间不适用于复杂的工业级场景。为什么这么说呢，有两方面原因，一方面是下游的任务例如PNC更需要BEV视角的检测结果，有些方法将前视图上的车道线分割结果通过相机内外参变换到BEV空间，有些则更优雅的通过相机内外参将前视图的特征变换到BEV空间的特征，但这样的话BEV的特征强依赖于前视图的特征，会受到前视图中遮挡，scale变换的很大的影响。另一方面，我们应该要考虑车道线本身的height，这个height定义为车道线在BEV 3.

2022-04-07 13:41:34 567

原创 BEVSegFormer

Introduction现在很多BEV的工作都是怎么做的呢，有如下几种方式：传统方法。在iamge空间做分割，然后将它变换到BEV空间，通过IPM变换，这种方法依赖与精准的内参和外参。这种方法是基于当前情况做的视角变换，当出现遮挡或者远距离的时候就会不准深度学习的方法，lift-splat-shoot[1]通过诸逐像素点的深度估计完成image视角到BEV视角的变换，但使用深度估计增加了view变换过程的复杂性，故而一些方法[2]和[3]通过MLP和FC层本来学习这种image空间到BEV空间的

2022-03-30 10:51:37 4567

原创优先级队列(Priority Queue)(三)

批量建堆的算法主要有两种，自上而下的上滤和自下而上的下滤。一.自上而下的上滤template <typename T> void PQ_ComplHeap<T>::heapify(Rank n){ for(int i=1;i<n;i++) { percolateUp(i); }}二.效率分析时间复杂度：O(...

2020-02-09 11:49:14 359

原创优先级队列(Priority Queue)(二)

在完全二叉树周插入元素的方法是插入到底层，上滤在完全二叉树周删除元素的方法是将底层元素置于顶端，下滤一.上滤为插入词条e，只需要将e作为末尾元素接入向量否则，e与其父节点换位否则，e再与父节点换位不断重复，直到e与其父亲满足堆序性，或者e达到堆顶(没有父亲)二.代码实现template <typename T> void PQ_ComplHeap&lt...

2020-02-08 18:09:29 222

原创优先级队列(Priority Queue)(一)

一.概述优先级队列和通常的栈和队列一样，只不过里面的每一个元素都有一个”优先级”，在处理的时候，首先处理优先级最高的。如果两个元素具有相同的优先级，则按照他们插入到队列中的先后顺序处理。优先级队列可以通过链表，数组，堆或者其他数据结构实现。如果用数组来实现的话，如果插入操作是简单的在最后插入的话，其Insert的复杂度是O(1)，但是相对应的其查找最高优先级元素的复杂度就是O(n)，...

2020-02-08 11:25:48 715

原创跨卡同步 Batch Normalization

一．为什么要跨卡同步 Batch Normalization现有的标准 Batch Normalization 因为使用数据并行（Data Parallel），是单卡的实现模式，只对单个卡上对样本进行归一化，相当于减小了批量大小（batch-size）。对于比较消耗显存的训练任务时，往往单卡上的相对批量过小，影响模型的收敛效果。之前在在图像语义分割的实验中，就发现使用大模型的效果反而变差，...

2019-12-29 18:02:41 2092 3

原创 Filter Response Normalization Layer(FRN)

一.概述目前主流的深度学习模型都会采用BN层（Batch Normalization）来加速模型训练以及提升模型效果，对于CNN模型，BN层已经上成为了标配。但是BN层在训练过程中需要在batch上计算中间统计量，这使得BN层严重依赖batch，造成训练和测试的不一致性，当训练batch size较小，往往会恶化性能。GN（Group Normalization）通过将特征在channel维度...

2019-12-29 16:10:59 1874 1

原创 ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks

一.概述提出了一个Asymmetric Convolution Block (ACB),可以在普通的网络中加入一些ACB来代替普通的卷积，这个仅在训练的时候起作用，然后测试的时候可以使得网络恢复之前的结构，所以这种方法是提升了网络的性能但是完全不会破坏网络，所以原作者说是白给的性能。但是这个性能的提升也是以训练时间增加40%换来的。所以具体能不能应用到实际业务中就是仁者见仁智者见智了。二....

2019-12-27 21:24:56 2847 1

原创马尔可夫链蒙特卡罗算法(MCMC)-(三)

在马尔可夫链蒙特卡罗算法(MCMC)-(二)中我们讲到给定一个概率平稳分布π, 很难直接找到对应的马尔科夫链状态转移矩阵P。而只要解决这个问题，我们就可以找到一种通用的概率分布采样方法，进而用于蒙特卡罗模拟。本篇我们就讨论解决这个问题的办法：MCMC采样和它的易用版M-H采样。一.马尔科夫链的细致平稳条件在解决从平稳分布π, 找到对应的马尔科夫链状态转移矩阵P之前，我们还需要先看看马尔科夫...

2019-12-22 11:26:54 1222

原创马尔可夫链蒙特卡罗算法(MCMC)-(二)

在马尔可夫链蒙特卡罗算法(MCMC)-(一)中，我们讲到了如何用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和的方法，但是这个方法需要得到对应的概率分布的样本集，而想得到这样的样本集很困难。因此我们需要本篇讲到的马尔科夫链来帮忙。一.马尔可夫链概述马尔科夫链定义本身比较简单，它假设某一时刻状态转移的概率只依赖于它的前一个状态。举个形象的比喻，假如每天的天气是一个状态的话，那...

2019-12-21 20:21:18 1440

原创马尔可夫链蒙特卡罗算法(MCMC)-(一)

作为一种随机采样方法，马尔科夫链蒙特卡罗（Markov Chain Monte Carlo，以下简称MCMC）在机器学习,深度学习以及自然语言处理等领域都有广泛的应用，是很多复杂算法求解的基础。比如分解机(Factorization Machines)推荐算法，还有受限玻尔兹曼机（RBM），都用到了MCMC来做一些复杂运算的近似求解。下面我们就对MCMC的原理做一个总结。MCMC方法是用来在...

2019-12-21 17:39:45 1513

原创 FCOS详解S:FullyConvolutionalOne-StageObjectDetection

这玩意和基于anchor的有异曲同工之处，anchor-based是一个点对应n个anchor，而这玩意是每一个点对应一个box。训练时：基于anchor的方法是在featuremap的每一个点上产生anchor，然后将anchor映射回原图求gt与anchor的iou，大于一定阈值就认为是正样本，进行gt与anchor的坐标偏移回归，并且进行分类的训练。而这玩意是对于featurema...

2019-12-20 10:37:54 689

原创 python装饰器_2

由于函数也是一个对象，而且函数对象可以被赋值给变量，所以，通过变量也能调用该函数。>>> def now():... print('2015-3-25')...>>> f = now>>> f()2015-3-25函数对象有一个__name__属性，可以拿到函数的名字：>>> now.__na...

2019-12-12 22:24:07 104

原创 python装饰器_1

装饰器本质上是一个Python函数，它可以让其他函数在不需要做任何代码变动的前提下增加额外功能，装饰器的返回值也是一个函数对象。它经常用于有切面需求的场景，比如：插入日志、性能测试、事务处理、缓存、权限校验等场景。装饰器是解决这类问题的绝佳设计，有了装饰器，我们就可以抽离出大量与函数功能本身无关的雷同代码并继续重用。概括的讲，装饰器的作用就是为已经存在的对象添加额外的功能。先来看一个简单例子：...

2019-12-12 22:18:06 97

原创 Global Average Pooling

一.简介大牛在NIN（Network in Network）论文中提到了使用全局平局池化层代替全连接层的思路，以下是摘录的一部分资料：global average poolilng。既然全连接网络可以使feature map的维度减少，进而输入到softmax，但是又会造成过拟合，是不是可以用pooling来代替全连接。答案是肯定的，Network in Network工作使用GAP来取...

2019-12-11 22:31:58 709

原创 PSPNet

一.概述Pyramid Scene Parsing Network（PSPNet）是CVPR2017上关于场景解析的文章，拿到了2016年ImageNet比赛中scene parsing任务的冠军，当然也常用来做语义分割。这篇文章出发点是在语义分割算法中引入更多的上下文信息（context information），这样能够避免许多误分割，PSPNet在FCN算法的基础上引入更多上下文信息是...

2019-12-11 21:58:25 720 1

原创 ThunderNet

一.Abstracttwo-stage lightweighted backbone for object detection efficient rpn and detection head design To generate more discriminative feature representation, we design two efficient architectu...

2019-12-07 14:06:04 587

原创感受野

感受野是卷积神经网络里面最重要的概念之一，为了更好地理解卷积神经网络结构，甚至自己设计卷积神经网络，对于感受野的理解必不可少。一.定义感受野是卷积神经网络里面最重要的概念之一，为了更好地理解卷积神经网络结构，甚至自己设计卷积神经网络，对于感受野的理解必不可少。在机器视觉领域的深度神经网络中有一个概念叫做感受野，用来表示网络内部的不同位置的神经元对原图像的感受范围的大小。在学习计...

2019-11-17 11:21:24 2058 2

原创分类问题的评价指标

一.概述二.理论其中精度是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。一般来说，Precision就是检索出来的条目（比如：文档、网页等）有多少是准确的，Recall就是所有准确的条目有多少被检索...

2019-11-16 18:07:22 1088

原创 Inception系列

一.Inception V1Inception v1的原始Inception module如下所示：首先解释一下这种Inception module的好处，从Alexnet到VGG，网络层次不断增加，深度不断增加，但是却忽视了广度上的增加，而Inception就是在广度上增加，同时使用不同的卷积核大小，3*3，5*5，1*1，这些不同卷积...

2019-11-12 21:20:15 1492

原创 east文本检测

一.简介近年来，提取和理解在自然场景中的文本信息变得越来越重要和普遍，ICDAR系列竞赛的参与者的数量以及NIST发起的TRAIT 2016评估都证明了这一点。文本检测作为文本识别、机器翻译等后续过程的前提条件，其核心是区分文本和背景。传统方法使用手动设计特征以获得文本属性，而现在基于深度学习直接从训练数据中学习有效特征，可获得更加鲁棒的高级特征。现有的无论是传统的还是基...

2019-11-11 11:37:54 2021

原创 MobileNet_v2

一.概述MobileNetV1网络是一条路的单通道结构，没有feature map的复用。ResNet和DenseNet等网络的提出，也验证了feature map复用对提升网络性能的有效性，MobileNetV2便应运而生。MobileNetV2提出使用 inverted residual with linear bottleneck，有很大residual block的影子在里面。接下来便...

2019-11-07 19:36:20 518

原创 MobileNet_v1

一.概述深度学习能够很好解决部分计算机视觉相关的问题，但是其需要依靠强大的计算能力作为支撑。深度学习在能耗有限，计算资源有限和存储空间有限的移动端部署困难重重。在不改变网络结构的前提下，网络稀疏化，量化是加速和压缩深度神经网络模型的重要手段。以AlexNet为例，网络的权重有233M的参数，在ILSVRC-2012上精度top1=62.5% top5=83%，而ResNet-18有45M的参...

2019-11-06 12:15:43 718

原创 Cascade R-CNN

本篇文章主要解决了在目标检测中，检测框不是特别准，容易出现噪声干扰的问题，即close false positive，为什么会有这个问题呢？作者实验发现，因为在基于anchor的检测方法中，我们一般会设置训练的正负样本（用于训练分类以及对正样本进行坐标回归），选取正负样本的方式主要利用候选框与ground truth的IOU占比，常用的比例是50%，即IOU>0.5的作为正样本，IOU&l...

2019-11-04 11:45:30 1329 1

原创 BN、LN、IN、GN

常用的Normalization方法主要有：Batch Normalization（BN，2015年）、Layer Normalization（LN，2016年）、Instance Normalization（IN，2017年）、Group Normalization（GN，2018年）。它们都是从激活函数的输入来考虑、做文章的，以不同的方式对激活函数的输入进行 Norm的。我们将输入的...

2019-11-02 22:47:06 1137

原创 CRNN详解

一.概述常用文字识别算法主要有两个框架： CNN+RNN+CTC(CRNN+CTC) CNN+Seq2Seq+Attention本文介绍第一种方法。CRNN是一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。文章认为文字识别是对序列的预测方法，所以采用了对序列预测的RNN网络。通过CNN将图片的特征提取出来后采用...

2019-11-02 13:26:02 33431 20

原创 ROI Pooling和ROI Aligen

ROI Pooling可以在Faster RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map。ROI Align 是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式, 很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示，在检测测任务中将 ROI Pooling 替换为 RO...

2019-10-29 20:51:23 480

原创 FPN

一.概述作者提出的多尺度的object detection算法：FPN（feature pyramid networks）。原来多数的object detection算法都是只采用顶层特征做预测，但我们知道低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式，但是一般是采用融合后的特征做预测，而本文不一样的地方...

2019-10-27 19:51:46 759

原创 SSD(Single Shot MultiBox Detector)

一.概述本文讲解的是SSD算法，其英文全名是Single Shot MultiBox Detector，名字取得不错，Single shot指明了SSD算法属于one-stage方法，MultiBox指明了SSD是多框预测。从图1可以看到，SSD算法在准确度和速度（除了SSD512）上都比Yolo要好很多。图2给出了不同算法的基本框架图，对于Faster ...

2019-10-23 13:12:34 3100

原创 DenseNet

一.概述这篇文章是CVPR2017的oral，DenseNet脱离了加深网络层数(ResNet)和加宽网络结构(Inception)来提升网络性能的定式思维,从特征的角度考虑,通过特征重用和旁路(Bypass)设置,既大幅度减少了网络的参数量,又在一定程度上缓解了gradient vanishing问题的产生.结合信息流和特征复用的假设,DenseNet当之无愧成为2017年计算机视觉顶会的年...

2019-10-22 21:52:10 580

原创 yolo_v3

一.概述YOLO算法的基本思想是：首先通过特征提取网络对输入图像提取特征，得到一定size的feature map，比如13*13，然后将输入图像分成13*13个grid cell，接着如果ground truth中某个object的中心坐标落在哪个grid cell中，那么就由该grid cell来预测该object，因为每个grid cell都会预测固定数量的bounding box（YO...

2019-10-14 15:11:14 1901

原创 yolo_v1

一.yolo概述作者在YOLO算法中把物体检测（object detection）问题处理成回归问题，用一个卷积神经网络结构就可以从输入图像直接预测bounding box和类别概率。YOLO算法的优点：1、YOLO的速度非常快。在Titan X GPU上的速度是45 fps（frames per second），加速版的YOLO差不多是150fps。2、YOLO是基于图像的全局信息进行预...

2019-10-10 09:15:36 281

原创 ctpn详解

一.概述对于复杂场景的文字识别，首先要定位文字的位置，即文字检测。这一直是一个研究热点。文本检测可以看成特殊的目标检测，但它有别于通用目标检测．在通用目标检测中，每个目标都有定义好的边界框，检测出的bbox与当前目标的groundtruth重叠率大于0.5就表示该检测结果正确．文本检测中正确检出需要覆盖整个文本长度，且评判的标准不同于通用目标检测，具体的评判方法参见(ICDAR 2017 ...

2019-10-07 12:31:17 21629 1

原创 python中的引用

Python 中一切皆为对象，数字是对象，列表是对象，函数也是对象，任何东西都是对象。而变量是对象的一个引用（又称为名字或者标签），对象的操作都是通过引用来完成的。例如，[]是一个空列表对象，变量a是该对象的一个引用在 Python 中，「变量」更准确叫法是「名字」，赋值操作=就是把一个名字绑定到一个对象上。就像给对象添加一个标签。a = 1 ...

2019-10-05 17:19:15 2226

原创 roidb.py

roidb是比较复杂的数据结构，存放了数据集的roi信息。原始的roidb来自数据集，在trian.py的get_training_roidb(imdb)函数进行了水平翻转扩充数量，然后prepare_roidb(imdb)【定义在roidb.py】为roidb添加了一些说明性的属性。roidb是由字典组成的list，roidb[img_index]包含了该图片索引所包含到roi信息，下面以r...

2019-10-04 10:55:08 381

原创损失函数

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子： ...

2019-10-04 09:55:46 23445

原创 soft nms

一.动机非最大抑制（Non-maximum suppression, NMS）是物体检测流程中重要的组成部分（如下图划线部分）。NMS算法首先按照得分从高到低对建议框进行排序，然后分数最高的检测框M被选中，其他框与被选中建议框有明显重叠的框被抑制。该过程被不断递归的应用于其余检测框。根据算法的设计，如果一个物体处于预设的重叠阈值之内，可能会导致检测不到该待检测物体。即当两个目标框接近时，分数更...

2019-10-02 22:03:16 871

原创 anchor_target_layer.py

这层并不会被用在测试中，只会在训练中起作用,用于cls和reg的loss的回传bbox inside weights用来设置正样本回归loss的权重，默认为1(负样本为0)（负样本为0，即可以区分正负样本是否计算 loss）原文中，正样本计算回归 loss，负样本不计算（可认为 loss 为 0）。2. bbox outside weights用来平衡 RPN 分类 Loss ...

2019-09-30 20:23:04 246

空空如也

空空如也