m_buddy-CSDN博客

原创 Caffe源码，训练流程分析

1. 前言1.1 Caffe结构简单梳理在之前的文章（Caffe源码整体结构及介绍）中介绍了Caffe中的一些重要的组件：1）Blob 主要用来表示网络中的数据，包括训练数据，网络各层自身的参数(包括权值、偏置以及它们的梯度)，网络之间传递的数据都是通过 Blob 来实现的，同时 Blob 数据也支持在 CPU 与 GPU 上存储，能够在两者之间做同步。2）Layer 是对神经网络中各种层...

2019-04-14 22:40:26 879 5

原创 XGBoost参数解释

前言本文中针对XGBoost的参数说明进行部分翻译得来，原文链接。因而本文中只对一些关键参数进行了翻译，且由于本人能力有限，文中难免存在错误的地方，还望指正。以下是大致翻译内容。在运行XGboost之前, 我们必须设置三种类型的参数: 通用参数（general parameters），Booster 参数（booster parameters）和学习目标参数（task parameters...

2018-02-19 20:07:34 13593

原创 MapTracker：Tracking with Strided Memory Fusion for Consistent Vector HD Mapping

对于tracking的思想是使用历史帧信息，历史帧信息中query与GT匹配关系、query特征表达均会传递到当前帧，在给新目标分配额外object query的同时，用以上信息完成帧间流转之后去检测。为了提升帧间检测的稳定性通常会添加时许信息，这个可以BEV特征处做时序融合，也可以是用当前帧query去cross-attn历史帧信息，则更多的时候是将之前帧信息与当前做融合或者cross-attn实现信息传递，是一种只在当前帧做检测的思路。这篇文章提出使用tracking的思路去做帧间融合，也就是。

2024-04-11 01:07:46 800

原创 MGMap：Mask-Guided Learning for Online Vectorized HD Map Construction

这里使用bevformer去构建初始BEV特征，之后通过EML Neck（带channel-wise和spatial-wise的attention）去构建不同尺度的特征，用以满足不同目标感受野需求的不同。在逐层优化之后会输出query-embedding和query-coords，deformable-attn是通过offset学习的方式去确定需要抓取的信息，这是稀疏且粗糙的。（栅格化描述在实际量产中是已被验证的），这样有了栅格化作为性能的baseline，再从向量化维度去提升性能上限。

2024-04-08 19:18:39 996

原创 NMP：Neural Map Prior for Autonomous Driving

也就是利用车端感知网络获取当前位置处BEV特征，同时依据定位信息从全局BEV特征中抠取对应区域BEV特征，再与当前感知网络BEV特征做融合，融合BEV特征通过定位信息将其更新到全局BEV特征上去，最后在融合BEV特征上做感知预测。借用辅助信息的网络肯定会带来性能提升（天气、光照变化、黑夜等场景下的鲁棒性会增强），至少这一点是可以确定的，就是辅助信息的形式和如何获取需要再探讨，是使用地图、时序？这个特征就用于去得到感知结果和更新全局BEV特征了。和依据当前位置获取的全局BEV特征。

2024-04-03 17:11:14 786

原创 P-MapNet：Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors

在Step1中通过预训练的方式得到网络初始参数，那么以感知初始结果作为输入使用预训练参数进行finetune，就可以依据HDMap中的先验信息去进一步优化感知的结果。BEV特征（上图中展示的BEV特征应该是经过PV2BEV之后的，因为并未看到与图像特征做交互）通过cross-attn之后相当于就是引入到道路先验，之后再经过预测网络得到初步感知结果。感知的终极目的时在线构建高精地图，而感知+地图的结果只能说是在鲁棒性、稳定性上好于纯视觉的方案，对此这篇文章设计了一个refine网络，这个网络。

2024-03-30 22:04:45 650 1

原创 HIMap：HybrId Representation Learning for End-to-end Vectorized HD Map Construction

这里对于局部的理解可以看作是地面元素中的点（文中描述为points-level），全局的理解可以看作是地面元素整体（通常理解为实例，文中描述为elements-level）。对于回归任务较难的问题，自然想法就是引入其它信息，其实实例的几何信息也是很重要的，这个几何信息直观表现就是mask信息，而mask预测是一个分类任务天然就比回归任务容易学习。然而由分割任务基础上去预测points的回归也是很难的（没有很好学习point-level的信息），就如下面图中第2、3格子的图。对应下图中第1格子的图。

2024-03-30 00:52:06 940

原创 Stream Query Denoising for Vectorized HD Map Construction

明显的差异是其在StreamMapNet的基础上增加了去噪分支，这个分支需要确定参与去噪的地图元素与当前帧的对应关系（也就是上图中的Adaptive Temporal Matching），以及寻找到对应关系之后依据元素之间的距离计算加噪声的力度（也就是上图中对应的Dynamic Query Noising）。这里将地图元素描述为有序点的形式，用一个外接矩形去包围它，那么调整外接矩形中心的位置和宽高就可以调整这个地面元素上点的位置了，因为设定了地图元素上每个点相对矩形的相对位置是不变的。

2024-02-13 00:08:18 716

原创 ADMap：Anti-disturbance framework for reconstructing online vectorized HD map

局部地图构建算法在实际中会遇到部分车道线偏离的或是错误的情况，这往往是全局信息获取上存在欠缺，毕竟地图元素的回归很依赖于全局信息的获取。其实抛开多模态特征融合网络部分不谈，在上图中描绘了文章的两个工作MPN和IIA，前一个用于融合Camera和Lidar的信息，后一个用于增强query内部的信息关联。MPN的结构在上图中已经和清楚了，也就是使用多尺度的方式融合不同模态信息。，而且其中的inter和intra两个类型的attention具体哪个模块起的作用更大和摆放的位置在之前的工作中已经有了实验和说明了。

2024-02-11 00:21:52 355 1

原创 MapNeXt：Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction

在原本的MapTR中query-pos是通过torch.split()操作得到的，其本身是没有任何位置先验信息的，而query-pos是比较重要的信息，给它以明确的先验信息是能够提升网络的性能的。有了上述permutation的过程，实际GT的数量得到增加，那么对应query的数量也会增加，则有效query的占比就增加了，那么参与更新的query变多，梯度下降的方向更加具有方向性，收敛速度更快。在给定的集合上其实是看不出IPM、BEVFormer、GKT这些BEV特征提取算法的优劣的，但是在。

2024-02-10 23:50:39 733

原创 PointBeV：A Sparse Approach to BeV Predictions

按照上面的思路文章的方案会在2D BEV空间上按照一定的策略去采样一些点，并将这些采样点按照类似FastBEV的方式从2D图像中获取粗略的BEV特征，这些粗略的BEV特征会经过由粗到精细化模块得到最后的BEV特征。但是在做attention的时候是需要考虑计算的范围的，这些计算的范围也需要ego-motion的加持（那么这个东西不准的时候呢？但是文章的中的减少内存和计算资源开销的思想还是可以借鉴的，或许在后续的科研与工作中用到。文章的方案突出的稀疏特性，那么BEV采样点自然也是稀疏的，在。

2024-02-09 00:08:36 457

原创 FB-BEV：BEV Representation from Forward-Backward View Transformations

前者产生的BEV特征是稀疏的矩阵，后者产生的BEV特征在深度上是不可知的，也就是无法感知实际物体中的深度。对此，文章结合两种BEV投影的方法构建了一个BEV转换策略，既是首先使用“push”的方法构建一个base BEV特征，由于这些特征比较粗糙使用一个“RPN”细化并区分其中的前景和背景，再将确定的前景背景点去“pull”信息来优化BEV，在这个过程中都会用到估计出来的深度分布和假定的深度分布（用于与估计的深度分布联合计算特征融合概率）。）和BEV网格构建的深度分布（下图中对应的。，也就是下图中对应的。

2024-02-06 21:55:36 959

原创 Dynamo-Depth：Fixing Unsupervised Depth Estimation for Dynamical Scenes

而3D运动场就是场景中每个像素在3D下的运动估计，之前的论文中有直接对它进行稀疏化约束的，对应实验结果也证明是可行的。基于上面对不同epoch深度估计模型的观察，深度估计上的空洞是在迭代的后期才出现的，那么可以取未经过改进的自监督深度估计（如第5 epoch下）前期模型用于运动目标mask和3D运动场的初始化，有助于整体网络的稳定。这是一份很棒的工作，对自监督深度估计中的运动目标场景做了细致分析，并给出了对应解决方案以提升自监督深度架构对于运动目标深度估计的性能。对原始自监督深度估计的模型观察，文章指出。

2024-02-02 00:26:41 572

原创 GEDepth：Ground Embedding for Monocular Depth Estimation

这样可以极大简化深度估计网络学习的难度，自然深度估计的性能就上去了。先不说这个深度估计的实际效果如何，但是这个将复杂的问题简单化的思路是可以借鉴的。文章的核心内容部分在左上部分，也就是如何去构建地面基础深度，文中给出了两种地面深度生成的方法：内外参映射、地面坡度加内外参，自然第二种的精度更高。这个借助内外参可以在平直路面实现基础地面深度估计，什么路面坡度、障碍物什么的都不考虑，单纯计算地面的深度。单纯依靠内外参得到的地面基础深度是相当粗糙的，完全不能用，那么可以借用下图定义的路面坡度。

2024-02-01 23:32:08 499

原创 InsightMapper：A closer look at inner-instance information for vectorized High-Definition Mapping

之前的一些工作中使用inst_query加上共享point_query的方式（Hierarchical query方式构建），这样方式的含义是point_query需要去学习所有车道线的几何信息，但是车道线之间是差异很大的，强行去表达这些信息对这么少的共享参数是较难表达的，那么一个办法就是对每个inst_query都分配一组point_query以此来构建最终query（Hybrid query方式构建）。再者，场景中的车道线在线内部和线之前是存在关联的，它们之间的关联是否被有效挖掘。也是可以实验一下的。

2024-01-09 00:37:17 879

原创 QTNet：Query-based Temporal Fusion with Explicit Motion for 3D Object Detection

其实在了解完整篇文章的思路之后会觉得文章的方案其实并不是那么靠谱，在文章的方案中分类、速度预测、ego-motion精度等是关键因素，直接影响了attn-mask的质量，要是这些拉垮了，那就完犊子了。这俩方案具有各自的优缺点，那么基于query的方式便是一种折中的考量了，query中包含了物体语义信息，reference point中包含了位置信息，而这篇文章提出的方案便是在query的维度上对齐（按照距离作为度量对齐），之后再去做感知预测。，那么在ego-motion下实现前一帧道当前帧的变换。

2023-12-21 00:46:10 1094

原创 GeMap：Online Vectorized HD Map Construction using Geometry

此外在车道线解码过程中attn_mask也可以做些改进，比如MapTR-V2种的inter和intra两个维度的attention可以做得更细粒度一点，也就是做intra-attn的时候只关注本车道线内部，做inter-attn的时候只关注除自身之外的其它实例，出了原本针对单点的L1损失，车道线具备的几何结构信息作为监督信息也可以再被挖掘挖掘，像车道线实例中点和点之间的距离与夹角、线与线之间的夹角、不同线上点与点之间的关系都可用来作为监督约束，，这个attn_mask的机制还是有借鉴价值的。

2023-12-13 00:19:37 591

原创 MapVR：Online Map Vectorization for Autonomous Driving, A Rasterization Perspective

再对比回归任务和分割的分类任务，这两者任务本质上就存在较大的差异，分类任务具备较强先验知识，因而相对回归任务会表现更加鲁棒，同时再结合分割任务需要的全局和局部感知特性，这也是这篇文章要将分割方向的loss引入到点的回归上来的原因。表示平滑因子，越大mask的边界越平滑，越小mask的边界越锐利。文章的方法算作是在原本向量化车道线预测的基础上添加的额外损失，它将预测向量和GT向量栅格化为mask图像（栅格化的过程可导），并借用分割领域中的dice loss计算与GT的差异，也就是下图所示的情况。

2023-12-12 23:23:56 898

原创 MachMap：End-to-End Vectorized Solution for Compact HD-Map Construction

为了兼容不同车道线的朝向，环形车道线的起终点等情况，针对性设计了permute-equal的匹配逻辑，这样的逻辑真的是太麻烦了。对于车道线的描述使用固定点数的方式，这样就使得对于一些车道线细节把握不到位，就是原本的均匀采样没有采样到对应区域的问题。，但是图像能感知到的范围肯定是大于它的，那么由于文章的算法是引入了时序的，那就会导致真值在不同时刻下对应不一致的情况。那么对于一个路口的场景其中的车道线对应的真值就被描绘成了下面中间图的结果了，但是车道线的方向不得增加一个单独的预测来处理？文章设置的感知范围为。

2023-12-12 00:45:41 1003

原创借助SD地图的BEV静态感知

还有一个方案是使用辅助信息，如SD地图，SD地图（standard definition map）是一种较为廉价和覆盖范围广的辅助信息，并且其也是相对置信的，则可以考虑将它与传感器感知算法结合，得到更加鲁棒的感知方案，因而这里对最近看到的几篇SD地图结合方案进行梳理。核心在KEA模块的下面，使用一个对方向信息敏感的卷积处理地图数据，再通过一个定位网络输出地图需要的旋转角度和平移量，并完成网格采样以此实现特征对齐。这个工作是在BEV空间去做SD地图和传感器数据的融合的。

2023-12-03 15:12:32 1316 2

原创 ScalableMap：Scalable Map Learning for Online Long-Range Vectorized HD Map Construction

因此文章在元素解码阶段设计了粗糙到精细的预测过程，称为HSMR，而对地面元素的建模就是参考了MapTR的那套。另外对于BEV特征构建选择了两种方式：transformer和IPM投影的组合方式，这样可以有效兼顾BEV图下每个grid的离散特征和图像域中目标的连续信息。前一个针对每个BEV下的grid去图像中抓取信息，后一个通过MLP从图像中获取连续且稠密的信息，同时还在后一个中添加分割任务，用以增加对环境的感知能力。那么在流转到下一层的时候多出来的顶点是怎么产生的呢？文章给出的方案是：插值。

2023-11-06 00:03:38 177

原创 StreamMapNet：Streaming Mapping Network for Vectorized Online HD Map Construction

整体上文章的方法是基于MapTR的（参考了它的车道线回归和匹配机制），主要的工作是使用多个query-point去做deformable attention，以及增加时序上的信息融合，算是一些trick的叠加，当作一些trick效果的验证就好。在原本的deformable attention中只有一个中心，但是这样的信息抓取方式是不适合那些空间跨度比较大的情况的，如车道线，则应该对于每个query point去做deformable信息抓取，也就是下图中的这样。

2023-11-05 22:28:34 297

原创 PivotNet：Vectorized Pivot Learning for End-to-end HD Map Construction

注意由于每条车道线中关键点的位置是不一致的，则使用share方式构建的point-query会存在一定歧义（也就是文中说的Hierarchical Query），这种share方式构建的index-dependent，而对于动态预测车道线关键点则需要index-independent。在MapTR系列的算法中将单个车道线建模为固定数量的有序点集（对应下图Evenly-based），这样的方式对于普通道路场景具备一定适应性。在初始的时候使用一堆点的方式构建车道线query，它的维度是。

2023-11-05 20:32:14 474 2

原创 SparseBEV：High-Performance Sparse 3D Object Detection from Multi-Camera Videos

在Deformable Attention中已经存在基于query的采样offset预测，但是它与目标的实际大小不相关，完全由参与预测的MLP决定。则对于每个query这里分别预测相对物体长宽高的offset，从而使得offset的生成更加符合目标的空间实际，这是对offset生成部分的改动。确定offset生成方式之后之前需要对齐不同时序下的特征，自然需要依据自身pose变化对特征进行变换，并且对于场景中的运动目标还需要使用速度进行补偿。

2023-10-11 00:47:46 959

原创 LATR：3D Lane Detection from Monocular Images with Transformer

这里的位置编码是首先在3D空间中进行采样（也就是文章定义的3D地平面），之后通过相机内外参数投影到图像中，以此来作为对应图像位置处的3D位置来源。则在原本不准确的3D平面上就可以通过自适应回归的方式优化3D地平面，由此实现特征3D位置编码的优化，地平面的约束使用过车道线上的点投影建立起来的，也就是使得下图中的绿色平面与红色的车道线接近。对于图像特征使用3D信息嵌入的位置编码，只不过这个位置编码是在给定一个的初始化基础上修正而来的，也就是说在transformer解码的过程中这个位置编码的值是动态的。

2023-10-10 00:12:24 1074

原创 Kick Back & Relax:Learning to Reconstruct the World by Watching SlowTV

这篇文章提出了一种在无标定数据集上自监督估计深度的方法，也就是通过网络预测的方式估计相机的内参，从而完成自监督流程。），因而需要使用网络去预测，对于输入的一个序列只需要一次预测就好了（这部分在代码里面也做了判断），而对于预测部分使用全连阶层预测，只不过对于焦距和中心在输出的时候采用了不同的激活函数，对于焦距预测采用了类似ReLU曲线的Softplus激活函数。在MiDas算法中已经验证了图像的尺寸会对深度估计造成影响，为了使得网络更加鲁棒和具备更强零样本泛化能力，这里对图像进行剪裁和resize操作。

2023-08-19 01:15:44 156

原创 Dyna-DepthFormer：Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scene

对于图像特征抽取上文章引入了transformer模块，首先利用帧间关联（运动网络估计出的pose信息）使用deformable attention算子优化当前帧的表达，这里可以看作当前帧特征（query）与相邻帧特征（key，val）做cross-attention。在MonoDepth系列的经典网络中运动估计网络主要负责估计帧间的pose信息，这就导致对场景中的运动目标就没办法处理了，也就导致该种类型网络在运动目标深度的时候会出现“黑洞”的情况。在这篇文章中使用迭代的方式去估计场景中目标的运动变化。

2023-08-15 01:04:57 173

原创 DMCP：Multi-Camera Collaborative Depth Prediction via Consistent Structure Estimation

这篇文章对于多视图自监督深度估计在不同相机下的深度表达构建一致性约束，其建立约束的信息来自于相邻相机之间的视角重叠区域，如下图所示依据这些区域可以在loss端通过不同相机之间标定外参构建不同视角之间的深度约束关系，也就是周围相机预测出的深度经过投影之后应该和目的相机的深度值差异最小化。除了在loss层面上对不同视角下深度构建约束之外，还在特征表达的维度在channel层次上对初次深度估计结果进行加权，使得深度表达具备更强表达能力，也使得可以通过迭代优化加权系数的方式级连优化深度估计结果。

2023-08-09 00:23:34 161

原创 Metric3D：Towards Zero-shot Metric 3D Prediction from A Single Image

在如MiDasLeReS这些文章中对于来源不同的深度数据集使用归一化深度作为学习目标，则在网络学习的过程中就天然失去了对真实深度和物体尺寸的度量能力。而这篇文章比较明确地指出了影响深度估计尺度变化大的因素就是焦距fff，则对输入的图像或是GT做对应补偿之后就可以学习到具备scale表达能力的深度预测，这个跟车端视觉感知的泛化是一个道理。需要注意的是这里使用到的训练数据集需要预先知道相机的参数信息，且这里使用的相机模型为针孔模型。

2023-08-02 00:38:29 2055

原创 EGA-Depth：Efficient Guided Attention for Self-Supervised Multi-Camera Depth Estimation

算法中对使用self-attention做多视图特征聚合，这样一个是计算开销和显存占用比较大，二个每个单独视图需要从众多视图中寻找有用信息会减慢网络收敛速度。对此依据多视图系统中成像特点，这篇文章将当前视图只与左右俩视图（分别对应左右视图的与当前视图相关的一部分）做attention操作，从而极大减少计算和显存开销。节省了这些开销之外就可以尝试增加分辨率、增加多桢输入（从结果上看涨点不明显）这些trick来提升自监督深度估计的性能了。

2023-07-31 17:16:28 108

原创 SurroundDepth：Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation

在这篇文章中提出一种多视图融合实现自监督深度估计的方法。使用backbone实现多视图特征抽取之后将这些特征通过multi-scale的self-attention融合，使得多视图中具有视角交叉的图像信息得到交换和融合，特别地在融合过程中借鉴了多尺度和skip-connect的策略用于优化图像特征。

2023-07-30 01:37:16 140

原创 FSM：Full Surround Monodepth from Multiple Cameras

深度估计任务作为基础环境感知任务，在基础上构建的3D感知才能更加准确，并且泛化能力更强。单目的自监督深度估计已经有MonoDepth、ManyDepth这些经典深度估计模型了，而这篇文章是对多目自监督深度估计进行探索，在单目自监督深度估计基础上利用多目相机之间相互约束构建了多目自监督深度估计方法。

2023-07-29 19:39:24 1288

原创 StreamPETR：Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

介绍：在BEV感知中时序信息融合会为下游感知任务带来不小性能提升，但是在单帧基础上引入时序信息必然会带来额外开销，因而迫切需要一种高性能且代价小的融合方案。现有的一些时序融合策略多是在BEV特征空间维度上完成的，并且对于一些DETR-based方案本身就没有显式构建BEV特征，如PETR，则BEV特征空间上的时序融合方法就不适用了。

2023-07-10 00:56:22 975

原创 DG-BEV：Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-View

介绍：BEV算法部署过程中会遇到camera的变化，这个变化包含了相机内外参数，其中内参决定了成像物体在图像中的大小，外参决定了物体成像的位置。对此文章提出了一种内外参数对齐的方案（工作是以BEVDepth为基准），对于内参导致的物体大小问题采用深度补偿的方式解决，对于外参数导致的成像位置变化采用单应矩阵映射的解决，同时为了使得图像特征对于相机内参鲁棒，设计了一个Domain Classifier去提升生成特征的泛化能力。不过从实际效果上看最后一个改进效果相比前面两种不是那么明显。

2023-06-28 00:51:17 426

原创 BEVSimDet：Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

介绍：在模型实际部署过程中由于实际传感器缺失、计算资源限制等因素，导致对实际部署的模型裁剪，自然性能也会存在下降。对这样的情况一般会采取知识蒸馏的方式实现性能弥补，对于常见intra-modal、cross-modal、multi-modal的蒸馏方式，它们需要source和target中输入的传感器数量保持一致，这样才能实现蒸馏。具体到自动驾驶场景中激光雷达并不是在所有车型，那么对于没有激光雷达的车如何提升感知性能？对此文章提出在图像特征上添加一个模拟的Lidar特征。

2023-06-27 23:52:33 180

原创 UniDistill：A Universal Cross-Modality Knowledge Distillation Framework for 3D Object Detection...

介绍：这篇文章为BEV下3D目标检测领域提出了一种知识蒸馏方案，无论是Lidar还是Camera作为数据输入，它们均可以在BEV空间下实现特征对齐，则可以不用考虑前级网络由于不同模态输入而导致特征不匹配问题。对于刚完成到BEV视角转换的特征称为low-level特征，经过BEV编码器之后得到high-level特征，之后检测任务才能在high-level上得到感知结果。

2023-06-27 00:20:40 280

原创 An Efficient Transformer for Simultaneous Learning of BEV and Lane Representations ...——论文笔记

介绍：transformer相关工作在车道线检测领域已经被证实是可行的，只不过大部分情况其耗时比较多，这是由于多数时候还构建了bev grid query去获取bev特征，而PETR这个方法直接在图像特征上加3D位置编码就快很多了。

2023-06-24 11:46:33 320 1

原创 BeMapNet：End-to-End Vectorized HD-map Construction with Piecewise Be ́zier Curve——论文笔记

介绍：对于高精地图中关于地面车道线相关检测这篇文章提出了一种基于贝塞尔曲线的多片段检测方式，也就是将一条车道线划分称为不同的片段，并对这些片段使用贝塞尔曲线拟合，这样可以减少由于曲线本身复杂而导致单条贝塞尔曲线的学习难度，并且表达的曲线更加准确。同时为了提升地面车道元素的感知性能，在感知头部分还提出了Point-Curve-Region Loss，它由多种loss联合组成用于在多个维度下帮助网络收敛。同时还在bev维度上添加语义分割分支和实例分割分支用于帮助网络收敛。

2023-06-23 18:33:44 970 2

原创 PolarFormer：Multi-camera 3D Object Detection with Polar Transformer——论文笔记

介绍：在仓库RoboBEV中总结了现有的一些bev感知算法在不同输入情况下的鲁棒性，在这些感知算法中PolarFormer拥有较为不错的泛化性能。这个算法的思想是将之前由直角坐标系栅格化构建bev网格，转换到由极坐标构建栅格化bev网格，这样的bev特征构建方法其实是符合相机成像过程的，在W维度切分的单个竖向特征代表的便是由光心和两条射线组成的扇形区域。

2023-06-22 15:30:17 906 1