- 博客(442)
- 资源 (50)
- 收藏
- 关注
原创 【多模态融合】MetaBEV 解决传感器故障 3D检测、BEV分割任务
本文介绍多模态融合中,如何解决传感器故障问题;基于激光雷达和相机,融合为BEV特征,实现3D检测和BEV分割,提高系统容错性和稳定性。会讲解论文整体思路、模型框架、论文核心点、损失函数、实验与测试效果等。
2024-04-06 19:42:09 1199
原创 【多模态融合】SuperFusion 激光雷达与相机多层次融合 远距离高清地图预测 ICRA 2024
本文介绍激光雷达与相机进行多层次融合,包括数据级融合、特征级融合和BEV级融合。融合后的BEV特征可以支持不同的任务头,包括语义分割、实例编码和方向预测,最后进行后处理生成高清地图预测,它是来自ICRA 2024的。会讲解论文整体思路、模型框架、论文核心点、损失函数、实验与测试效果等。
2024-03-26 01:45:35 1171
原创 【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。会讲解论文整体思路、输入数据分析、模型框架、设计理念、损失函数等。
2024-03-03 13:13:29 1297
原创 4D毫米波雷达——ADCNet 原始雷达数据 目标检测与可行驶区域分割
本文介绍使用4D毫米波雷达,基于原始雷达数据,实现目标检测与可行驶区域分割,它是来自2023-12的论文。ADCNet只使用雷达信息,实现车辆检测和可行驶区域分割。输入:原始雷达数据;即ADC数据,由4D毫米波雷达生成。信号处理模块:用一个可学习的信号处理层,来处理原始ADC数据。RD特征:信号处理层将ADC数据,转为RD特征,范围-多普勒信息,包含距离和速度信息。主干网络:进一步编码RD特征,隐式地估算目标的方位角。任务头:首先进行RAD张量预训练。在预训练完后,进行微调检测任务头和分割任务头
2024-01-30 00:24:41 1255
原创 4D毫米波雷达——FFT-RadNet 目标检测与可行驶区域分割 CVPR2022
本文介绍使用4D毫米波雷达,实现目标检测与可行驶区域分割,它是来自CVPR2022的。会讲解论文整体思路、输入数据分析、模型框架、设计理念、损失函数等,还有结合代码进行分析。输入是“范围-多普勒”信息,即RD图;由4D毫米波雷达生成。经过主干网络和FPN提取特征信息,并进一步编码形成“范围-角度”信息”。然后接两个任务头:车辆检测任务、可行驶区域分割任务。
2024-01-21 17:59:54 2246 1
原创 4D毫米波雷达——原理、对比、优势、行业现状
4D 毫米波雷达是传统毫米波雷达的升级版,4D指的是速度、距离、水平角度、垂直高度四个维度。相比传统 3D 毫米波雷达,4D 毫米波雷达增加了“高度”的探测,将第四个维度整合到传统毫米波雷达中。4D毫米波雷达被视为未来车载雷达的一种可能的标准配置,因为它在多方面优于传统的毫米波雷达和低线激光雷达,能与高线激光雷达互补。预计这种雷达将被广泛应用于各种车型中。与传统雷达产品相比,4D毫米波雷达能够突破在静止目标识别横向移动检测高度识别区分邻近物体和探测隐藏车辆等方面的限制。
2024-01-18 00:02:47 3128
原创 【占用网络】SurroundOcc:基于环视相机实现3D语义占用预测 ICCV 2023
本文分享“占用网络”方案中,来自ICCV 2023的SurroundOcc,它基于环视相机实现3D语义占用预测。使用空间交叉注意力将多相机图像信息提升到3D体素特征,即3D体素Query到2D图像中查询融合特征的思想。然后使用3D卷积逐步对体素特征进行上采样,并在多个层次特征图上进行损失监督。同时,SurroundOcc介绍了如何通过多帧点云,构建稠密的3D语义占用栅格数据集,这部分也是挺重要的。清华大学云盘。
2024-01-10 23:57:01 840
原创 【占用网络】VoxFormer 基于视觉的3D语义场景方案 CVPR 2023
本文分享“占用网络”方案中,来自CVPR2023的VoxFormer,它基于视觉实现3D语义场景补全。使用Deformable Attention从图像数据中,预测三维空间中的体素占用情况和类别信息。VoxFromer是一个两阶段的框架第一个阶段:预测每个像素的深度值,将像素投影三维空间中,2D图像到3D空间的思想。然后预测每个三维网格是否被占用,生成稀疏体素特征。最后选择其中是“占用”的体素作为“体素查询特征”进入第二阶段。这个阶段只预测占用情况,选择一些值得分析的体素。第二个阶段。
2024-01-04 00:43:57 1345
原创 【占用网络】OccNet: Scene as Occupancy 适用于检测、分割和规划任务 ICCV2023
本文分享“占用网络”方案中,具有代表性的方法:OccNet。它以多视角视觉为核心,首先生成BEV特征,然后通过级联结构和时间体素解码器重建生成3D占用特征。构建一个通用的“3D占用编码特征”,用以表示3D物理世界。这样的特征描述可以应用于广泛的自动驾驶任务,包括检测、分割和规划。
2023-12-29 00:44:48 1478
原创 【BEV感知】BEVFormer 融合多视角图形的空间特征和时序特征 ECCV 2022
本文分享BEV感知方案中,具有代表性的方法:BEVFormer。基本思想:使用可学习的查询Queries表示BEV特征查找图像中的空间特征和先前BEV地图中的时间特征。它基于Deformable Attention实现了一种融合多视角相机空间特征和时序特征的端到端框架,适用于多种自动驾驶感知任务。主要由3个关键模块组成:BEV Queries Q:用于查询得到BEV特征图Spatial Cross-Attention:用于融合多视角空间特征。
2023-12-17 23:12:08 2045
原创 单目3D目标检测 方法综述——直接回归方法、基于深度信息方法、基于点云信息方法
本文综合整理单目3D目标检测的方法模型,包括:基于几何约束的直接回归方法,基于深度信息的方法,基于点云信息的方法。万字长文,慢慢阅读~ 直接回归方法涉及到模型包括:MonoCon、MonoDLE、MonoFlex、CUPNet、SMOKE等。基于深度信息的方法涉及到模型包括:MF3D、MonoGRNet、D4LCN、MonoPSR等。基于点云信息的方法涉及到模型包括:Pseudolidar、DD3D、CaDDN、MonoDTR等。
2023-10-26 00:26:07 2405 2
原创 手把手搭建一个【卷积神经网络】
前言本文介绍卷积神经网络的入门案例,图像分类;使用到CIFAR10数据集,它包含10 类,即:“飞机”,“汽车”,“鸟”,“猫”,“鹿”, “狗”,“青蛙”,“马”,“船”,“卡车” ;共 60000 张彩色图片;通过搭建和训练卷积神经网络模型,对图像进行分类,能识别出图像是“汽车”,或“鸟”,还是其它。思路流程导入 CIFAR10 数据集 探索集数据,并进行数据预处理 建立模型(搭建神经网络结构、编译模型) 训练模型(把数据输入模型、评估准确性、作出预测、验证预测) 使用训练..
2021-05-05 17:12:20 15575 27
原创 【神经网络】综合篇——人工神经网络、卷积神经网络、循环神经网络、生成对抗网络
前言本文综合整理常用的神经网络,包括生物神经网络、人工神经网络、卷积神经网络、循环神经网络、生成对抗网络;参考了许多高校的课程、论文、博客和视频等。文章的结构是先进行概念了解,然后结合图片、结构图、一步一步详细讲解;大家要不看看?( •̀ ω •́ )y一、人工神经网络简介:人工神经网络(Artificial Neural Network, ANN),由人工神经元构成的网络,模拟人类的大脑;它模拟生物过程以反映人脑某些特征的计算结构。联系:人工神经元模拟生物神经元;人工神经网络模拟...
2021-04-17 17:03:06 36145 17
原创 一篇文章认识《双目立体视觉》
双目立体视觉,由两个摄像头组成,像人的眼睛能看到三维的物体,具有深度的信息;单目视觉只能看到二维的物体。1)双目摄像头2)双目相机基线3)打开双目摄像头4)双目测距视差disparity、极线约束、极线校正/立体校正、a.双目标定b.双目矫正c.立体匹配d.双目测距(三角测量)e.测距效果立体视觉方法评测网站
2021-04-02 01:28:17 6319 26
原创 目标检测模型NanoDet(超轻量,速度很快)介绍和PyTorch版本实践
YOLO、SSD、Fast R-CNN等模型在目标检测方面速度较快和精度较高,但是这些模型比较大,不太适合移植到移动端或嵌入式设备;轻量级模型 NanoDet-m,对单阶段检测模型三大模块(Head、Neck、Backbone)进行轻量化,目标加检测速度很快;模型文件大小仅几兆(小于4M)。该代码基于NanoDet项目进行小裁剪,专门用来实现Python语言、PyTorch 版本的代码,下载直接能使用,支持图片、视频文件、摄像头实时目标检测。
2020-12-02 23:25:20 28586 65
原创 基于神经网络——鸢尾花识别(Iris)
前言鸢尾花识别是学习AI入门的案例,这里和大家分享下使用Tensorflow 2框架,编写程序,获取鸢尾花数据,搭建神经网络,最后训练和识别鸢尾花。流程:1)获取鸢尾花数据,分析处理。2)整理数据位训练集,测试集。3)搭建神经网络模型。4)训练网络,优化网络模型参数。5)保存最优的模型,进行识别...
2020-07-05 19:30:03 29289 17
原创 【BEV 视图变换】Fast-Ray 基于查找表LUT、多视角到单个三维体素转换
在BEV感知方案中,将图像特征转为BEV特征,是关键的一步,这过程也称为2D视图变换。本文介绍Fast-Ray方法,在Fast-BEV中被提出的,它是一种轻量级并且易于部署的视图转换方法,用于快速推理。通过将多视图2D图像特征沿着相机射线投影到3D体素上,来获得BEV特征。此外,提出了查找表和多视图到单体素操作,优化了在车载平台上的处理过程。
2024-04-10 00:45:14 722
原创 【BEV视图变换】BEVPoolv2 原理、CUDA代码实现
本文介绍BEVPoolv2,会介绍原理和CUDA代码实现。从工程优化的角度出发,改善BEV模型的视图转换。通过省略视锥特征的计算、存储和预处理来实现,使其在计算和存储方面不再受到巨大的负担。输入使用640 ×1600的分辨率,它可以在 0.82 毫秒内处理,这是先前最快实现的 15.1 倍。
2024-03-05 00:41:50 1039 2
原创 4D毫米波雷达——RADIal数据集、格式、可视化 CVPR2022
本文介绍RADIal数据集,来着CVPR2022的。它是一个收集了 2 小时车辆行驶数据的数据集,采集场景包括:城市街道、高速公路和乡村道路。采集设备包括:摄像头、激光雷达和高清雷达等,并且还包括了车辆的 GPS 位置和行驶信息。总共有 91 个视频序列,每个视频时长从 1 分钟到 4 分钟不等,加起来一共是 2 小时。这些视频详细记录了车辆在不同地点和环境下的行驶情况。在大约 25,000 个录制的画面中,有 8,252 个画面被用来标记了 9,550 辆车。
2024-01-19 01:21:49 1701 6
原创 【占用网络】FlashOcc:基于2D卷积的占用预测模型
FlashOcc是一个它只需2D卷积就能实现“占用预测模型”,具有快速、节约内存、易部署的特点。它首先采用2D卷积提取图形信息,生成BEV特征。然后通过通道到高度变换,将BEV特征提升到3D空间特征。对于常规的占用预测模型,将3D卷积改为2D卷积,将三维体素特征改为BEV特征。而且不用Transformer注意力算子。
2024-01-17 09:18:17 289
原创 【占用网络】FlashOcc:快速、易部署的占用预测模型
FlashOcc是一个快速、节约内容、易部署的占用预测模型。它首先采用2D卷积提取图形信息生成BEV特征。然后通过通道到高度变换(channel-to-height transformation),将BEV特征提升到3D空间特征。对于常规的占用预测模型,将3D卷积改为2D卷积,将三维体素特征改为BEV特征。而且不用Transformer注意力算子。
2024-01-14 18:12:24 236
原创 【BEV感知 EA-LSS 方案】Edge-aware Lift-splat-shot
本文分享LSS方案的改进方案——EA-LSS,它解决了“深度跳变”问题,提出了一个新框架Edge-aware Lift-splat-shot。适用于“多视图转BEV”,可以代替原来的LSS模块,并有效地提高了检测精度,而推理时间的增加很少。在nuScenes测试集上验证,纯相机模型或多模态模型,EA-LSS都是有效的,并达到了Top1排名(截至本文时间2023-12)。
2023-12-11 22:18:04 350
原创 【多传感器融合】BEVFusion: 多任务-多传感器融合框架 ICRA 2023
BEVFusion ICRA 2023| MIT提出的。它是一个为多任务、多传感器融合提供了一个高效、通用且任务可拓展的框架。通过在共享的BEV空间中统一多模态特征,并保持几何结构和语义密度,它支持广泛的3D感知任务(检测、分割、预测等)
2023-12-03 20:38:04 353
原创 【BEV感知 LSS方案】Lift-Splat-Shoot 论文精读与代码实现
LSS全称是Lift-Splat-Shoot,它先从车辆周围的多个摄像头拍摄到的图像进行特征提取,在特征图中估计出每个点的深度然后把这些点“提升”到3D空间中。接着,这些3D信息被放置到一个网格上最后将这些信息“拍扁”到一个平面视图上,形成BEV特征图。Lift,是提升的意思,2D → 3D特征转换模块,将二维图像特征生成3D特征,涉及到深度估计。Splat,是展开的意思,3D → BEV特征编码模块,把3D特征“拍扁”得到BEV特征图。Shooting,是指在BEV特征图上进行相关任务操作。
2023-12-01 22:47:09 367
原创 【多传感器融合】BEVFusion: 激光雷达和视觉融合框架 NeurIPS 2022
BEVFusion其实有两篇,NeurIPS 2022 | 北大&阿里提出。另一篇是ICRA 2023 | MIT提出。本文先分享阿里那篇,下面简单总结一下两篇论文。重点: 介绍了一个融合摄像头和激光雷达数据的框架,用于3D对象检测。其创新之处在于使摄像头流程不依赖激光雷达输入,解决了现有方法过度依赖激光雷达数据的局限性。方法: BEVFusion框架使用两个独立流程来处理激光雷达和摄像头数据然后在鸟瞰视图(BEV)层面进行融合。这种方法即使在激光雷达功能失常,或摄像头失常的情况下也保证了稳健性。性能。
2023-12-01 01:37:23 2407 1
原创 未来之路:大模型技术在自动驾驶的应用与影响
本文深入探讨了大模型技术在自动驾驶领域的应用和影响。文中首先概述了大模型技术的发展历程,自动驾驶模型的迭代路径,以及大模型在自动驾驶行业中的作用。接着,详细介绍了大模型的基本定义、基础功能和关键技术,特别是Transformer注意力机制。文章还探讨了大模型在任务适配性、模型变革和应用前景方面的潜力。在自动驾驶技术的部分,详细回顾了从CNN到RNN、GAN,再到BEV和Transformer结合的技术迭代路径,以及占用网络模型的应用。最后,文章重点讨论了大模型如何在自动驾驶的感知、预测和决策。
2023-11-12 23:46:28 2100 1
原创 3D检测数据集 DAIR-V2X-V 转为Kitti格式 | 可视化
本文分享在DAIR-V2X-V数据集中,将标签转为Kitti格式,并可视化3D检测效果。
2023-11-08 17:52:25 1451 2
原创 CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。论文提出了一种新的卷积算子,partial convolution,部分卷积(PConv),通过减少冗余计算内存访问来更有效地提取空间特征。创新在于部分卷积(PConv),,降低了计算复杂度,从而实现了快速高效的神经网络。区别于常规卷积:PConv只对输入通道的一部分应用卷积,而保留其余部分不变。
2023-10-31 21:29:57 1702
原创 【论文解读】单目3D目标检测 LPCG(ECCV 2022)
LPCG是一种用激光点云指导-单目3D目标检测的方法,通过点云数据生成海量粗略的3D标签,生成过程中不用对点云进行标注;降低3D标签的成本。同时这些海量“粗略的3D标签”位置是准确的,只是尺寸和朝向有些偏差;所以如何通过点云数据,直接生成粗略的3D标签是LPCG论文亮点。用这些海量“粗略的3D标签”,作为伪标签指导单目3D目标检测训练。这种方法可以应用到各种单目3D目标检测模型中,模型精度提升大,太强了~
2023-10-29 19:42:21 278
原创 【论文解读】单目3D目标检测 MonoFlex(CVPR 2021)
MonoFlex是一种端到端单阶段的单目3D目标检测方法,它优化了被截断物体的3D检测,同时优化了中心点的深度估计,检测速度也比较快。
2023-10-24 01:13:11 674
原创 【论文解读】单目3D目标检测 DD3D(ICCV 2021)
DD3D是一种端到端单阶段的单目3D目标检测方法,它在训练时用到了点云数据,监督深度图的生成,共享预测深度的特征提取层;推理时不用点云数据了,只需图像数据和相机内参,即可完成3D框的信息预测。这是预训练和共享权重的思路。
2023-10-20 01:46:26 569
原创 【论文解读】单目3D目标检测 CUPNet(ICCV 2021)
CUPNet是基于几何约束和回归方式输出3D框信息,在不依赖dcn的情况下获得了较好的性能。它也是一款两阶段的单目3d检测器,先回归2D框信息,在ROI区域进一步提取特征,生成3D框信息。本文分享单目3D目标检测,CUPNet 模型的论文解读,了解它的设计思路,论文核心观点,模型结构,以及效果和性能。
2023-10-17 01:42:45 320
原创 单目3D目标检测——MonoCon 模型训练 | 模型推理
本文分享 MonoCon 的模型训练、模型推理、可视化3D检测结果、以及可视化BEV效果。
2023-10-15 03:33:25 619 7
原创 【论文解读】单目3D目标检测 MonoCon(AAAI2022)
MonoCon是一个延续CenterNet框架的单目3d检测器,在不依赖dcn的情况下获得了较好的性能,并且融入了辅助学习,提升模型性能。曾经在Kitti 单目3D目标检测上,霸榜了一段时间。MonoCon和MonoDLE很像,在它基础上添加了一些辅助分支检测头,促进网络学习特征的能力。MonoCon = MonoDLE + 辅助学习辅助学习:训练阶段增加一些网络分支,对其计算loss项,而在推理阶段完全忽略掉它们,以期得到更好的特征表示。
2023-10-14 18:17:32 799
原创 【论文解读】单目3D目标检测 MonoDLE(CVPR2021)
MonoDLE作为一个延续CenterNet框架的单目3d检测器,在不依赖dcn的情况下获得了较好的性能,可以作为baseline。论文核心观点,主要包括为三点:2d box中心点与投影下来的3d box中心点,存在不可忽视的差异,优先使用3d box投影下来的中心点。较远目标,会带偏模型训练;在训练时,可以过滤这些过远的物体标签。提出了一种面向 3D IoU 的损失,用于对象的大小估计,不受“定位误差”的影响。
2023-10-13 01:16:35 849
原创 3D目标检测数据集 DAIR-V2X-V
本文分享国内场景3D目标检测,公开数据集 DAIR-V2X-V(也称为DAIR-V2X车端)。DAIR-V2X车端3D检测数据集是一个大规模车端多模态数据集,包括:22325帧图像数据、22325帧点云数据、2D&3D标注。基于该数据集,可以进行车端3D目标检测任务研究,例如单目3D检测、点云3D检测和多模态3D检测。
2023-10-11 01:52:27 1186
原创 单目3D目标检测——SMOKE 模型推理 | 可视化结果
本文分享SMOKE的模型推理,和可视化结果。以kitti数据集为例子,对训练完的模型进行推理,并可视化3D框的结果,画到图像中。
2023-10-09 20:11:16 803
原创 单目3D目标检测——SMOKE 环境搭建|模型训练
本文分享SMOKE最新的版本的环境搭建,以及模型训练;环境关键库版本:pytorch 1.12.0、CUDA 11.3、cudnn 8.3.2、python 3.7、DCNv2。
2023-09-25 01:36:58 1293 7
CVPR 2022 Tutorial Denoising Diffusion-based Generative Model
2023-11-11
整理近年来《人工智能》的标准和评估规范
2020-11-19
宝马:深度学习在自动驾驶中的应用及部署过程.pdf
2020-04-05
“2019年中国自动驾驶行业发展研究报告-前瞻产业研究院-2019.8”.pdf
2020-04-05
VScode+opencv3.4+mingw5.3+cmake-3.9.0.rar
2020-04-03
apollo_demo_2.0.bag数据包
2020-01-13
apollo__demo_1.5.bag数据包
2020-01-13
apollo--demo_1.0数据包
2020-01-13
decawave_trek1000_arm2.10_pc3.6.zip
2019-07-22
ZigBee各类传感器模块-例程及使用手册说明.zip
2019-07-19
bazel-0.27.1-installer-linux-x86_64.sh
2019-07-10
Win32DiskImager-0.9.5-install 树莓派和电脑传输文件
2019-02-25
全国大学生电子设计竞赛 培训资料
2018-10-21
CC2530 (zigbee) 中文数据手册完全版
2018-10-05
cc2530蓝牙 PWM 小车
2018-01-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人