自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(181)
  • 收藏
  • 关注

原创 ReID专栏(三) 注意力的应用

本文中提出了一种用于行人重识别的注意感知特征学习方法。该方法由一个部分注意分支(PAB)和一个整体注意分支(HAB)组成,并与基础再识别特征提取器进行了联合优化。由于这两个分支建立在主干网络上,因此没有为ReID特征提取引入额外的结构。因此,本方法能够保持与原始网络相同的推理时间。

2023-06-02 17:29:46 359 1

原创 ReID专栏(二)多尺度设计与应用

多尺度流层可以更有效地提取多尺度信息,而基于显著性的学习融合层有利于重要特征通道的自动选择,因此MuDeep在学习鉴别模式方面很强大。其实这也是目前大多数深度学习任务发表论文的趋势,即多尺度、显著性特征的表示。

2023-06-02 17:29:27 532

原创 ReID专栏(一) 任务与数据集概述

前言 本专栏针对Closed-world的ReID任务,首先介绍本任务的目标与主要数据集,包括行人重识别、跨模态行人重识别与车辆重识别。然后从三类表征学习的角度解读相关论文,表征学习是本任务的核心,大量重识别工作都致力于提高表征学习的性能。再次,我们介绍了度量学习和排序优化的发展。最后,我们解读了重识别领域最新的研究方法和研究思路。本教程禁止转载。同时,本教程来自知识星球【CV技术指南】更多技术教程,可加入星球学习。Transformer、目标检测、语义分割交流群欢迎关注公众号CV技术指南,专注于

2023-06-02 17:26:03 883

原创 libtorch教程(三)简单模型搭建

本文介绍了libtorch教程中的简单模型搭建

2023-06-02 17:24:00 306

原创 libtorch教程(二)张量的常规操作

张量的常规操作

2023-06-02 17:19:19 467

原创 libtorch教程(一)开发环境搭建:VS+libtorch和Qt+libtorch

事实上,在前面的pytorch部署博客和libtorch的QT部署中笔者已经分享了自己搭建libtorch开发环境的记录。其余并无太多要赘述的。

2023-06-02 17:18:19 2329 1

原创 NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子使用

上一章中我们介绍了NeRF原理、传统体渲染方法以及两者之间的联系,本章中我们将讲解colmap的安装以及使用,部分[nerf_pl](https://github.com/kwea123/nerf_pl)源码,同时在开发过程中,由于部分操作python/torch不支持,我们需要自己造轮子,且在后续的专栏中我们也会遇到cuda算子,因此本章也会讲解一下cuda算子的使用。

2023-06-02 17:09:43 2123 1

原创 NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型

上一章中我们大致介绍了三维重建的背景、NeRF应用于三维重建的难点以及相关数据集和评估指标,本章节将会详细介绍NeRF原文以及部分源码,以及体渲染的物理模型,来帮助读者更好理解NeRF。

2023-06-02 17:04:52 1994

原创 NeRF与三维重建专栏(一)领域背景、难点与数据集介绍

关于该系列专栏,主要介绍NeRF在三维重建中的应用(这里我们特指MVS,multi-view stereo,也即输入带位姿的图片,输出三维结构例如点云、mesh等;并且后面的工作也都是围绕MVS with NeRF讨论的。虽然也有without pose的NeRF,从重建的角度也可以理解为SFM with NeRF,例如ESLAM,Barf,但不是本专栏关注的重点),一方面是为了整理回顾一下现有资料,一方面是为了方便广大初学者更快了解NeRF如何应用于三维重建。

2023-05-14 21:38:17 2411 2

原创 异常检测专栏(三)传统的异常检测算法——上

在上一篇推文中,我们简要介绍了异常检测常用的几种数据集如ImageNet、CIFAR10/CIFAR100、MNIST等。接下来,我们将基于传统的异常检测算法分为上、下两部分,逐一介绍不同类别的方法。

2023-05-14 21:35:05 746 2

原创 异常检测专栏(二):评价指标及常用数据集

在上一篇推文中,我们认识到关于异常检测几种术语的概念和区别,并用一个广义OOD来描述异常检测的相关问题。此外,我们还了解到异常检测的相关应用、发展历程和当前异常检测技术的难点。本篇推文将继续回顾异常检测的基础概念,主要包括异常检测的评估指标和常用数据集。

2023-05-14 21:31:36 1287

原创 异常检测专栏(一)异常检测概述

异常检测一直是机器学习中一个活跃的研究领域,由于风险管理、合规、安全、将抗和医疗风险以及人工智能安全等广泛领域的需求和应用不断增加,异常检测发挥和越来越重要的总用。近年来,随着深度学习和计算机视觉技术的不断发展,已经引入了大量的深度异常检测方法,在解决各种实际应用中具有挑战性的检测问题方面,表现出明显优于传统异常检测的性能。

2023-05-14 21:31:07 585

原创 BEV专栏(二)从BEVFormer看BEV流程(下篇)

书接上回,在上一篇文章中,我们介绍了BEVFormer这一先进的BEV算法。在本篇文章中,我们将深入探讨BEVFormer的实现细节,旨在帮助读者更深入地理解BEVFormer的工作原理和性能表现。

2023-05-14 21:24:43 592

原创 BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)

本文提出了一种基于Transformer和时间结构的Bird's-Eye-View(BEV)编码器,称为BEVFormer。该编码器可以有效地聚合来自多视角摄像机和历史BEV特征的时空特征。

2023-05-14 21:21:53 1255

原创 BEV专栏(零)BEV概述

视觉为中心的俯视图(BEV)感知是一种从鸟瞰视角观察场景的感知技术,它可以提供更全面、更准确的环境感知信息。BEV技术已经在自动驾驶、智能交通、物流配送等领域得到广泛应用和研究,因为它能够有效地解决传统单目、双目视觉感知技术在场景感知范围、视野盲区、姿态变化等方面的限制。本BEV专栏将从BEV技术的背景意义、重点难点、研究方向、应用场景、数据集、评价指标等多个方面进行了概述和介绍,并对未来的发展方向进行了展望。

2023-05-14 21:20:46 590

原创 可见光遥感图像目标检测(三)文字场景检测之Arbitrary

前面介绍了关于可见光遥感图像目标检测任务主要面临的问题,现在对旋转目标的问题进行优化,为了便于大家理解与之前通用目标检测区别,采用Faster-Rcnn网络模型的架构对旋转目标的检测进行改进。

2023-05-14 21:19:58 399

原创 可见光遥感目标检测(二)主要难点与研究方法概述

由于Transormers的横空出世,把cv问题转变为了CNN与Transormers各占据半壁江山,现在也有很多用Transormers来做遥感图像目标检测,并且也取得了不错的效果,Transormers主要的有点是能够学习到图片的全局特征,但是其缺点是需要大量的数据才能够表现出最佳的性能。,小目标的检测问题不属于遥感图像特有的检测问题,属于目标检测的普遍性的问题,主要是由于小目标提供的像素点信息较少,无法提取到鲁棒性的特征。1、旋转目标的检测问题,一直都是遥感图像目标检测的重要解决的问题。

2023-05-14 21:17:15 730

原创 可见光遥感目标检测(一)任务概要介绍

本篇开始对遥感图像的目标检测进行介绍,介绍了其目标前景、数据集以及评价指标。

2023-05-14 21:14:28 892

原创 视觉定位领域专栏(三)算法评估方法总结

要去评估算法的好坏,首先得需要知道算法的输出是什么,在视觉定位算法中,其输出为拍摄图像时6自由度的相机姿态,其包括三自由度的平移和三自由度的旋转,其旋转可以用多种形式去表征,比如旋转矩阵、旋转向量和欧拉角、四元数。当然不是所有的算法输出都为6自由度的姿态,当机器人或者自动驾驶汽车几乎都在平坦地面上进行运动时,只需估计三自由度即可,这包括其在世界坐标系中的x、y坐标以及偏航角yaw。平移误差和旋转误差在一定阈值下图像所占的数量,比如下图所示。

2023-04-30 19:36:28 805

原创 视觉定位领域专栏(二)常用数据集介绍

这是一个专门针对AR/VR应用的数据集,数据集的采集是使用带有定制的原始传感器记录应用程序的Microsoft HoloLens 2和Apple iPad Pro设备收集数据,10名参与者每人获得一台设备,并被要求在一个共同的指定区域行走,即在环境中自由行走、参观、检查和四处寻找,由此产生了不同的相机高度和运动模式,他们的轨迹没有任何计划或限制,在长达一年的时间里,参与者在白天和晚上的不同时间点访问每个地点。数据集是在12个月的时间里采集的,覆盖了伦敦帝国理工学院周围1.2公里的街道。

2023-04-30 19:32:20 783

原创 语义分割专栏(二)复习FCN的编解码结构

编码器-解码器(encoder-decoder)是语义分割领域中最重要的一种结构,它的核心思想就是先压缩,再解压,后续提到的绝大部分网络采用的都是这种原始的结构。在此基础之上,我们可以改变上采样方式,在论文中常常叫做微调编码器;也可以改变上采样方式,在论文中常常叫做微调解码器。通过这两种方式,我们就能创造出很多很多的种样式的神经网络~欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。【技术文档】《从零搭建pytorch模型教程》122页PDF下载。

2023-04-30 19:28:01 263

原创 语义分割专栏(一)解读FCN

FCN作为语义分割领域的开创者,重要性不言而喻。在FCN之前,计算机视觉领域的工作主要集中在对象检测和图像分类等方向,这些任务实现的是对图像进行分类、定位、边界框回归等操作。但是!一旦能够对输入图像进行像素级分割(像下面这样↓),这些任务就都能迎刃而解!语义分割示例FCN的出现就解决了这个问题:采用全卷积的结构可以对任意大小的图像进行像素级别的预测和分割!这一突破性的进展为语义分割任务的发展提供了强有力的支持和推动,使得在医学影像、自动驾驶、智能安防等领域实现高质量的语义分割成为可能。

2023-04-30 19:24:47 228

原创 模型轻量化-网络剪枝专栏(二)网络剪枝的评价指标及数据集

CIFAR-100数据集的类别更细致,每个类别包含更多种类的物体,如CIFAR-10数据集的类别“鸟类”在CIFAR-100数据集中被分为“鸟类”和“昆虫”两个类别。除了准确率外,还有其他的模型精度评估指标,例如精确度、召回率、F1 分数等,这些指标通常用于解决不平衡分类或多分类问题,并且需要将模型的预测结果与真实标签之间的关系分成不同的情况进行考虑。MNIST是一个手写数字数据集,包含60000张28x28像素的训练图像和10000张测试图像,用于训练和测试基于图像的机器学习算法和深度学习算法。

2023-04-30 19:15:11 1201 1

原创 模型轻量化-网络剪枝专栏(一)网络剪枝概述

网络剪枝(Network Pruning)是一种深度学习模型压缩技术,它的主要目标是通过去除神经网络中不必要的参数和连接,以减少模型的大小和计算量,从而实现模型压缩和加速的效果,同时减少模型的存储和运行成本,提高模型的泛化性能。其他的压缩技术还有低秩分解、量化、蒸馏等,由于这几种模型压缩技术是相互正交的,因此可以组合使用。

2023-04-30 19:12:05 729

原创 不良条件视觉感知专栏(一)任务前言

检测和分割是场景理解的关键部分,在机器人、无人驾驶、安防等领域有着广泛的应用。现有的大部分方法主要在正常的成像条件下进行,虽然在性能表现上较好,但是并没有考虑到不良条件(恶劣天气、低光照等)下的场景。现实中的场景是复杂多变的,包含着很多不良的条件给视觉算法带来不利的影响。下面我汇总了常见的不良感知场景,大概可以分为天气和光照两部分:雾天(Foggy)雨天(Rainy)雪天(Snowy)黄昏(Dusk)夜晚(Night)黑夜(Dark Night)比普通的夜晚更黑,只包含极少的光照。

2023-04-30 19:06:41 128

原创 Transformer-Based Visual Segmentation: A Survey

Vision Transformers 为各种分割任务提供了强大、统一甚至更简单的解决方案。本调查全面概述了基于Transformers 的视觉分割,总结了最近的进展。本文首先回顾背景,包括问题定义、数据集和先前的卷积方法。接下来,总结了一个 meta 架构,它统一了所有最近基于 transformer 的方法。本文还介绍了几个密切相关的设置,包括 3D 点云分割、基础模型调整、域感知分割、高效分割和医学分割。此外,在几个成熟的数据集上编译和重新评估审查的方法。

2023-04-30 18:58:25 263

原创 SegGPT:在上下文中分割一切

所有的采样都是关于颜色的,即相同的颜色表示相同的类别或相同的实例。作者使用不同类型的分割数据集,包括部分、语义、实例、全景、人、视网膜和航拍图像分割,提供一个统一的视角,无需对数据集进行额外的工作或调整,并且在添加额外数据集时不需要对架构或pipeline进行修改,这与以前需要手工标签合并来组合不同类型的分割数据集的方法不同。类似地,在实例分割中,实例对象的颜色是根据其位置类别分配的,即颜色的数量等于空间位置的数量,从而得到模型仅依靠颜色本身来确定任务,而不是使用段之间的关系。其余的训练保持不变。

2023-04-12 11:29:13 2134

原创 上线一天,4k star | Facebook:Segment Anything

本文介绍了Facebook AI Research的Segment Anything (SA) 项目:用于图像分割的新任务、模型和数据集。在数据收集循环中使用该模型,它构建了迄今为止最大的分割数据集,在 1100 万张许可和尊重隐私的图像上有超过 10 亿个掩码。该模型被设计和训练为可提示的,因此它可以将零样本转移到新的图像分布和任务中。

2023-04-08 16:55:00 481

原创 AAAI 2023 | 轻量级语义分割新范式: Head-Free 的线性 Transformer 结构

现有的语义分割工作主要集中在设计有效的解-码器上,然而,一直以来都忽略了这其中的计算成本。本文提出了一种专门用于语义分割的 Head-Free 轻量级架构,称为 Adaptive Frequency Transformer (AFFormer) 。采用异构运算符(CNN 和 ViT)进行像素嵌入和原型表示,以进一步节省计算成本。由于语义分割对频率信息非常敏感,构建了一个具有复杂度 O(n) 的自适应频率滤波器的轻量级模块。

2023-03-31 12:29:53 1920

原创 CVPR 2023 | 用于半监督目标检测的Active Teacher方法

本文从数据初始化的角度研究师生模型,并提出了一种名为 Active Teacher 的半监督对象检测 (SSOD) 新算法。Active Teacher 将师生框架扩展到迭代版本。同时,还从信息量、多样性和难度等方面考察了样本的选择,让Active Teacher 最大限度地主动选择那些最有可能增加模型准确性的未标记样本,并将这些样本用于半监督目标检测中的训练。

2023-03-22 13:08:48 1463

原创 CVPR2023 | 集成预训练金字塔结构的Transformer模型

本文提出了一种新的预训练模型架构(iTPN ),该架构由多个金字塔形的Transformer层组成。每个层都包含多个子层,其中一些是普通的self-attention和feed-forward层,而另一些则是新的pyramid层。Pyramid层是一种新的层类型,它被设计为对输入进行多粒度的表示学习。此外,iTPN 还使用了一些其他的技巧,以提高模型的鲁棒性和泛化能力。

2023-03-15 11:03:07 1570

原创 点云模型专栏(一)概述、特性、存储格式、数据集

从本篇文章开始,咱们将带大家从最基本的点云表示、应用开始,逐步讲授深度学习中的基本模型、处理方案等。本教程将按以下目录来更新,可能日后会有所调整。

2023-03-13 22:54:12 1209

原创 目标跟踪专栏(一)基本任务、常用方法

视觉目标跟踪是计算机领域的一个重要问题。尽管近年来受到了广泛研究,目标跟踪问题由于本身的高难度、高质量数据的稀少,研究热度比目标检测、语义分割等基本视觉任务略低一些。深度学习的发展和计算机算力的增强带来了视觉算法性能的突飞猛进,而目标跟踪领域中基于深度神经网络的方法只在近几年才初见端倪,可谓大有可为。

2023-03-13 18:05:03 676

原创 AAAI 2023 | 一种通用的粗-细视觉Transformer加速方案

本文中提出了一种由粗到精的视觉变换器(CF-ViT)来减轻计算负担,同时保持性能。CF-ViT 以两阶段的方式实现网络推理。在粗略推理阶段,输入图像被分成一个小长度的补丁序列,用于计算上经济的分类。如果没有被很好地识别,信息块将被识别并进一步以细粒度重新分割。

2023-03-13 15:48:50 454

原创 CVPR 2023 | 基础模型推动语义分割的弱增量学习

语义分割的弱增量学习(WILSS)目的是学习从廉价和广泛可用的图像级标签中分割出新的类别,但图像级别的标签不能提供定位每个片段的细节。为了解决该问题,本文提出了一个新颖且数据高效的框架(FMWISS)。该框架提出了基于预训练的共同分割,以提炼出互补基础模型的知识来生成密集的伪标签。用师生结构进一步优化噪声伪标签,并引入基于内存的复制-粘贴增强技术,以改善旧类的灾难性遗忘问题。

2023-03-01 19:12:40 1360

原创 姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

现有的头部姿势估计主要集中在具有预先检测到的正面头部的单个人,这依赖于单独训练的面部检测器,不能很好地泛化到完整的视点。在本文中,作者关注全范围 MPHPE 问题,并提出了一个名为 DirectMHP 的直接端到端简单基线,通过多头的联合回归位置和方向设计了一种新颖的端到端可训练单级网络架构,以解决 MPHPE 问题。这种灵活的设计可以接受任意姿势表示,同时可以隐含地从更多环境中获益,以提高 HPE 精度,同时保持头部检测性能。

2023-02-11 16:04:55 1119

原创 用于超大图像的训练策略:Patch Gradient Descent

本文旨在计算和内存限制的情况下,解决在大规模图像上训练现有CNN 架构的问题。提出PatchGD,它基于这样的假设:与其一次对整个图像执行基于梯度的更新,不如一次只对图像的一小部分执行模型更新,确保其中的大部分是在迭代过程中覆盖。当在大规模图像上训练模型时,PatchGD 广泛享有更好的内存和计算效率。尤其是在计算内存有限的情况下,该方法在处理大图像时比标准梯度下降法更稳定和高效。

2023-02-11 15:37:35 877

原创 新方案:从错误中学习,点云分割中的自我规范化层次语义表示

LiDAR 语义分割通过直接作用于传感器提供的原始内容来完成细粒度的场景理解而受到关注。最近的解决方案展示了如何使用不同的学习技术来提高模型的性能,而无需更改任何架构或数据集。遵循这一趋势,论文提出了一个从粗到精的设置,该设置从标准模型派生的分类错误 (LEAK) 中学习。

2023-02-11 15:30:11 545

原创 IncepFormer:用于语义分割的高效inception transformer

本文提出了一种简单而强大的语义分割架构——IncepFormer。IncepFormer介绍了一种新颖的金字塔结构Transformer编码器,它同时获取全局上下文和精细定位特征。IncepFormer还集成了具有深度卷积的类Inception架构,以及每个自注意力层中的轻量级前馈模块,有效地获得了丰富的局部多尺度对象特征。

2022-12-08 11:36:27 1759

原创 Transformer-Based Learned Optimization

本文为学习优化器提出一种新的神经网络体系结构,其灵感来自经典的BFGS算法。和BFGS一样,将预条件矩阵估计为一级更新的和,但使用基于transformer的神经网络来预测这些更新以及步长和方向。与以往几种优化方法相比,能在目标问题的参数空间的不同维度之间进行条件反射,同时仍然适用于变维度的优化任务,无需再训练。

2022-12-08 09:54:22 681

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除