藏晖-CSDN博客

原创 ICCV2023 Tracking paper汇总（二）（多目标跟随、单目标跟随等）

在视觉目标跟踪（VOT）和视频目标分割（VOT，VOS）的共同目的。一些研究已经尝试过联合跟踪和分割，但在初始化和预测中往往缺乏box和mask的完全兼容性，主要集中在单对象场景上。为了解决这些限制问题，本文提出了一种用于统一跟踪和分割的多对象mask和box集成框架，称为MITS。首先，提出了统一的识别模块来支持初始化的box引用和mask参考，其中详细的对象信息从box中推断或直接从mask中保留。此外，还提出了一种新的精确框预测器，用于精确的多目标框预测，促进了面向目标的表示学习。

2023-11-20 00:01:38 1743 1

原创 ICCV2023 Tracking paper汇总（一）（多目标跟随、单目标跟随等）

视觉物体跟踪对智能机器人至关重要。现有的大多数方法都忽略了在现实处理过程中所带来的在线延迟可能导致严重的性能下降。特别是对于无人机（uav），其中鲁棒跟踪更具挑战性，机载计算有限，延迟问题可能是致命的。在这项工作中，我们提出了一个简单的端到端延迟感知跟踪框架，即端到端预测视觉跟踪（PVT++）。与现有的在跟踪器之后添加卡尔曼滤波器的解决方案不同，PVT++可以联合优化，因此它不仅需要运动信息，还可以利用大多数预训练的跟踪器模型中丰富的视觉知识进行鲁棒预测。此外，为了弥合训练-评估领域的差距，我们提出了一个。

2023-11-05 21:31:52 3182

原创【CVPR2023 Best Paper】Planning-oriented Autonomous Driving 阅读笔记

CVPR2023的best paper，虽然不是第一个提出了end-to-end的网络框架。但是，已有的方法可能会遭受累积误差或任务间协同不足的困扰。与之相反，作者认为应该设计和优化一个合适的框架来追求终极目标，即自动驾驶的planning任务。

2023-07-02 18:05:45 918

原创 CVPR2023 多目标跟踪（MOT）汇总

识别、定位和跟踪场景中的动态物体的能力是许多现实世界的应用程序的基础，如自动驾驶和机器人系统。然而，传统的多重对象跟踪（MOT）基准测试只依赖于少数对象类别，这些类别很难代表在现实世界中遇到的大量可能的对象。这使得当代的MOT方法仅限于一组预定义的对象类别。在本文中，我们通过解决一个新的任务，即开放词汇表MOT来解决这一限制，该任务旨在评估在预定义的训练类别之外的跟踪。我们进一步开发了OVTrack，这是一个能够跟踪任意对象类的开放词汇表跟踪器。

2023-06-24 11:15:37 8341 1

原创 ECCV2022 多目标跟踪（MOT）汇总

我们提出了一种统一的方法，称为Unicorn，它可以用相同的模型参数同时解决四个跟踪问题（SOT、MOT、VOS、MOTS）。由于对象跟踪问题本身的分散定义，大多数现有的跟踪器被开发用于解决单个或部分任务，并对特定任务的特征进行过度专门化。相比之下，Unicorn提供了一个统一的解决方案，在所有跟踪任务中采用相同的input, backbone, embedding和head。第一次，我们完成了跟踪网络架构和学习范式的巨大统一。在8个跟踪数据集中，Unicorn的表现与特定任务的对手相当或更好。

2023-06-21 19:04:07 1998

原创 CVPR2022 多目标跟踪（MOT）汇总-补充篇

无人机（UAV）视频中的多目标跟踪是一项重要的视觉任务，可应用于广泛的应用。然而，传统的多物体跟踪器由于移动摄像机和三维方向的变化，不能很好地应用于无人机视频。在本文中，我们提出了一种专门用于无人机视图中的多目标跟踪的UAVMOT网络。UAVMOT引入了一个ID特性更新模块，以增强对象的特性关联。为了更好地处理无人机视图下的复杂运动，我们开发了一个自适应运动滤波器模块。此外，利用梯度平衡焦损失来解决不平衡类别和小目标检测问题。

2023-06-19 19:17:57 1196

原创 CVPR2022 多目标跟踪（MOT）汇总

CVPR2022 MOT文章汇总

2022-04-26 13:42:55 16453

原创近期关于Sort和DeepSort改进的工作

本文总结近期三篇对Sort和DeepSort改进的工作，Sort和DeepSort以及JDE的推理流程可以参考之前的文章：Sort和Deepsort原理解析及在JDE和Fairmot中的应用一、ByteTrack: Multi-Object Tracking by Associating Every Detection Box论文链接：https://arxiv.org/pdf/2110.06864.pdfGithub：https://github.com/ifzhang/ByteTrack1、Mo

2022-03-30 21:15:28 7577 1

原创 AAAI2022 多目标跟踪（MOT）汇总

AAAI2022 多目标跟踪文章总结

2022-01-09 19:35:40 3453

原创 ICCV2021 多目标跟踪（MOT）汇总

ICCV2021 多目标跟踪文章汇总

2022-01-09 13:19:15 5919

原创 Yolov5的3种tensorRT加速方式及3090测评结果（C++版和Python torchtrt版）

本文中，我想测评下tensorRT，看看它在不同方式下的加速效果。用Tensorrt加速有两种思路，一种是构建C++版本的代码，生成engine，然后用C++的TensorRT加速。另一种是用Python版本的加速，Python加速有两种方式，网络上基本上所有的方法都是用了C++生成的engine做后端，只用C++来做前端，这里我提供了另外一个用torchtrt加速的版本。一、安装Tensorrt参考教程所有工程前最苦恼的问题，配置环境。。以下是我参考的连接。1、安装可以通过tar或者deb安装h

2021-10-08 15:41:17 17362 18

原创自监督学习（Self-Supervised Learning）——Contrastive Methods

Contrastive Methods 与 Generative Methods不同，这类方法并不需要去重构原始输入，而是希望能够在高阶的特征空间中对不同的输入进行分辨，从而促使模型去学习一些通用的特征表示。在前文（自监督学习（Self-Supervised Learning）个人小结）中我们已经讨论了这种方法的原理和为什么它可以work，本篇博客主要想总结下这类方法的几篇工作。文献目录[1] Aaron van den Oord, Yazhe Li, Oriol Vinyals. “Represen

2021-09-27 11:43:30 2789

原创自监督学习（Self-Supervised Learning）——Generative Methods

Generative Methods是通过构建代理任务（proxy task）来进行自监督学习。在前文（自监督学习（Self-Supervised Learning）个人小结）中我们已经讨论了这种方法的原理和为什么它可以work，本篇博客主要想总结下这类方法的几篇工作。文献目录[1] Xiaolong Wang, Abhinav Gupta. “Unsupervised leaning of visual representation using videos”. In: ICCV 2015.[2]

2021-09-15 13:36:54 1801

原创自监督学习（Self-Supervised Learning）个人小结

最近很多的方法都会说他用了自监督的学习方式。也有很多的学者表示自监督学习成为了流行是一种必然趋势，虽然在现实世界中，我们可以很容易采集到大量的数据，但是对数据进行标注并不是一项简单的工作，如何从大量无标注的数据中学习到有效的知识是现在乃至以后都非常重要的一个问题。本文中，我想分为以下方面进行总结。1、什么是自监督学习，这些方法为什么work。2、总结每一类方法中几种比较出名的方法（如果太长，可能会每一类分一篇文章写一下）。一、什么是自监督学习，自监督学习能学习到哪些信息（Self-Supervise

2021-09-13 13:24:12 7337 1

原创 DO DIFFERENT TRACKING TASKS REQUIRE DIFFERENT APPEARANCE MODELS?——阅读笔记

《DO DIFFERENT TRACKING TASKS REQUIRE DIFFERENT APPEARANCE MODELS?》——阅读笔记Paper：https://arxiv.org/pdf/2107.02156.pdfGithub ：https://github.com/Zhongdao/UniTrack摘要：跟踪视频中感兴趣的对象是计算机视觉中最流行和最广泛适用的问题之一。然而，随着近些年的发展，大量关于案例和数据集基准的探索已经将跟踪问题分散到了不同的实验设置中。因此，文章也是碎片化的

2021-09-08 17:22:01 744

原创牛客网笔试输入输出的一堆坑。。（Python）

牛客网笔试的时候Python的输入输出是真的很坑，有时候线下自测案例是正常的，线上却怎么都调不过去，这里简单记录一下。一、常见输入输出的写法1、input#直接使用input（），读取回来的是字符串，比如输入为“abds”，n就为“abds”n = input()▲需要注意的是input()是一行一行读取的，也就是每次只能读取一行，需要读取第二行的话要再调用一次input()。当然很多时候我们输入是一个列表，我们可以用以下的方法将其分割为列表。n_list = list(map(int, i

2021-08-01 22:30:49 3344 1

原创 Leecode 刷题归纳（Python——LeetCode 精选 TOP 面试题）

一、数组1、简单1）位1的个数2）只出现一次的数字3）杨辉三角4）Excel表列序号 Python 中字符转ASCII码用ord()，比如ord(“A”)。5）颠倒二进制位进制的还是不熟。6）买卖股票的最佳时机7）买卖股票的最佳时机 II 又一个脑筋急转弯，理论上最佳时机就是获得所有可以获得的利润。8）Fizz Buzz9）多数元素二、字符串1、简单1）反转字符串2）前K个高频单词三、链表1、简单1）删除链表中的

2021-06-23 18:50:25 920

原创手写NMS和魔改（Pytorch版本）

NMS方法的总结可以参考我之前的文章：https://blog.csdn.net/qq_34919792/article/details/108186234非极大值抑制（Non-Maximum Suppression，NMS），顾名思义就是抑制不是极大值的元素。在检测中，我们通过将IOU大于一定阈值的框做一个筛选，只保留置信度最高的框。网上比较经典的实现思路def py_cpu_nms(dets, thresh): """Pure Python NMS baseline.""" #x1、y1

2021-06-10 21:46:26 652 2

原创 CSTrack_panda: 一个针对于十亿像素场景的多目标跟踪Baseline（代码开源和我对该场景的一点看法）

一、简介：PANDA（gigaPixel-level humAN centric video Dataset）是清华大学团队构建的国际上首个动态大场景多对象数据平台，场景平均覆盖平方千米级范围，可同时观测数千人，百米外人脸清晰可识别，视频分辨率近10亿像素。本数据集的目的是吸引更多的计算机视觉研究者关注动态大场景多对象数据处理算法的研究，促使检测、追踪等视觉任务在十亿像素视频数据上得以解决。官网：gigavision.cn论文链接：https://ieeexplore.ieee.org/stamp/s

2021-06-06 10:02:11 1782 5

原创 Leecode 刷题归纳（Python——剑指offer）

数组操作平时只关注python的算术运算，记录下位运算的

2021-05-19 15:36:40 472

原创 CVPR2021 多目标跟踪（MOT）汇总

CVPR2021 多目标跟踪（MOT）方向文章检索到了9篇，如有遗漏，麻烦告知，谢谢。指标对比和论文下载地址已经更新到我们所做的指标对比库，欢迎大家查阅。https://github.com/JudasDie/Comparison一、《Discriminative Appearance Modeling with Multi-track Pooling for Real-time Multi-object Tracking》作者: Chanho Kim 1, Li Fuxin 2, Mazen A

2021-05-17 16:37:53 12331 7

原创单目标跟踪（SOT）中在线更新方法总结

在线更新的理解主要分为三种改进方面，一是对在线更新的损失及策略进行设计使其更加适合这个任务。二是对在线更新的内容进行构建，比如要更新哪个地方的参数，及这部分的参数需不需要做适应在线更新的重设计。三是对更新方法做设计，如用反向传播还是其他。1、MDNetLearning Multi-Domain Convolutional Neural Networks for Visual Tracking论文：https://arxiv.org/abs

2020-12-12 23:40:53 3672 1

原创 CSTrack: Rethinking the competition between detection and ReID in Multi-Object Tracking

CSTrack: Rethinking the competition between detection and ReID in Multi-Object Tracking论文链接：https://arxiv.org/abs/2010.12138Github链接：https://github.com/JudasDie/SOTS这是最近开源的一篇MOT的工作，第一版本的代码已经开源（70.7 MOTA in MOT16，70.6 MOTA in MOT17）。✨????新版本的代码也将会在之后开源（

2020-11-19 11:24:53 2224 19

原创 SiamNet 系列方法总结

SiamNet 系列方法总结1、SiamFC2、DSiam（ICCV2017）3、SiamRPN（CVPR18）4、SASiam（CVPR18）5、StruckSiam（ECCV2018)6、SiamTri（ECCV2018）7、DaSiamRPN（ECCV2018）8、UpdateNet（ICCV2019）9、SiamRPN++（CVPR2019）10、SiamMask（CVPR2019）11、SiamDW(CVPR2019)12、SiamFC++（AAAI2020）13、SiamAttn（CVPR202

2020-11-10 20:08:39 3040

原创 Pytorch 工程重构后模型参数（.pt）读取失败解决方法

Pytorch 工程重构后模型参数（.pt）读取失败解决方法问题: 近期重构工程遇到了之前训练的模型参数没法读取的问题，即用重构后的工程在测试阶段去加载原来工程训练好的参数会方向有路径问题。通过探究发现在.pt文件中model一项的类型包含了原来工程的路径信息，需要放置在同一个路径下才可以读取成功。重构type还是比较困难的，但是在测试代码中，我发现大多数模型在加载参数的过程中会将模型参数加载成dict的形式，而忽略没有必要的路径信息。为此我们可以建立一个新字典，将state_dict的步骤放

2020-11-03 10:36:47 2277 1

原创 MOT方法总结（主要是2020—2017的方法）——持续更新

MOT方法总结（主要是2020—2017的方法）——持续更新https://github.com/JudasDie/Comparison/blob/master/Multiple%20Object%20Tracking.md其中归纳了近年来MOT的大部分方法，直到17年，实际上在17年之前也有很多很好的方法，但是那时候现在较为主流的评测基准MOT challange并没有流行起来。所以方法目前只总结到17年，在github中提供了Google drive和百度网盘的下载连接。如果有什么好的方法有遗漏欢迎

2020-10-22 13:48:37 1896

原创 TNN入门笔记——从零跑通Android demo

第一步：安装JDKJDK官网链接：https://www.oracle.com/java/technologies/javase-downloads.htmlJDK安装参考链接：https://blog.csdn.net/Mr_Bobcp/article/details/108621926这个安装挺顺利的，唯一不同的地方是我下载的时候是JDK15，和教程中的版本不同，并没有JRE这个文件路径，在环境变量配置的时候只配置了JDK的环境变量，但是在后面使用中并没有发现有问题，可能是在新的版本中JRE的

2020-09-25 14:23:51 3420 5

原创详解ReID的各部分组成及Trick——基于FastReID

这一系列博客将基于京东开源的FastReID进行扩充，详细介绍了ReID的各个组成部分，一些有用的Trick，评价指标，常用数据集等，详细内容见下方的链接，总结不易，如有理解不正确之处，麻烦各位批评指正。一、FastReID的中的baseline文件配置二、Training strategy三、Pre-processing四、Backbone五、Aggregation六、Head七、Loss八、Distance Metric九、Post-processing十、Evaluation十一

2020-09-11 09:20:24 6822 1

原创详解ReID的各部分组成及Trick——数据集

ReID任务中常见的数据集有以下四个：Market-1501、DukeMTMC-reID、CUHK03、MSMT171、Market-1501 Market-1501 数据集在清华大学校园中采集，夏天拍摄，在 2015 年构建并公开。它包括由6个摄像头（其中5个高清摄像头和1个低清摄像头）拍摄到的 1501 个行人、32668 个检测到

2020-09-11 09:19:45 2369

原创详解ReID的各部分组成及Trick——评价指标（Evaluation）

1、Rank1(CMC，Cumulative Matching Characteristics) Rank1是我们在阅读ReID相关论文中最常见的两个指标之一，它的计算如下： 1）首先定义一个指示函数表示 q，i 两张图片是否具有相同标签： 2）那么计算ra

2020-09-10 14:15:29 4687 3

原创详解ReID的各部分组成及Trick——后处理（Post-processing）

ReID任务中存在的后处理方法的目的是为了获得更优的匹配结果和更优的匹配排序，在一般的ReID任务中，会通过欧式/余弦距离来计算度量矩阵，并利用k-近邻的思想，从gallery中选择与probe最相似的前k个，但是这种方法很有可能有false match的噪音数据参杂进这个ranking list中，如下图：为此需要使用些后处理方法。1、K-reciprocal（Re-rank）

2020-09-10 14:05:28 2766

原创详解ReID的各部分组成及Trick——距离度量（Distance Metric）

距离度量方法是ReID任务在测试阶段来评价特征与特征之间的距离构建度量矩阵所需的，对于一个ReID任务来说，选用一个好的度量方式，而且和训练的损失可以相互统一，可以为ReID提供很好的性能。1、Eucildean 欧几里得度量（euclidean metric）（也称欧氏距离）是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，

2020-09-10 13:55:18 3629

原创详解ReID的各部分组成及Trick——损失函数（Loss）

ReID任务在大多数情况下都是多任务学习，主流是分为两个任务，一个是构建id loss，通过分类损失，来学习对应不同id的损失，另一种是triple loss为主的通过特征向量直接构建的损失，学习类内的相似性和类内的区分性，让不同的特征向量直接的区分度更高，让相同的特征向量更加趋同。1、Cross-entropy loss 交叉熵是常见的

2020-09-10 13:48:54 6136 1

原创详解ReID的各部分组成及Trick——Head

Head指的是ReID任务中将前面模块获得的特征向量做一定变化，来获得可以用于构建损失函数最后完成学习。1、Linear Linear是ReID中最常见的Head之一，其构成非常简单，仅仅由一层或者多层全连接层构成。全连接层的目标是把特征向量变化为可以构建ID loss（常见的有交叉熵）的one hot编码。2、Bnneck&nb

2020-09-10 11:28:57 3543

原创详解ReID的各部分组成及Trick——聚合（Aggregation）

聚合（aggregation）指的是在Backbone输出的特征图聚合成一个特征向量来表征一个目标。，如下图表示的GAP。1、Attention pooling Attention是近年来比较热门的一个方向，它最初源于computer vision领域，是模仿人类视觉的一个杰出成果。人类的眼睛在观察图像是并不会一视同仁，而是将atten

2020-09-10 11:22:48 4693

原创详解ReID的各部分组成及Trick——特征提取网络（Backbone）

1、ResNet 在FastReID中常用的ResNet结构有ResNet50和ResNet101。调用了在ImageNet上的预训练模型来作为Backbone，这样可以提高模型的性能。关于ResNet的设计，基本上接触过深度学习的都很熟悉了，这里为了方便对比主要列出其残差块的设计。2、ResNeXt ResNeXt是在ResNet上做

2020-09-10 11:14:50 7741

原创详解ReID的各部分组成及Trick——预处理（Pre-processing）

数据的预处理也是深度学习中常见的增强策略之一，通过对训练数据做出适合任务域的处理，可以缓解训练集和测试集之间分别不同带来的模型过度拟合训练集而在测试集上的效果下降，提高模型的泛化能力。1、Resize 图片的输入尺寸影响模型每个特征图的尺寸，往往，越大的图片输入可以让模型学习到更加清晰高维度的特征，但是会对GPU的显存有更高的要求。对于图

2020-09-10 11:06:13 2852

原创详解ReID的各部分组成及Trick——训练策略（Training strategy）

训练策略基本上对于每一个深度学习方法来说都很重要，选用到好的优化器或者学习策略可以使得我们的模型更快的收敛到最优值，比较常见需要调节的有如下：1、学习率（Learning rate）在ReID中BoT把学习率设置为3.5xle-4，之后很多工作都沿用了这个学习率，一个好的学习率可以有助于我们收敛，当然对于不同的数据集来说，学习率的设定是

2020-09-10 10:58:02 4044 2

原创详解ReID的各部分组成及Trick——FastReID中的baseline配置

FastReID：A Pytorch Toolbox for Real-world Person Re-identification论文地址：https://arxiv.org/pdf/2006.02631v1.pdf代码地址：https://github.com/JDAI-CV/fast-reidFastReID是京东开源的一个Baseline，该库可以称为产品级别的标准开源库，集成了近年来reid很多很好的操作，其结构图如下：在FastReID中提供了不同的baselines，使用了不同的ba

2020-09-10 10:46:45 6052

原创 NMS方法总结(不需要训练的NMS方法&&需要训练的NMS方法)

NMS方法总结(不需要学习的NMS方法&&需要学习的NMS方法不需要学习的NMS方法：一、NMS二、Soft-NMS（ICCV 2017）三、Weighted NMS（ICME Workshop 2017）四、DIOU-NMS（AAAI2020）五、Cluster NMS（Arxiv 2020.05）需要学习的NMS方法：一、ConvNMS(ICLR 2016)二、Pure NMS Network(CVPR 2017)三、IoU-Guided NMS(ECCV 2018)四、Adaptive

2020-08-23 18:32:40 8932 1

python-vlc二次封装，可用于pyqt

查找了很多资料没有用vlc读取实时摄像头数据用pyqt来显示的例子，为此，参考了一些资料对vlc做了一个二次封装，封装后保留了opencv基本上的一些功能，可以替换原pyqt的工程中opencv的接口直接使用。说明如下：简单的播放可以参考example.py 类Player 1、Player.play(url,choose) 加载播放路径（url）和选择播放通道（choose，1~20，实验可以同时打开8个，不能用同一个完成并行播放，数据会混乱分不开）。 2、Player.image_get(choose) 加载当前帧的图像数据（choose，选择加载的通道，必须在加载路径后使用，不然返回1） 3、Player.pause() 暂停播放 4、Player.resume() 恢复播放 5、Player.stop() 停止播放 6、Player.release() 释放资源 7、Player.is_playing() 判断是否还在播放 8、Player.get_time() 已播放时间，返回毫秒值 9、Player.set_time() 设定播放处（必须当前的多媒体格式或者流媒体协议支持） 10、Player.get_length() 返回音频总长度 11、Player.get_volume() 获取当前音量 12、Player.set_volume(volume) 设置音量（0~100）

2019-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

python-vlc二次封装，可用于pyqt

登陆界面设计

pyqt5实例（PyQt5快速开发与实战）

opencv分帧代码（含文件命名，图片压缩）

空空如也