自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 《DETRs Beat YOLOs on Real-time Object Detection》将DETR加速至实时SOTA

最近看到百度写的一篇还算不错的DETR论文,通过简化DINO的encoder层将模型加速到实时水平,翻译了下,以作记录。

2023-04-18 22:07:55 1138

原创 《DETRs with Collaborative Hybrid Assignments Training》 加入one to many matching 辅助头训练的DETR

最近(2022年)的不少论文都将目光集中在了one to one matching机制上,年初CVPR的Denosing DETR认为one to one matching机制在模型训练的初期导致了损失不稳定,GT无法很好的与query稳定的进行匹配,因此提出了加入噪声干扰的GT输入作为query,与GT进行损失计算来辅助加速DETR模型训练,该课题组在此基础上提出了DINO、Mask DINO等模型,将DETR模式推到了SOTA的水平。辅助one to many matching的分支与原始主分支中的。

2022-11-26 22:58:40 4652

原创 TensorRT加速Deformable Detr实践

这让TensorRT便捷实现加速Deformable Detr乃至今年(2022年)最新的DETR类sota模型DINO、Mask DINO成为了可能。查了一下当前网络上并没有关于Deformable Detr 的TensorRT加速的实现方法,可能大佬们都觉的太简单没有必要吧,于是就自己写了一版方便大家使用。对于低于8.4.1.5的TensorRT版本,也可以选择把官方的插件自己编译到旧版本上。库,没有使用官方的原版。自TensorRT 8.4.1.5发布以来,惊喜的发现TensorRT官方实现了。

2022-11-26 00:13:47 2015 6

原创 CUDA实现多batch基数排序

CUDA实现多batch基数排序基数排序是具有固定迭代次数的排序算法, 其通过对最低位到最高位的一一比较,对数值排序。GPU版的基数排序将数据分为N个部分并行进行基数排序,随后并行规约得到排序后的数组。这里实现了一版多batch的基数排序实例,并同时输出原数组的序号,基本实现了argsort的功能,代码如下所示:#include<iostream>#include<cuda_runtime.h>__device__ void preprocess_float(float

2022-05-11 20:29:42 902

原创 dn-detr:通过去噪任务加速detr训练

dn-detr:通过加速detr训练

2022-03-08 11:47:02 4867

转载 Tensorrt加速K-Net笔记

Tensorrt加速K-Net实录pytorch转onnxonnx转tensorrt是我转的不对么?FP16精度差是bilinear aglin_corner=False的问题吗罪魁祸首,FP16精度溢出自detr问世之后,set prediction和bipartite matching的思想在视觉检测任务上攻城略地,大有完全消灭nms之势,实现真正的end-to-end。其中,实例分割/全景分割的算法如maskformer、K-net的效果很是让人眼馋,那么能否利用tensorrt实现半精度加速,做到

2021-12-07 16:22:24 1422 9

原创 transformer在视觉检测的应用

transformer在视觉检测的应用detr简介一些基于detr启发论文目标检测Deformable DETRConditional DETRSparse R-cnn实例分割/全景分割SOLQMaskformerK-Net近年,Transformers在计算机视觉领域大放异彩。将transformer带入目标检测/实例分割的工作如过江之鲫,不胜枚举。而2020年Detection Transformers(detr)更是带来一种新的目标检测范式,启发了后续众多的工作。detr简介 detr结构d

2021-11-28 21:52:13 2184

原创 使用TensorRT加速ScaledYOLOv4

使用TensoRT加速ScaledYOLOv4测试环境快速开始1、生成onnx模型2、编译3、转换onnx模型到trt模型4、测试速度效果使用mish插件层很多人都写过TensorRT版本的yolo了,我也来写一个。具体代码可参见我的github测试环境ubuntu 18.04pytorch 1.7.1 jetpack 4.4CUDA 11.0TensorRT7.1快速开始1、生成onnx模型 git clone --branch yolov4-csp https://github.c

2021-03-29 22:05:48 619

原创 Tensorrt实现solov2加速

Tensorrt实现solov2加速SOLO简介环境依赖快速开始下载代码并编译转换pytorch模型生成FP16模型执行推理测试效果SOLO简介solo系列网络是由Xinlong Wang提出的单阶段实例分割网络。其搭建在mmdetection库中。solov2主干网络如下图所示:其在COCO数据集上获得了较高的AP,并且由于其单阶段实例分割的特点,方面直接实现端到端的部署。因此,我们可以采用pytorch转onnx再转tensorrt的方式实现solo的半精度、int8加速,达到实时运行的目的。所

2020-12-04 11:38:40 3563 9

原创 tensorRT在yolo上的使用

根据lewes6369的TensorRT-yolov3改写了一版基本实现可以推理视频和图片、可以多线程并行加速的TensorRT-yolov3模型,在win10系统和Linux上都成功的进行了编译。源码和编译方式详见我的github。搭建环境ubuntu16 & win10TensorRT 5.1CUDA 9.0 or CUDA 10.0测试效果ModelGPU...

2019-04-06 09:05:44 4377 3

原创 TensorRT在语义分割上的应用

TensorRT for a simple segmentation model使用VOC Person Part 训练LW Refinenet ——resnet50 作为神经网络,生成onnx模型并导入c++中实现在window上的实时语义分割。下载Resnet50 精度为64.1mIOU的onnx模型:百度云 密码:kx0j效果实验GPU:gtx1060 输入图像:512*512...

2019-04-04 23:37:00 2086 4

原创 DDPG强化学习pytorch代码

DDPG强化学习pytorch代码参照莫烦大神的强化学习教程tensorflow代码改写成了pytorch代码。具体代码如下.'''torch = 0.41'''import torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport gymimport time##...

2019-01-10 14:48:27 15862 19

原创 win10下autokeras的入门

win10下autokeras的安装按照官方网站的方法进行安装,注意:Auto-Keras只支持Python3.6。项目github:https://github.com/jhfjhfj1/autokeraspip install autokerasautokeras需要的依赖项很多,包括tensorflow、pytorch、keras、numpy等,大部分在pip安装autokeras都...

2018-10-15 14:37:13 1873 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除