自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (1)
  • 收藏
  • 关注

原创 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract当前Transformer结构已经变成了事实上标准自然语言处理任务,它在计算机视觉的应用还存在限制。在视觉中,注意力机制也用到了与卷积网络的结合,或者用来在保持整体结构不变的情况下替代特定组件。我们注意到这样的依赖性在CNN网络中并不是必须的,单纯对一系列图像块使用transformer也可以去的图像分类任务上很不错的成绩。当在大规模数据上进行预训练,迁移到多个中型或者小型是被benchmark(ImageNet,CIFAR-100,VTAB等)时,Vision Transformer(

2021-11-29 11:40:52 1229

原创 CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN

Abstract 神经网络使得在像目标检测这样的计算机视觉任务中取得了SOTA的效果。然而,这巨大的成功十分依赖计算资源的消费,这阻碍了使用廉价芯片的用户使用先进的技术。本文我们提出了Cross Stage Partial Network(CSPNet),从网络结构的角度缓解之前的工作依赖大量前向计算的问题。我们将问题归结为网络优化过程中梯度重复的问题。我们提出的方法从网络从始至终的不同阶段通过考虑到梯度变化的特征图整合,在我们的实验中,模型在ImageNet数据集降低了20%的计算量,并...

2021-06-28 20:15:34 1027

原创 CutMix:Regularization Strategy to Train Strong Classifiers with Localizable Features

CutMix:Regularization Strategy toTrain Strong Classifierswith Localizable FeaturesAbstract区域dropout策略被提出来用于增强神经网络分类器的表现。他们可以引导模型更关注目标共性的部分(腿部而不是头部),使得网络有更好的通用性,有更好的目标定位能力。此外,当前区域dropout将训练样本上通过叠加黑色或者其他噪声块来移除有效信息像素。这种移除并不理想因为它会导致有效信息丢失导致训练效率降低。因此我们提出C..

2021-01-12 11:15:07 2095

原创 YOLOv4: Optimal Speed and Accuracy of Object Detection

Abstract有大量的特征认为会改进神经网络(CNN)的准确率。有一种需求是在大规模数据集上进行这些特征的组合验证,并且从理论角度评论结果。有些特征是在特定模型、有些为了解决特定问题,或者只是为了小规模数据集;同时有些特征,例如BN与残差链接模块,对于大多数模型、任务与数据集都有效。我们假设这些有效的特征包括带权重的残差连接(WRC)、跨阶段部分连接(CSP),跨最小Batch正则化(CmBN),自对抗训练(SAT)与Mish-activation。我们使用新的特征:WRC、CSP、CmBN、SAT.

2020-12-25 14:38:23 406 1

原创 MMDetection: Open MMLab Detection Toolbox and Benchmark

Abstract: 本文提出了一个包含丰富的目标检测与实力分割算法以及相关组件与模块的目标检测工具箱,称为MMDetection。这个工具箱最开始是作为COCO Challenge2018检测跟踪冠军队伍的codebase。最终这个工具箱演化成了一个包括许多流行的目标检测方法与相关模块的统一平台。它不仅包括训练与推理代码,还提供了超过200种网络模型权重。我们认为这个工具箱是目前最完善的检测工具箱。本文中,我们会介绍这个工具箱的多样化特征。此外,我们还对不同方法、组件以及超参数进行了ben...

2020-07-16 11:43:56 1851 1

原创 Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

摘要:现有的视觉表达学习任务中,深度神经网络通常由单个标签的图像训练而来,例如ImageNet。然而单个标签很难描述样本中所有的重要内容,有些有用的视觉信息在训练时可能会浪费掉了。本文中,我们期望利用多标签的图像训练CNNs,从而增强训练出来的CNN模型的表达质量。为了达到目的,我们建立一个包含18M图像,11K类别的大规模多标签样本集,称为Tencent ML-Images。我们高效的利用大...

2020-01-15 10:59:18 1146

原创 Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

Abstract动态人体骨架为行为识别承载着重要的信息。传统的骨架建模方法通常依赖于手工设计的部件与便利规则,这导致了表达能力的限制与通用性的难题。本文中,我们提出了一种先进的动态骨架模型称为Spatial-Temporal Graph Convolutional Networks(ST-GCN),这种方法通过自适应学习数据的空间与时间模式来解决之前方法的局限性。这种提法不仅带来了更好的表达能...

2019-12-05 10:52:18 974

原创 SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS

Abstract 本文提出了一种基于卷积神经网络的可扩展半监督学习方法,该方法可以直接对图进行学习。我们通过图卷积的局部一阶近似来进行卷积结构的选择。我们的模型在图边缘数量上线性扩展,并且学习了编码局部图结构和节点特征的隐层表示。在引用的网络和知识图数据集上的大量实验表明,我们的方法比相关方法有显著的优势。1、Introduction 我们考虑在图(如引用网...

2019-12-02 16:19:37 826

原创 Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding

Abstract 我们介绍了一种语言表达模型称为BERT,也就是Transformer的双边编码表示。与当前语言表达模型不同(Peters et al., 2018a; Radford et al., 2018),BERT设计通过考虑所有层左右上下文对为标注过的文本进行深度双边表达的预训练。因此,预训练BERT模型可以通过只增加一个额外的输出层进行finetuned,从而在很多任...

2019-11-28 16:29:30 624

原创 Deep learning for fine-grained image analysis:A survey

Abstract CV是一种机器理解与分析图像的过程,是人工智能的一个重要分支。在CV众多的研究领域中,细粒度图像分析(FGIA)是一个持续基础的工作,是真实世界应用中普遍存在的问题。FGIA的目标是区分视觉目标的子类别,例如,鸟的类别或者车辆的类别。细粒度特性导致的小类内变化与大类间变化使得细粒度分类称为一个具有挑战性的问题。随着深度学习爆炸式的发展,近些年来FGIA利用深度学习技...

2019-10-24 17:02:30 1833

原创 Boxy Vehicle Detection in Large Images

Abstract基于相机的目标检测与自动驾驶最近几年整体发展迅速。部分这些改进可以归因于公共数据集,使得全世界的研究者可以利用这些数据进行研究,避免个体队伍花费大量的时间收集与标注数据。当前车辆检测数据集与方法通常专注于解决坐标轴平行的bbox或者语义分割任务。坐标轴平行bbox通常会对车辆大小表示失真并且引入临近的道路内容。语义分割会更加精确,但是他们更难处理与应用在轨迹规划系统中。我...

2019-10-17 11:34:18 1157 1

原创 Faiss home

Faiss是一个用于稠密向量相似度检索与聚类的库。它包含了可以在任意大小(大到可能在RAM中都放不下)特征向量集合中进行检索的算法。它还包含了性能评估与调参的辅助代码。Faiss是用C++编写,并有完成的python接口支持(py2,与py3)。有些有用的算法是在GPU上实现。这个项目是由Facebook AI Research开发的。What is similarty search?...

2019-10-14 15:54:00 511

原创 MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization

Abstract利用RGB单张图片在真实3D场景进行目标定位由于图像投影过程几何信息的丢失变得相当困难,而这个工作在场景理解中有相当重要的作用。我们提出了通过观察到的2D投影与未观察到的深度维度进行几何推理,用于单目RGB图像三维定位的MonoGRNet算法。MonoGRNet是一个由四个特定子任务网络组成的单一统一的网络结构,四个子任务分别是2D目标检测,实例深度估计(IDE),3D定位与本...

2019-08-05 14:15:37 2347

原创 BoxCars:交通监控场景利用3Dbbox进行车辆细粒度分类

BoxCars:Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic SurveillanceAbstract本文中我们专注于交通应用中的细粒度车辆识别研究。本文提出了一种与当前细粒度识别(自动部件识别,bilinear pooling)发展方向一致的算法。此外,与其它专注于细粒度...

2019-07-31 16:23:11 3131 1

原创 Geometry-constrained Car Recognition Using a 3D Perspective Network

Abstract本文提出了一种从单RGB图片中进行车辆识别的先进学习框架。与现有利用attention机制定位有识别力的2D信息不同,本文的标准框架对2D全局特征与3Dbbox利用互相关与强化学习的方式进行联合表达学习。这两种特征表达通过先进的融合网络进行组合,网络进行车辆类型预测。全局2D特征通过常见的检测网络提取,2Dbbox估计帮助找到ROI。通过Roi的帮助,3DBbox与相应的...

2019-07-23 14:54:41 391

原创 MobileNetV2:Inverted Residuals and Linear BottleNecks

摘要:本文我们描述了一种新的mobile结构称为MobileNetV2,改进了模型在多个tasks与benchmarks以及不同大小模型的SOTA。我们还描述了一个将这些mobile模型应用在目标检测中的新框架,称为SSDLite。此外,我们还介绍了如何通过改进DeepLabv3构建我们称为DeepLabv3的mobile语义分割模型。网络基于反转残差结构,shortcut位于thin ...

2019-07-09 11:47:47 3046

原创 Searching for MobileNetV3

原文链接:https://arxiv.org/pdf/1905.02244.pdf摘要:本文展示了基于互补搜索技术(complementary search)与先进网络结构设计的新一代mobilenet。MobileNetV3通过结合硬件感知网络架构搜索(NAS)和NetAdapt算法,对移动端的cpu进行调优,然后通过新的架构改进对其进行改进。本文一开始探索了如何才能使自动搜索算法...

2019-05-14 16:43:51 3032

原创 Learning A Repression Network For Precise Vehicle Search

摘要公共安全领域视频监控数量爆炸性的增长将大规模车辆数据库的检索技术推到风口浪尖。精准车辆检索需要根据输入的查询图片查找出所有目标。车辆检索的难度在于相同视觉特征的车型之间可能十分相似。为了解决这个问题,文章提出了RepNet,一种多任务的网络结构来同时学习每个目标的大体特征与精细特征。此外受益于特征分类的高准确率,提出了一种bucket search方式来减少检索时间,并基本保持准确率...

2019-05-13 10:15:13 733

原创 YOLOv3:A Incremental Improvement

摘要:我们对YOLO做了更新。我们做了一些列的小设计来优化效果。我们训练了这个新网络。与上次相比网络变大了但准确率更高。但不用担心,速度还是很快。320×320的YOLOv3在与SSD一样28.2mAP时只需22ms,是SSD的三倍快。在YOLOv3上使用原来0.5的IoU阈值检测mAP的效果非常好。算法在TitanX上AP50达到了57.9,速度51ms,RetinaNet则用198m...

2019-05-10 11:08:52 290

原创 Learning a Similarity Metric Discriminatively, with Application to Face Verification

Abstract我们提出了一种通过从数据中进行相似度度量训练的方法。本方法可以用在识别或者认证应用,这些应用中类别很多且训练时未知,并且单个类别的训练数据数量很少。主要的思想是学习一个函数,将输入映射到目标空间中,使得目标空间中的L1距离基本与输入空间中的语义特征一致。这种方法应用到了人脸认证任务中。学习过程最小化具有区分度的损失函数,使得两个来自相同人的人脸相似度度量变小,不同人的人脸...

2019-04-26 16:47:14 1434

原创 Mixup:Beyond Empirical Risk Minimization

Abstract大规模神经网络功能很强大,但是显现出了不如预期的一些表现,例如对攻击样本的记忆力与敏感度。本文中,我们提出了一种缓解issues的学习原则称为mixup。总的来说,mixup通过对样本对及标签进行凸融合来训练深度神经网络。这样使得神经网络在训练任务调整成为它最擅长的简单线性学习。我们在ImageNet-2012,CIFAR-10,CIFAR-100,Google comm...

2019-04-23 20:50:36 2396

原创 小目标检测中的数据扩展(Augmentation for small object detection)

Abstract这些年来目标检测领域经历了令人印象深刻的进展。除了这些改进,在小目标检测与大目标检测领域还是有不小的差距。我们在MS COCO上分析了当前SOTA的模型Mask-RCNN。研究成果展示GT目标与预测的anchors的重叠远远小于期望的IoU阈值。我们猜测这可能是由两个情况导致的:1、只有少部分样本包含小目标;2、及时在包含小目标的样本中,小目标的数目也不够。我们因此提出过...

2019-04-18 09:40:27 13317 9

原创 Bag of Freebies for Training Object Detection Neural Networks

Abstract与大量为了得到更好的图像分类模型的研究相比,研究人员在目标检测训练上的研究会由于它的普遍性与普及性的影响少得多。由于复杂多的网络结果,优化目标,许多训练阶段与pipline是专门为检测算法设计的,别的并不通用。本文中,我们研究通用的模型微调技巧,使得在不牺牲inference速度的前提下,增强state of the art目标检测模型的表现到一个新的水平。我们的实验展示...

2019-04-11 14:29:45 1011

原创 Bag of Tricks for Image Classification with Convolutional Neural Networks

摘要:图像分类任务当前取得的很多进展都可以归功于训练程序的优化,例如数据扩展与优化的方法。在文献中,大多数改进要不是作为实现细节简单提到,就是仅仅在源码中展现。本文中,我们会验证一系列这样的改进,并且利用切除实验的思想在实验中验证这些改进的效果。实验结果显示,通过将这些改进组合在一起可以显著的提升一些CNN模型的表现。例如,我们将RestNet50在ImageNet上的top1准确率从7...

2019-04-09 15:37:58 2202

原创 Bag of Tricks and A Strong Baseline for Deep Person Re-identification

摘要本文意在研究一个简单有效的行人重识别(ReID)baseline。近些年来基于深度学习的ReID取得了不错的进展,取得高光的表现。然而许多state-of-art的方式都是通过复杂的网络结构与多分枝特征拼接实现的。文献中有些高效的训练技巧简略的出现在一些论文或者源码中。本文将手机并且评估这些行人重识别的高效训练技巧。将这些技巧组合在一起,仅仅使用全局特征就可以在Market1501上...

2019-04-01 16:18:09 5497 1

翻译 Machine Learning Yearing

写在前面MachineLearningYearing这本书是一本很好的工程化指导性书籍。本文在官方翻译版出来前为了加强理解,自行翻译了前30多章。Machine Learning Yearing前言为什么要使用机器学习策略机器学习是许多重要应用的基石,包括网页搜索、反垃圾邮件、产品推荐等等。我假设你或者你的团队正在跟进一个机器学习应用,你希望让项目的进度加快。本书将帮助你达到...

2019-03-29 14:58:19 490

翻译 Training With Mixed Precision

Chapter 2. Mixed Precision Training在NVIDIA DeepLearning SDK的cuda8与Pascal架构中已经在训练时引入了低精度的能力。混合精度在计算方法中结合了不同数据精度。半精度(也被称为FP16)对比高精度的FP32与FP64降低了神经网络的显存占用,使得我们可以训练部署更大的网络,并且FP16在数据转换时比FP32或者FP64更节省时间。单精度...

2018-06-11 15:13:27 1709

翻译 TensorRT3.0开发手册 (SamplePlugin:Implementing A Custom Layer)

3.8 SamplePlugin:Implementing A Custom LayerSamplePlugin例程展示了如何在TensorRT中新增一个用户自定义层。例程中实现了如何将MNIST例程中原本直接cuBLAS库实现的最后全卷积层进行替换。注:当前Plugin层只支持FP32精度。3.8.1 Key Concepts本例中解释的关键概念包括:Ø  如何创建一个用户自定义层Ø  如何利用...

2018-06-01 15:50:47 2187 1

翻译 TensorRT4.0开发手册(3)

2.7 TensorRT Lite在Python接口中还有一个高度抽象的推理模块叫做TensorRT Lite。TensorRT Lite几乎可以完成任何任务,从创建一个engine,执行推理。因此,用户可以简单的创建一个engine,开始处理数据。TensorRT Lite接口位于tensorrt.lite,包含一个叫做Engine的类。engine构造利用模型定义,输入输出,从而生成一个完整的...

2018-05-23 09:52:56 2560 2

翻译 TensorRT4.0开发手册(2)

第二章 TensorRT Workflows下列表格列出了TensorRT特点一支持的API以及解析器。 表2 特点与支持的API’s 下列表格列出了TensorRT特点以及支持的平台表3 特点与支持的平台注:序列化引擎不能再不同TensorRT版本间与不同平台间交叉使用。 2.1 Key Concepts请确保你知悉以下关键概念:UFFUFF(Universal Framework Format...

2018-05-22 19:19:28 17406 6

翻译 TensorRT4.0开发手册(1)

 第一章 综述NVIDIA的TensorRT是一个基于GPU高性能前向运算的C++库。TensorRT导入网络定义,通过合并tensors与layers,权值转换,选择高效中间数据类型,基于层参数与性能评估的选择,来进行网络优化。TensorRT提供模型导入途径来帮助你对训练好的深度学习模型进行表示,同于TensorRT的优化与运行。这种优化工具自动进行图优化,层融合,并利用多样化的高度优化的计算...

2018-05-21 15:16:15 7490 1

原创 人群密度分析算法调研

概述人群行为分析算法分为四个主要方向:1、行人检测(Pedestrian Detection)2、人群计数(Crowd Counting)3、人群密度分析(Crowd Density Estimation)4、人群状态分析(Crowd Behaviour Analysis)人群计数与人群密度分析为其中重要的组成内容。人群计数与人群密度分析算法通常的方法大致可以分为三种:

2018-02-01 20:05:45 17998 1

原创 再读ssd

目前有两种常见的图片目标检测方式,一种是基于滑动窗的,一种是基于目标区域提取与分类的。在深度学习时代之前,Deformable Part Model(DPM)与Selective Search是效果最好的方法,他们的效果差距不大。R-CNN的提出的区域提取与分类的的思路结合卷积神经网络强大的能力,使得R-CNN成为了最流行也是效果最好的方法。        R-CNN的方法有很多的改进。最初R

2017-04-14 16:47:50 937

原创 SSD: Single Shot MultiBox Detector

SSD: Single Shot MultiBox Detector摘要:我们提出了一个用单个深层神经网络进行目标检测的算法。SSD的算法将区域离散到一系列每个特征图区域上不用比例与尺度的默认区域。预测时,网络对存在的每个目标类在默认区域的概率进行预测,并对框的位置进行微调使之框的更精确。此外,网络将多特征图的预测结果与不同解决方案进行融合,来处理不同尺寸的区域。我们的SSD算法对区域提...

2016-12-15 11:47:49 2351

原创 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks摘要:前沿的目标检测网络通过区域提取(regionproposal)算法来预测目标的位置。SPPnet与Fast R-CNN算法已经一部分改进了时间的问题,当前的瓶颈在于区域提取上。本文中,我们提出了一种与检测网络共享全卷积特征的区域提...

2016-12-12 11:26:46 2294

原创 pyqt编写审阅工具

这次需要做一个小工具,用来审阅别人标的数据。由于要处理千万级的数据,本次的工具有这样几个特点:1、需要是用http服务来读取图片;2、标定结果与图片信息存在数据库中;3、标定结果存在数据库中。这里有我两个不太熟悉的东西,一个是搭建基于http的图片服务器,一个是数据库的操作。图片服务    之前的图片服务是搭着WindowsServer上的,winServer还是很强大的,通过域控制器、D

2016-12-06 19:39:14 530

原创 如何在MXNet中使用Caffe的操作

最近在学mxnet,貌似功能很强大。看到官网上有一篇说明介绍使用mxnet的caffe接口,翻译一下作为学习笔记。原文链接:https://github.com/dmlc/mxnet/tree/master/example/caffeCaffe框架在业内已经广泛使用并且有着不错的口碑。如今,MXNet已经通过计算图(symbolic graph)支持绝大部分caffe中包含的层或者损...

2016-11-30 14:01:37 2069

原创 简单的python汽车之家爬虫

由于工作要求,需要爬取汽车之家的数据,于是动起了脑筋。平时比较习惯用c++,但c++的urllib用过几次后觉得很不方便,于是改用python写。从哪里下手呢?我们这次的目标是爬取汽车之家的所有车身外观的数据,并按照品牌、车系、年款三个等级进行分类。

2016-10-19 20:51:19 7755 8

原创 wegewg

http://write.blog.csdn.net/postedithttp://write.blog.csdn.net/postedithttp://write.blog.csdn.net/postedithttp://write.blog.csdn.net/postedithttp://write.blog.csdn.net/postedithttp://write.blog.csdn.ne

2014-12-24 11:25:41 759

转载 SVM vs Adaboost

这两个classifier到底哪个好?或许有人会说这样简单的判定哪个好哪个不好很幼稚,每一个classifier都有它的优缺点,但是看看CVPR每年的几百篇论文,这两个classifier的地位很难有任何其他的算法能比吧? 之前我一直以为SVM要比Adaboost在实际中更好,在理论上也更clever。想想Viola Jones都是十年前的算法了,用SVM做face detection未必就比Ad

2013-12-10 09:37:21 2541

IBP算法(迭代反投影)

自己的IBP的matlab实现,完整的工程,下载可用!

2013-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除