4 Kivee123

尚未进行身份认证

我要认证

git主页: https://github.com/KiveeDong

等级
TA的排名 7w+

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd

Adaptive-NMS(CVPR 2019)文章  又是一篇在NMS上面做文章的paper。。读完之后感觉,哇!自己再想的深一点也能想出来呀,可是想出来和做出好效果真是两码事。。尤其是没有人告诉你这个idea的价值只能靠自己判断的时候。扯远了。。。还是说一说这篇文章吧。  NMS是目前基于深度学习的目标检测模型的重要的后处理步骤,针对目标检测来讲,NMS具体操作就是将所有检测结果(设为集合...

2019-04-11 23:08:02

论文阅读:FCOS: Fully Convolutional One-Stage Object Detection

FCOS: Fully Convolutional One-Stage Object文章  对基于anchor的one-stage detector来说,其实有多少种anchor(比如常用9种),就意味着要训练几个detector,于是ground truth就会被分给不同的detector用于训练,我认为这样会导致两个问题:1.对于某些anchor,与之匹配的ground truth会比较少...

2019-04-08 22:51:30

论文阅读:Gradient Harmonized Single-stage Detector

Gradient Harmonizing Mechanism (AAAI 2019)文章  Focal Loss之后又一篇针对one-stage detector中的imbalance问题发起挑战的论文。文章中方法与Focal Loss相同的地方在于会减小简单样本对于模型的梯度影响,但也有两个地方与Focal Loss不一样:1.针对过于困难的样本(即本文所说的gradient norm过大)...

2019-03-31 22:55:42

论文阅读:TensorMask: A Foundation for Dense Object Segmentation

Tensor Mask文章   何恺明还有RBG大神的新作(一作陈鑫磊这个名字也很熟悉啊)。之前在instance segmentation方面只看过mask R-CNN的论文,看到这篇文章是dense object segmentation,由于在做one-stage detector方面的工作,所以想看看这篇论文能不能对自己有什么启发。   文章的motivation在于:object ...

2019-03-30 18:42:34

论文阅读:Scale-Aware Trident Networks for Object Detection

TridentNet  由于目标检测任务中,每张图的目标的大小都是变化的,于是造成对于过于小或者过于大的物体都不好检测,这就是目标检测中的尺度变化问题,一个直接的解决办法是使用图像金字塔。在手工特征时代,直接就是将图像缩放成不同分辨率组成一个金字塔输入给模型,而在深度学习时代,以FPN为代表的多尺度方法则是使用多分辨率的特征图来组成金字塔去近似图像金字塔的效果。另外,为了使图像尺度和物体尺度匹配...

2019-03-11 11:54:15

论文阅读:Rethinking Visual Relationships for High-level Image Understanding

VrR-VG文章  本文想解决的问题是,对于视觉关系检测这一任务来说,在目前常用的权威数据集Visual Genome的一个子集VG150(VG中出现频率最高的150类物体和50类关系)上,直接可以依赖统计的方法解决得比较好,这不利于关系检测的进一步研究,因此文章设计了一个网络可以滤除掉VG数据集中那些视觉无关(visually-irrelevant)的关系样本。在新的数据集上,基于频率的方法...

2019-02-28 22:10:14

论文阅读:Augmentation for small object detection

Copy-Paste文章  本文瞄准的是目标检测中小目标检测精度低的问题,作者认为是两个原因导致的:1.含有小物体的图片少;2.即使有的图片含有小物体,小物体出现得少。(个人感觉这和下面在COCO上的实验有点矛盾呀,COCO中小物体还是多呀?)首先我们看一下COCO中对物体尺寸的定义: 接着作者统计了下面的表格(Mask R-CNN) 可以看出COCO中小物...

2019-02-28 22:01:51

论文阅读:Bottom-up Object Detection by Grouping Extreme and Center Points

ExtremeNet文章  本文是继Corner-Net和Grid R-CNN之后第三篇用关键点检测做目标检测的。本文会检测每类物体的4个边缘关键点(最上,最下,最左,最右)以及1个中心点,然后根据边缘点和中心点的对齐关系找到每个物体的bbox。和CornerNet相比,本文的方法找的是物体边缘上的关键点,因此不会存在找bbox corner那种local visual evidence不足的...

2019-02-28 21:57:28

论文阅读:Grid R-CNN

Grid R-CNN文章  CornerNet是one-stage的基于关键点的detector,那么可以不可以在two-stage上用上类似的方法呢?Grid R-CNN就是这样的方法。和普通的two-stage的第二步对RoI进行回归不一样,该方法直接利用RoI feature对物体的Grid(多个关键点)进行proposal的位置修正。  和CornerNet一样,本文也发现了很...

2019-01-30 19:46:07

论文阅读:CornerNet: Detecting Objects as Paired Keypoints

CornerNet(ECCV 2018)文章  去年暑假读到一篇ECCV 2018的文章,CornerNet,可以说是RCNN系和YOLO/SSD系垄断的基于深度学习的目标检测领域的一股清流了,想不到到现在有越来越多的这种基于关键点检测思路的研究了,于是我也决定将我看到的几篇这方面的文章梳理一下。那么这一篇博客就说说CornerNet这个搅局者吧。  CornerNet一句话解释就是将每个b...

2019-01-30 19:29:57

论文阅读:Large-Scale Visual Relationship Understanding

Large-Scale Visual Relationship Understanding (AAAI 2019)  本文的模型分为两部分:视觉模块和语义模块。  对于视觉模块,作者认为关系的存在依赖于主语和宾语物体的存在,但反过来并不是,换句话说就是关系识别是建立在物体识别之上的,但物体识别却是独立于关系识别的。因此,作者希望能学习从物体和关系共享的视觉特征特征空间到两个独立的语义嵌入空间(...

2019-01-30 19:16:12

论文阅读:Region Proposal by Guided Anchoring

Guided Anchoring文章   Anchor机制是目前主流的(当然也有不基于anchor的算法, 比如CornerNet和GridNet)基于深度学习的目标检测算法的重要基石。目前的最先进的检测器都是使用的密集的anchor模式,即在图片上均匀放置好一组定义好形状和大小的anchor。anchor的设计一般有两个要求:1.alignment,为了用卷积特征作为anchor的表示,an...

2019-01-15 21:47:41

CNN中卷积神经网络的技巧trick总结(图像识别/目标检测/语义分割)

CNN图像分类的tricks原文Baseline:预处理:随机抽取一张图片,解码成32位浮点型的[0,255]的像素值形式随机在原图上裁剪一片比例在[3/4, 4/3],面积在[8%, 100%]的矩形区域,然后resize到224x224按0.5的概率对上一步的图片水平翻转在[0.6, 1.4]之间均匀采样系数用于缩放色调、饱和度和亮度(HSB)按正态分布N(...

2018-12-21 11:32:27

论文阅读:Scene Dynamics: Counterfactual Critic Multi-Agent Training for Scene Graph Generation

Scene Dynamics文章  我之前一直想着要提高scene graph的质量,最重要的应该是提高对关系的识别能力,也就是提高predcls任务的效果,但是本文提醒了我,把对目标的识别和和关系的识别结合起来,也能有效提高scene graph的质量。   本文认为,目前的关系检测算法大都没有将目标的检测放在graph的层次上思考,message passing算是...

2018-12-19 17:40:05

论文阅读:Deep Variation-structured Reinforcement Learning for Visual Relationship and AttributeDetection

VRL(CVPR 2017)文章  这篇文章使用强化学习来做scene graph的生成,这种方式是逐渐生成式的,每一步会生成一对sub-obj的关系(还有sub的属性),于是场景图就会像树一样,渐渐成型。这样一来,我所了解的目前关系检测的思路一共有三种:1. 找到连接1,判断关系1–>找到连接2,判断关系2–>……–>找到连接n,判断关系n2. 找到所有可能连接à依次判...

2018-12-07 16:05:41

论文阅读:Representation Learning for Scene Graph Completion via Jointly Structural and Visual Embedding

RLSV (IJCAI2018)  本文将知识图谱补全中的著名的Trans系列的算法之一TransD用到了Scene Graph Completion(简称SGC)中。顾名思义,SGC是在已经有了生成好的scene graph的基础上对其进行补充,发掘检测到的物体之间遗漏掉的关系。  首先介绍一下TransE模型,对于知识图谱中的一个三元组(head,relation,tail),将rela...

2018-12-03 15:38:16

论文阅读:Deformable ConvNets v2: More Deformable, Better Results

DCN v2文章  脑洞大开的可变形卷积竟然出V2了,之前一直忙着别的事情,今天终于可以抽出时间好好研读一下这篇新作了。首先大概回顾一下最初的可变形卷积网络的思想,普通的卷积计算,每次都只是待计算的像素点和其四周的卷积核大小的矩阵范围内的其它像素点参加计算,于是不管网络有多深,感受野始终是矩形的,然而现实中很多物体的形状都是可以变化的,如果卷积操作能对这种几何变化性有较好的适应性的话,在许多视...

2018-11-30 16:38:26

论文阅读:Visual Relationship Detection with Language Priors

Visual Relationship Detection with Language Priors(ECCV2016)文章  尽管大多数的relationship并不常见,但是它们的object和predicate却更频繁地独立出现。paper用这个insight分别独立训练训练object和predicate的模型,然后再进行组合来预测relationship。Visual relatio...

2018-11-20 10:39:24

论文阅读:LinkNet: Relational Embedding for Scene Graph

LinkNet(NIPS 2018)文章  一两个月前在NIPS2018的官网上看到这篇论文,最近终于在arxiv上看到了,于是迫不及待地就读了,下面就来一起来看看这篇来自KAIST的LinkNet吧。  论文的主要创新点是对于scene graph generating任务设计了一个relational embedding module,可以利用图片中所有的物体的特征对某个物体的特征进行更...

2018-11-17 16:11:59

论文阅读:Reasoning about Object Affordances in a Knowledge Base Representation

Reasoning about Object Affordances in a Knowledge Base Representation(ECCV2014)文章  本论文使用了知识库表示来对物体的affordance进行推理。首先从图片或者其他meta-data的数据中获得大量的关于物体的信息,然后使用Markov Logic Network(MLN)学习一个知识库(Knowledge Ba...

2018-11-13 15:12:28

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!