Kivee123-CSDN博客

原创论文阅读：Adaptive NMS: Refining Pedestrian Detection in a Crowd

Adaptive-NMS（CVPR 2019）文章又是一篇在NMS上面做文章的paper。。读完之后感觉，哇！自己再想的深一点也能想出来呀，可是想出来和做出好效果真是两码事。。尤其是没有人告诉你这个idea的价值只能靠自己判断的时候。扯远了。。。还是说一说这篇文章吧。 NMS是目前基于深度学习的目标检测模型的重要的后处理步骤，针对目标检测来讲，NMS具体操作就是将所有检测结果（设为集合...

2019-04-11 23:08:02 6700 3

原创论文阅读：FCOS: Fully Convolutional One-Stage Object Detection

FCOS: Fully Convolutional One-Stage Object文章对基于anchor的one-stage detector来说，其实有多少种anchor（比如常用9种），就意味着要训练几个detector，于是ground truth就会被分给不同的detector用于训练，我认为这样会导致两个问题：1.对于某些anchor，与之匹配的ground truth会比较少...

2019-04-08 22:51:30 1852

原创论文阅读：Gradient Harmonized Single-stage Detector

Gradient Harmonizing Mechanism （AAAI 2019）文章 Focal Loss之后又一篇针对one-stage detector中的imbalance问题发起挑战的论文。文章中方法与Focal Loss相同的地方在于会减小简单样本对于模型的梯度影响，但也有两个地方与Focal Loss不一样：1.针对过于困难的样本（即本文所说的gradient norm过大）...

2019-03-31 22:55:42 1250

原创论文阅读：TensorMask: A Foundation for Dense Object Segmentation

Tensor Mask文章何恺明还有RBG大神的新作（一作陈鑫磊这个名字也很熟悉啊）。之前在instance segmentation方面只看过mask R-CNN的论文，看到这篇文章是dense object segmentation，由于在做one-stage detector方面的工作，所以想看看这篇论文能不能对自己有什么启发。文章的motivation在于：object ...

2019-03-30 18:42:34 6409 1

原创论文阅读：Scale-Aware Trident Networks for Object Detection

TridentNet 由于目标检测任务中，每张图的目标的大小都是变化的，于是造成对于过于小或者过于大的物体都不好检测，这就是目标检测中的尺度变化问题，一个直接的解决办法是使用图像金字塔。在手工特征时代，直接就是将图像缩放成不同分辨率组成一个金字塔输入给模型，而在深度学习时代，以FPN为代表的多尺度方法则是使用多分辨率的特征图来组成金字塔去近似图像金字塔的效果。另外，为了使图像尺度和物体尺度匹配...

2019-03-11 11:54:15 893 1

原创论文阅读：Rethinking Visual Relationships for High-level Image Understanding

VrR-VG文章本文想解决的问题是，对于视觉关系检测这一任务来说，在目前常用的权威数据集Visual Genome的一个子集VG150（VG中出现频率最高的150类物体和50类关系）上，直接可以依赖统计的方法解决得比较好，这不利于关系检测的进一步研究，因此文章设计了一个网络可以滤除掉VG数据集中那些视觉无关（visually-irrelevant）的关系样本。在新的数据集上，基于频率的方法...

2019-02-28 22:10:14 633

原创论文阅读：Augmentation for small object detection

Copy-Paste文章本文瞄准的是目标检测中小目标检测精度低的问题，作者认为是两个原因导致的：1.含有小物体的图片少；2.即使有的图片含有小物体，小物体出现得少。（个人感觉这和下面在COCO上的实验有点矛盾呀，COCO中小物体还是多呀？）首先我们看一下COCO中对物体尺寸的定义：接着作者统计了下面的表格（Mask R-CNN）可以看出COCO中小物...

2019-02-28 22:01:51 2656 2

原创论文阅读：Bottom-up Object Detection by Grouping Extreme and Center Points

ExtremeNet文章本文是继Corner-Net和Grid R-CNN之后第三篇用关键点检测做目标检测的。本文会检测每类物体的4个边缘关键点（最上，最下，最左，最右）以及1个中心点，然后根据边缘点和中心点的对齐关系找到每个物体的bbox。和CornerNet相比，本文的方法找的是物体边缘上的关键点，因此不会存在找bbox corner那种local visual evidence不足的...

2019-02-28 21:57:28 630

原创论文阅读：Grid R-CNN

Grid R-CNN文章 CornerNet是one-stage的基于关键点的detector，那么可以不可以在two-stage上用上类似的方法呢？Grid R-CNN就是这样的方法。和普通的two-stage的第二步对RoI进行回归不一样，该方法直接利用RoI feature对物体的Grid（多个关键点）进行proposal的位置修正。和CornerNet一样，本文也发现了很...

2019-01-30 19:46:07 874

原创论文阅读：CornerNet: Detecting Objects as Paired Keypoints

CornerNet（ECCV 2018）文章去年暑假读到一篇ECCV 2018的文章，CornerNet，可以说是RCNN系和YOLO/SSD系垄断的基于深度学习的目标检测领域的一股清流了，想不到到现在有越来越多的这种基于关键点检测思路的研究了，于是我也决定将我看到的几篇这方面的文章梳理一下。那么这一篇博客就说说CornerNet这个搅局者吧。 CornerNet一句话解释就是将每个b...

2019-01-30 19:29:57 666

原创论文阅读：Large-Scale Visual Relationship Understanding

Large-Scale Visual Relationship Understanding (AAAI 2019) 本文的模型分为两部分：视觉模块和语义模块。对于视觉模块，作者认为关系的存在依赖于主语和宾语物体的存在，但反过来并不是，换句话说就是关系识别是建立在物体识别之上的，但物体识别却是独立于关系识别的。因此，作者希望能学习从物体和关系共享的视觉特征特征空间到两个独立的语义嵌入空间（...

2019-01-30 19:16:12 1803

原创论文阅读：Region Proposal by Guided Anchoring

Guided Anchoring文章 Anchor机制是目前主流的（当然也有不基于anchor的算法，比如CornerNet和GridNet）基于深度学习的目标检测算法的重要基石。目前的最先进的检测器都是使用的密集的anchor模式，即在图片上均匀放置好一组定义好形状和大小的anchor。anchor的设计一般有两个要求：1.alignment，为了用卷积特征作为anchor的表示，an...

2019-01-15 21:47:41 8818

原创 CNN中卷积神经网络的技巧trick总结（图像识别/目标检测/语义分割）

CNN图像分类的tricks原文Baseline：预处理：随机抽取一张图片，解码成32位浮点型的[0,255]的像素值形式随机在原图上裁剪一片比例在[3/4, 4/3]，面积在[8%, 100%]的矩形区域，然后resize到224x224按0.5的概率对上一步的图片水平翻转在[0.6, 1.4]之间均匀采样系数用于缩放色调、饱和度和亮度(HSB)按正态分布N(...

2018-12-21 11:32:27 4628

原创论文阅读：Scene Dynamics: Counterfactual Critic Multi-Agent Training for Scene Graph Generation

Scene Dynamics文章我之前一直想着要提高scene graph的质量，最重要的应该是提高对关系的识别能力，也就是提高predcls任务的效果，但是本文提醒了我，把对目标的识别和和关系的识别结合起来，也能有效提高scene graph的质量。本文认为，目前的关系检测算法大都没有将目标的检测放在graph的层次上思考，message passing算是...

2018-12-19 17:40:05 1087

原创论文阅读：Deep Variation-structured Reinforcement Learning for Visual Relationship and AttributeDetection

VRL（CVPR 2017）文章这篇文章使用强化学习来做scene graph的生成，这种方式是逐渐生成式的，每一步会生成一对sub-obj的关系（还有sub的属性），于是场景图就会像树一样，渐渐成型。这样一来，我所了解的目前关系检测的思路一共有三种：1. 找到连接1，判断关系1–&gt;找到连接2，判断关系2–&gt;……–&gt;找到连接n，判断关系n2. 找到所有可能连接à依次判...

2018-12-07 16:05:41 1231 1

原创论文阅读：Representation Learning for Scene Graph Completion via Jointly Structural and Visual Embedding

RLSV (IJCAI2018) 本文将知识图谱补全中的著名的Trans系列的算法之一TransD用到了Scene Graph Completion（简称SGC）中。顾名思义，SGC是在已经有了生成好的scene graph的基础上对其进行补充，发掘检测到的物体之间遗漏掉的关系。首先介绍一下TransE模型，对于知识图谱中的一个三元组（head，relation，tail），将rela...

2018-12-03 15:38:16 1025

原创论文阅读：Deformable ConvNets v2: More Deformable, Better Results

DCN v2文章脑洞大开的可变形卷积竟然出V2了，之前一直忙着别的事情，今天终于可以抽出时间好好研读一下这篇新作了。首先大概回顾一下最初的可变形卷积网络的思想，普通的卷积计算，每次都只是待计算的像素点和其四周的卷积核大小的矩阵范围内的其它像素点参加计算，于是不管网络有多深，感受野始终是矩形的，然而现实中很多物体的形状都是可以变化的，如果卷积操作能对这种几何变化性有较好的适应性的话，在许多视...

2018-11-30 16:38:26 13921 2

原创论文阅读：Visual Relationship Detection with Language Priors

Visual Relationship Detection with Language Priors(ECCV2016)文章尽管大多数的relationship并不常见，但是它们的object和predicate却更频繁地独立出现。paper用这个insight分别独立训练训练object和predicate的模型，然后再进行组合来预测relationship。Visual relatio...

2018-11-20 10:39:24 2661 1

原创论文阅读：LinkNet: Relational Embedding for Scene Graph

LinkNet（NIPS 2018）文章一两个月前在NIPS2018的官网上看到这篇论文，最近终于在arxiv上看到了，于是迫不及待地就读了，下面就来一起来看看这篇来自KAIST的LinkNet吧。论文的主要创新点是对于scene graph generating任务设计了一个relational embedding module，可以利用图片中所有的物体的特征对某个物体的特征进行更...

2018-11-17 16:11:59 6401 2

原创论文阅读：Reasoning about Object Affordances in a Knowledge Base Representation

Reasoning about Object Affordances in a Knowledge Base Representation（ECCV2014）文章本论文使用了知识库表示来对物体的affordance进行推理。首先从图片或者其他meta-data的数据中获得大量的关于物体的信息，然后使用Markov Logic Network（MLN）学习一个知识库（Knowledge Ba...

2018-11-13 15:12:28 875

原创论文阅读：A2-Nets: Double Attention Networks

A2-Nets: Double Attention Networks（NIPS 2018）文章论文的名字很好，反映了本文的核心想法：首先使用second-order attention pooling将整幅图的所有关键的特征搜集到了一个集合里，然后用另一种attention机制将这些特征分别图像的每个location。从上图看到，模型先会计算出一堆global descriptors，...

2018-11-12 11:34:09 9982 2

原创论文阅读：Pixels to Graphs by Associative Embedding

Pixels2Graph（NIPS 2017）文章 insight：现在做关系检测往往都是分为物体检测和关系识别两个步骤，可是这样的话，在第二步的时候往往会损失很多信息，本文希望从原图的像素信息一步同时得到物体和关系。其实本文的关键是associative embedding，今年ECCV的一篇CornerNet也是利用了这种想法，给目标检测带了新思路，我感觉应该也有这篇文章的灵感。...

2018-11-01 17:49:05 1957

翻译 Visual Genome视觉基因组(4)

6.Experiment 到现在为止，我们呈现了VG数据集并且分析它每个独立的部件。在有了丰富的信息之后，大量的感知和认知任务就可以被解决。在本章，我们的目的是提供一些使用VG的数据进行的一些实验baseline，这些都还没有被进一步研究。目标检测近年已经被很好的研究了。类似的，区域图和场景图也被展示出来他们可以用来改进语义图像检索的能力。因此我们专注在剩下的部分，属性、关系、区域描述和问答对...

2018-10-31 15:42:09 1436 1

翻译 Visual Genome视觉基因组(3)

5.Datasets statistics and analysis 本部分介绍VG各个组件的统计特性和分析。特别地，我们检查了图片的分布、区域描述和问答对。我们分析了区域图和场景图，同时也将它们拆分成了物体、属性和关系分别研究每个部分。最后，我们描述了我们的规范化流水线和结果。5.1 Image selection VG数据集包含了108077张图片，来自于MS-COCO的328000...

2018-10-30 15:05:43 1676

翻译 Visual Genome视觉基因组(2)

4.Crowdsourcing strategies（众包策略） VG全部是由Amazon Mechanical Turk上的众包工作者收集和验证的。下面我们会概述创建数据集的每个组件流水线方法。每个组件的构造都包含多个阶段，我们会提到我们采用的使得数据变得更准确和多样的策略。我们也会介绍一下这些使得VG成为可能的工作者们的背景信息。4.1 Crowd works（众包）我们使用A...

2018-10-28 17:56:46 692

翻译 Visual Genome视觉基因组(1)

Visual GenomeConnecting Language and Vision Using Crowdsourced Dense Image Annotations数据集网址摘要：尽管在诸如图像分类等感知任务上取得了进展，计算机在诸如图像描述和问题回答等认知任务上仍然表现不佳。认知是任务的核心，认知不仅涉及了识别，而且包括对我们的视觉世界进行推理。然而，用于处理用于认知任务的图...

2018-10-25 23:17:49 2763 6

原创论文阅读：A Walk-based Model on Entity Graphs for Relation Extraction

A Walk-based Model on Entity Graphs for Relation Extraction（ACL 2018）文章实体关系抽取是NLP中一个很常见的问题，如何在一句话中提取出实体以及它们之间的关系。本文提出了一种基于图的方法，首先将句子中的所有实体视作一个全连接图中的不同节点。而边则是每对entity pair的position-ware的context。 ...

2018-10-25 21:26:55 1740

原创论文阅读：Compositional Learning for Human Object Interaction

Compositional Learning for HOI（ECCV 2018）文章作者的的想法是因为我们很难搜集到所有组合之间的interaction，所以必须会面临的问题就是要识别在数据集中从未见到过的情况，也就是HOI的zero shot learning。作者认为人的动作是具有compositional的性质的，而且人可以用不同的物体和工具达到类似的目的。比如我们可以用hamme...

2018-10-23 11:32:17 3034 3

原创论文阅读：Interact as You Intend: Intention-Driven Human-Object Interaction Detection

iHOI（submitted to IEEE Trans. on Multimedia）文章本文focus在检测social scene images上的human-object interactions（HOIs）。本文的一个出发点是human在与object进行interaction的时候，会根据他们的intention调整注意力和移动身体，因此本文的就在HOI检测中加入了human ...

2018-10-09 22:06:37 1298 2

原创论文阅读：Visual Translation Embedding Network for Visual Relation Detection

VTransE（CVPR 2017） Paper自称VtranE是第一个采用full-conv的end-to-end的relation detection架构，是同时进行object detection和relation detection的。VTransE将object特征转换到一个低维的relation空间，在这个空间里，relation可以被建模成简单的转换向量（translation ...

2018-10-09 08:27:02 2634 3

原创论文阅读：A simple neural network module for relational reasoning

RN Module（DeepMind 2017）文章本文设计了一个用于relational reasoning的RN模块，可以嵌入到任何需要处理与realtion inference有关系的任务的神经网络之中，其设计哲学是：限制神经网络的函数形式使得其能抓住关系推理中最核心的公共属性。或者说，计算关系的能力就在RN的结构之中，就像CNN的结构就蕴含了推导空间属性、平移不变性的性质一样。 ...

2018-10-05 17:08:29 2422

原创论文阅读：Mapping Images to Scene Graphs with Permutation-Invariant Structured Prediction

写在前面：最近做scene graph方面的工作，不停地搜索论文看，看到这是NIPS2018的本来还眼前一亮，抱着敬畏的心态仔仔细细地去看，但是看了一遍又一遍，感觉只有一个，文章写得又臭又长、不知所云、也没觉得有啥价值，也许是自己道行不够，看不懂文章的高明之处，但还是想写下看这篇文章的感受，如果有也做sg方向想看这篇文章的同学，也许可以让你们避免浪费时间阅读这篇“顶会文章”。文章NIPS...

2018-10-03 16:38:31 1472

原创论文阅读：Tensorize, Factorize and Regularize: Robust Visual Relationship Learning

Relational learning module（CVPR2018）文章本文的基础的visual relationship detection框架还是iterative message passing那套，不过想办法加入了relationship的分布先验知识如果对整个数据集分析的话，假设一共有n类object，m类predicate，统计不同的sub-pre-obj，可以得到...

2018-09-27 16:18:46 846 2

原创论文阅读：Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection

Softer-NMS文章和之前同样出自Megvii的一篇论文IoU-Net一样，这篇论文的出发点也是，two-stage detector进行NMS时用到的score仅仅是classification score，不能反映bounding box的定位精准度，因此引入了一个反映其定位精准度的因变量。本文的这个因变量就是bounding box的4个坐标的方差。可以看到，除了预测box的...

2018-09-26 15:39:48 4603 23

原创论文阅读：Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition

Zoom-Net（ECCV2018）文章 Paper展示了通过对local的object feature和global的predicate feature进行深层次的message passing和interaction是增强relationship recognization性能的一个有效途径。为了能够对object和predicate学习好的特征，paper研究了3种可解释的模型。1...

2018-09-21 09:00:19 1200

原创论文阅读：Factorizable Net: An Efficient Subgraph-based Framework for Scene Graph Generation

FactorizableNet（ECCV2018）文章 Paper认为目前有两种生成scene graph的方法，一种是two-stage的，先把object检测到（包括类别），然后再recognize他们之间的关系，另一种是基于region proposal对object的类别和他们之间的relation进行联合推理。两种方法的共同之处是都会用到object pair的union box的...

2018-09-18 17:59:45 2104 2

原创论文阅读：Shuffle-Then-Assemble: Learning Object-Agnostic Visual Relationship Features

Shuffle-Then-Assemble文章 Paper认为标记triplet的cost是很大的，而且人标记的relation有很强的的object的依赖性，就是某些relation对某些object-object会有bias。 shuffle-then-assemble的目的是希望训练出一个比较object agnostic的CNN，这样就能缓解relation对object的...

2018-09-16 13:51:21 697

原创论文阅读：Detecting Visual Relationships Using Box Attention

BAR-Net(google AI work in progress,待更新)文章主要是想用标准的object detection方法进行pair-wise的relationship的检测。将relation检测的任务，分解为了检测两个consecutive的object的任务。Paper提出先用一个detector将图中所有的object检测到，然后对于每一个object，利用第二个...

2018-09-13 10:01:18 850

原创论文阅读：Learning Human-Object Interactions by Graph Parsing Neural Networks

GPNN(ECCV2018)文章用来检测human-object interaction。Paper说提出GPNN的目的是为了在HOI任务中显式地对空间、时间（视频）以及human-object关系进行利用。 complete HOI指的是所有的node之间都有link，node包括human和object，假设node特征为d_V维，edge的特征为d_E维（从两个box...

2018-09-13 09:49:02 3182

原创论文阅读：Detecting Visual Relationships with Deep Relational Networks

DR-Net(CVPR2017)文章代码也是先用检测器将roi准备好，然后以这些roi为输入，与其他方法不同的是，该方法还需要记住roi的类别，文章提出jointly recognition，但在代码中似乎不是这样的。文中说qs, qr, qo在迭代更新的过程中，是有相互的信息传递的，但代码中只有qr更新会得到qs,qo的信息，而后两者的更新不会得到qr的信息。并且代码...

2018-09-13 09:40:12 766

空空如也

空空如也