自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 Swin Transformer:Hierarchical Vision Transformer using Shifted Windows (论文阅读笔记)

swin transformer 是微软亚研院胡瀚老师与2021年提出,发表在ICCV上并获得best paper 和马尔奖。是基于transformer的backbone网络,屠榜各大视觉任务。论文链接:https://arxiv.org/abs/2103.14030代码链接:https://github.com/microsoft/Swin-Transformer摘要 本文介绍了一种称为 Swin Transformer 的新视觉 Transformer,它可以作为计算机视觉的...

2021-12-25 22:59:42 3774

原创 ViT ——AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(论文阅读笔记)

ViT 是Google团队于2021年发表在ICLR上的paper,论文链接:https://arxiv.org/abs/2010.11929摘要 虽然 Transformer 架构已成为自然语言处理任务事实上的标准,但其在计算机视觉中的应用仍然有限。 在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。 我们表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的纯transformer可以在图像分类任务上表现得非常好。 当在大量数...

2021-11-21 19:35:59 2971

原创 Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION(论文阅读)

Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章,是针对Detr 的改进。论文:《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》论文链接:https://arxiv.org/pdf/2010.04159.pdf代码链接:https://github.com/fundamentalvision/Deformable-DETR关于DETR 论文可

2021-11-21 16:04:48 8404

原创 DETR: End-to-End Object Detection with Transformers (论文阅读笔记)

DETR 是Facebook AI 研究院于2020年提出的一种端到端的目标检测新方法,它省略了大量人工设计的组件并且不需要NMS后处理。论文地址:https://arxiv.org/pdf/2005.12872.pdf摘要 我们提出了一种将目标检测视为直接集预测(set prediction)问题的新方法。我们的方法简化了检测pipeline,有效地消除了对许多手工设计组件的需求,例如非最大抑制程序(NMS)或anchor生成(anchor generation),这些组件明确地编码了我..

2021-11-07 22:15:21 3376

原创 PointNet 论文阅读笔记

摘要 点云是几何数据结构的一种重要类型。 由于格式不规则,大多数研究人员将此类数据转换为规则的3D voxel网格或图像集合。 但是,这使数据变得不必要地庞大,并导致了问题。 在本文中,我们设计了一种直接消耗(consume)点云的新型神经网络,该网络很好地考虑了输入中点的排列不变性。 我们的网络名为PointNet,为从目标分类,分割,到场景语义解析的应用程序提供了统一的体系结构。 虽然很简单,但PointNet高效且高效。 从经验上讲,它表现出同等甚至优于现有技术的强大性能。 从理论上讲,我...

2021-06-09 20:57:00 810

原创 FCOS:Fully Convolutional One-Stage Object Detection(论文阅读笔记)

本文是CVPR2019 的文章,基于Anchor-free。论文链接:https://arxiv.org/abs/1904.01355代码链接:当前mmdetection中有focs的相关code实现。摘要: 我们提出了一种全卷积的单阶段目标检测器(FCOS),以按像素预测的方式来解决目标检测,类似于语义分割。几乎所有最新的物体检测器(例如RetinaNet,SSD,YOLOv3和Faster R-CNN)都依赖于预定义的anchor box。相反,我们提出的检测器FCOS不含a...

2021-04-24 16:51:50 467

原创 linux 离线安装ffmpeg(非root 用户)

描述:由于本地开发机默认的ffmpeg版本是2.x,生成视频是要求是-pix_fmt yuv420p格式,低版本加上参数没有生效,怀疑是版本过低的原因解决方案:升级本地ffmpeg 2.x版本到4.x版本问题:开发机有权限限制,只能编译安装到个人指定目录步骤:1,官网下载ffmpeg 4.x版本:wget https://johnvansickle.com/ffmpeg/release-source/ffmpeg-4.1.tar.xz2,解压xz -d ffmpeg-4.1.

2020-12-22 20:19:25 1985

原创 SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC(论文阅读笔记)

优点:该deep sort算法基于sort算法进行改进,利用一个re-id 模型为目标生成一个外观特征,同时结合了运动(motion)和外观(appearance)信息能够追踪更长遮挡时间的同一目标,减少目标ID 跳变次数,也有效降低了 目标ID丢失的次数。论文链接:https://arxiv.org/abs/1703.07402代码链接:https://github.com/nwojke/deep_sort摘要 简单的在线和实时跟踪(SORT)是一种实用的方法,主要针对简单的多...

2020-10-14 16:55:46 1420

原创 解决:OpenCV: FFMPEG: tag 0x5634504d/‘MP4V‘ is not supported with codec id 12 and format ‘mp4 / MP4 (MP

问题描述:利用python 的opencv包把图片合并为视频(mp4格式)的时候发现错误。OpenCV: FFMPEG: tag 0x5634504d/'MP4V' is not supported with codec id 12 and format 'mp4 / MP4 (MPEG-4 Part 14)'OpenCV: FFMPEG: fallback to use tag 0x7634706d/'mp4v'原因,主要是合成时采用的视频编码不对,还是使用的是fourcc =.

2020-10-12 19:54:17 30745 13

原创 ResNeSt 论文阅读笔记

论文:《ResNeSt: Split-Attention Networks》论文链接:https://hangzhang.org/files/resnest.pdf代码链接:https://github.com/zhanghang1989/ResNeSt摘要 尽管图像分类模型最近一直在继续发展,但是由于其简单且模块化的结构,大多数下游应用(例如目标检测和语义分段)仍将ResNet变体用作backbone。 我们提出了一个模块化的Split-Attention block,该block可..

2020-05-26 19:56:18 3842 2

原创 YOLOv4 论文阅读笔记

YOLOv4在结构上没有额外的创新,但是收集了目标检测中各种tricks,并进行实验分析了各种tricks的有效性,相对于对近些年来目标检测领域中从数据,网络结构,和后处理等过程做了很好的总结。最终,在速度和准确性上达到了最好的balance。论文:《YOLOv4: Optimal Speed and Accuracy of Object Detection》论文链接:https:...

2020-04-28 12:24:03 2481

原创 HigherHRNet 论文阅读笔记

论文:《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》论文链接:https://arxiv.org/pdf/1908.07919.pdf代码链接:https://github.com/HRNet/HigherHRNet-Human-Pose-Estimation...

2020-04-19 00:18:15 9581 2

原创 HRNet V1 论文阅读笔记

论文:《Deep High-Resolution Representation Learning for Human Pose Estimation》论文链接:https://arxiv.org/abs/1902.09212代码链接:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch摘要 在本文...

2020-04-08 20:37:38 1005

原创 YOLACT Real-time Instance Segmentation(论文阅读笔记)

2019年的实时实例分割算法,mAP 达到29.8,并且FPS达到33.5论文名称:《YOLACT Real-time Instance Segmentation》论文链接:https://arxiv.org/pdf/1904.02689.pdf代码链接:https://github.com/dbolya/yolact摘要: 我们提出了一个简单的,全卷积实时实例分割...

2020-03-09 18:44:19 1023

原创 解决:AttributeError: type object 'IOLoop' has no attribute 'initialized'

错误:打开一个ipynb文件时报错,AttributeError: type object 'IOLoop' has no attribute 'initialized'错误原因:jupyter notebook 环境中python版本不对应。该ipynb是基于python2环境,但是启动jupyter notebook 是在conda python3虚拟环境下打开的,故报错。...

2020-01-16 20:21:08 4075 4

原创 量化神经网络:QNN论文阅读笔记

论文:《Quantized Neural Networks: Training Neural Networks with Low Precision Weights and Activations》连接:https://arxiv.org/pdf/1609.07061v1.pdf摘要 我们介绍一种训练量化神经网络(QNN)的方法,在运行时具有极低精度(例如1bit)权重和激...

2019-12-22 20:45:39 10099

原创 二值化网络:BNN 论文阅读笔记

论文:《Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or -1》连接:https://arxiv.org/pdf/1602.02830.pdf摘要 我们介绍了一种训练二进制神经网络(BNN)的方法-在运行时,神经网络具有二...

2019-12-22 14:46:33 2186

原创 windows、ubuntu安装pycocotools

一,Ubuntu系统直接pip安装,运行下面的命令即可pip install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPI二,windows系统1,下载code,code链接https://github.com/philferriere/cocoapi2,安装Visua...

2019-12-14 19:18:04 540

原创 VarGNet论文阅读笔记

VarGNet是地平线2019年新提出的一种轻量级网络,适用嵌入式系统的计算。原文链接:https://arxiv.org/abs/1907.05653摘要 通过观察发现,如果网络中操作的计算强度更平衡,则网络计算图更容易优化。我们提出了基于深度可分离卷积的可变组卷积[25,8,47]。在可变组卷积中,每个组的输入通道数是固定的,可以作为超参数进行调整,这与组卷积中组数是固定的是...

2019-11-20 16:37:37 3085 2

原创 ModuleNotFoundError: No module named 'configs'

在根目录执行子目录中的脚本,该脚本调用了另一个平行子目录中的另一个脚本,configs.py文件报错ModuleNotFoundError: No module named 'configs'原因,python导入包时,是从系统路径中检测包是否存在,可以在待执行的脚本中加入以下代码,检查是否包含待导入文件的根路径。from __future__ import absolute_imp...

2019-10-20 16:30:58 6867 1

原创 堆排序

#include<iostream>#include<stdio.h>void my_print(int *arr,int length){ for(int i = 0; i < length; i++) { /* code */ printf("%d ",arr[i]); } printf(...

2019-09-16 11:28:21 123

原创 矩阵的转置,空间复杂度O(1)

原矩阵: 一维存放格式 int nums[] = {0,1,2,3,4,5,6,7,8,9,10,11}行数:3列数:40 1 2 3 4 5 6 78 9 10 11转置后0 4 81 5 92 6 103 7 11索引变化0 -> 01 -> 32 -> 63 -> 94 -> 15 -> 46 -> 77...

2019-09-10 15:33:45 1086

原创 python 手动实现卷积操作

主要考虑卷积操作的公式即可:import numpy as np def conv2d(img, in_channels, out_channels ,kernels, bias, stride=1, padding=0): N, C, H, W = img.shape kh, kw = kernels.shape p = padding assert C == in_chann...

2019-08-24 11:50:18 1604

原创 二叉树的遍历,递归和非递归

1,中序遍历非递归版本,借助一个辅助vector<int> ans;vector<int> inorderTraversal(TreeNode* root) { TreeNode *node = root; stack<TreeNode *> mstack; while(node != NULL || !mstack.empty()) { ...

2019-08-23 16:17:59 88

原创 BP反向传播详细推导

BP神经网络是反向传播算法,他是一个非线性的前馈神经网络。由于网络参数需要更新,反向指的是参数梯度的反向传播,输入向前传播。非线性是因为神经元的激活函数是一个非线性可导的sigmoid函数。先来看看神经元的激活函数,即sigmoid函数: 该函数的特点是:...

2019-08-04 16:52:25 1106

原创 Triplet Loss 和 Center Loss详解和pytorch实现

最近在学习ReID相关的算法,为了提高ReID的性能通常会采用softmax loss 联合 Triplet Loss和Center Loss来提高算法的性能。本文对Triplet Loss和Cnetr Loss做一个总结,以简洁的方式帮助理解。Triplet Loss和Center Loss都是从人脸识别领域里面提出来的,后面在各种图像检索任务中被广泛应用。想要了解Triplet L...

2019-08-01 16:44:41 28696 3

原创 CNN中的参数,计算量,FLOPs,Multi-Add(乘加),输出特征图尺寸等概念详解

在阅读论文时,我们会遇到参数量,FLOPS,Multi-add, CNN参数,CNN计算量等概念,通过阅读整理,这篇博客希望以最简洁的解释帮助大家理解这些基本概念。首先,我们看一下卷积的计算方式:卷积的计算方式:图片来自http://cs231n.github.io/convolutional-networks/卷积的计算方式上图描述了一个 5*5*3 的输入特征图边界采用1个...

2019-08-01 15:18:57 9191 7

原创 RetinaFace: Single-stage Dense Face Localisation in the Wild(论文阅读笔记)

摘要 虽然在不受控制的人脸检测方面已经取得了巨大的进步,但是在wilder上准确有效的人脸定位仍然是一个公开的挑战。本文提出了一种鲁棒的single stage人脸检测器RetinaFace,它利用联合的额外监督和自监督多任务学习的优点,对不同尺度的人脸进行像素级定位。具体来说,我们在以下五个方面做出了贡献:(1)我们在WILDER FACE数据集中手工标注了5个人脸Landmark,并...

2019-07-30 20:06:05 3678

原创 DenseNet:Densely Connected Convolutional Networks(论文阅读笔记)

论文链接:《Densely Connected Convolutional Networks》代码链接:https://github.com/liuzhuang13/DenseNet摘要 最近的研究表明,如果卷积网络包含接近输入层和接近输出层之间较短的连接,那么训练卷积网络将会更加深入、准确和有效。在本文中,我们接受了这一观察,并引入了Dense Convolutional Net...

2019-07-30 15:19:57 1791

原创 np.invert 和 np.binary_repr 详解

invert 的作用是对数值按位取反,但是对于具体的情况有点差别,看下面几个例子就能明白。对于正数 13,其对应的二进制位是:00001101,如果按位取反,结果为 11110010 对应的整数是:-14。二进制位,可以用numpy的 np.binary_repr 函数实现:可是设置不同的位数:-14是怎么来的呢?计算机中,最高位是符号位。11110010的最高位是1,...

2019-07-25 15:57:14 1919

原创 Center Loss: A Discriminative Feature Learning Approach for Deep Face Recognition(论文阅读笔记)

摘要 卷积神经网络(CNNs)在计算机视觉领域得到了广泛的应用,极大地提高了计算机视觉领域的技术水平。在现有的神经网络中,大多采用softmax损失作为监督信号来训练模型。为了提高对深度学习特征的识别能力,提出了一种新的人脸识别监控信号——center loss。具体来说,center loss同时学习每个类的深度特征中心,并惩罚深度特征与其对应的类中心之间的距离。更重要的是,我们证明了...

2019-07-23 17:28:02 3538

原创 AttributeError: 'float' object has no attribute '6f'

在利用format函数进行float 类型数据小数位控制时, 在{}中需要加上冒号 :,如下图

2019-07-18 20:24:39 4570

原创 FaceNet: A Unified Embedding for Face Recognition and Clustering(论文阅读笔记)

论文中一个很重要的贡献是提出了triplet loss论文链接:https://arxiv.org/abs/1503.03832摘要 尽管人脸识别领域最近取得了重大进展[10,14,15,17],但大规模高效地实现人脸验证和识别对现有方法提出了严峻挑战。在这篇论文中,我们提出了一个叫做FaceNet的系统,它可以直接从人脸图像学习到一个紧凑的欧几里德空间的映射,其中距离直接对应于...

2019-07-07 15:50:41 6818

原创 PCB:Beyond Part Models: Person Retrieval with Refined Part Pooling(论文阅读笔记)

ECCV2018年的论文论文原文:原文链接本文是阅读的arXiv上的论文,与发表在ECCV2018上的原文细微差别。arXiv 链接:arXiv 论文链接摘要 在行人图像描述中使用 part-level 特征提供了细粒度的信息,并在最近的文献中被证实对人的检索是有益的。part发现的一个先决条件是每个 part 都要定位好。本文不采用姿态估计等外部线索直接定位 pa...

2019-07-05 19:45:50 1994

原创 BFENet:Batch Feature Erasing for Person Re-identification and Beyond(网络阅读笔记)

论文连接:《Batch Feature Erasing for Person Re-identification and Beyond》代码链接:https://github.com/daizuozhuo/batch-feature-erasing-network摘要 本文提出了一种新的训练机制——批特征擦除(BFE),用于行人再识别。应用该策略,以ResNet-50为ba...

2019-06-29 21:21:52 4163 2

原创 Bag of Tricks and A Strong Baseline for Deep Person Re-identification(论文阅读笔记)

本文是CVPR2019 的文章,作者给出了一个很强的人体ReID baseline模型,文中包含了许多ReID训练技巧并提出一种BNNeck,在Market1500和DukeMTMC-ReID 两个数据集上达到了目前最好的Rank-1 精度和mAP。论文链接:《Bag of Tricks and A Strong Baseline for Deep Person Re-identificati...

2019-06-27 17:16:27 11999 5

原创 OSNet:Omni-Scale Feature Learning for Person Re-Identification(论文阅读笔记)

CVPR 2019的文章,作者自己根据Reid任务重新设计了一种新的网络结构,比较轻便,对比shuffleNet,mobileNet,SqueezeNet等具有更好的性能。论文链接:《Omni-Scale Feature Learning for Person Re-Identification》代码链接:https://github.com/KaiyangZhou/deep-person...

2019-06-27 11:27:54 14592 9

原创 FA-RPN: Floating Region Proposals for Face Detection(论文阅读笔记)

2019年的CVPR论文:《FA-RPN: Floating Region Proposals for Face Detection》论文链接:https://arxiv.org/abs/1812.05586摘要 本文提出了一种新的人脸检测region proposals生成方法。我们没有使用卷积特征图中的像素特征对anchor boxes进行分类,而是采用基于池化的方...

2019-06-25 18:49:31 2565

原创 AInnoFace:Accurate Face Detection for High Performance(论文阅读笔记)

摘要 随着深度卷积神经网络(CNNs)的发展,人脸检测技术得到了长足的发展。如何提高微小人脸的检测性能是近年来研究的核心问题。为此,近年来的许多工作提出了一些具体的策略,重新设计了体系结构,并引入了新的用于微小目标检测的损失函数。在这篇报道中,我们从流行的单阶段RetinaNet[20]方法开始,应用一些最新的技巧来获得高性能的人脸检测器,即AInnoFace。具体来说,我们应用IoU损失...

2019-06-19 18:19:19 2384 1

原创 Ubuntu 离线安装gcc (非root用户)

由于服务器是完全没有链接外网的,所以只能离线安装更高版本的gcc(非 root 用户)。1,下载gcc压缩包,选择要安装的版本。下载链接:https://ftp.mirrorservice.org/sites/sourceware.org/pub/gcc/releases/2,解压gcc并进入安装包的根目录tar -xzvf gcc-5.4.0.tar.gzcd gcc-5.4...

2019-06-18 13:15:47 20015 30

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除