酉意铭-CSDN博客

原创 Swin Transformer：Hierarchical Vision Transformer using Shifted Windows （论文阅读笔记）

swin transformer 是微软亚研院胡瀚老师与2021年提出，发表在ICCV上并获得best paper 和马尔奖。是基于transformer的backbone网络，屠榜各大视觉任务。论文链接：https://arxiv.org/abs/2103.14030代码链接：https://github.com/microsoft/Swin-Transformer摘要本文介绍了一种称为 Swin Transformer 的新视觉 Transformer，它可以作为计算机视觉的...

2021-12-25 22:59:42 3774

原创 ViT ——AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(论文阅读笔记)

ViT 是Google团队于2021年发表在ICLR上的paper，论文链接：https://arxiv.org/abs/2010.11929摘要虽然 Transformer 架构已成为自然语言处理任务事实上的标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。我们表明，这种对 CNN 的依赖是不必要的，直接应用于图像块序列的纯transformer可以在图像分类任务上表现得非常好。当在大量数...

2021-11-21 19:35:59 2971

原创 Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION（论文阅读）

Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章，是针对Detr 的改进。论文：《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》论文链接：https://arxiv.org/pdf/2010.04159.pdf代码链接：https://github.com/fundamentalvision/Deformable-DETR关于DETR 论文可

2021-11-21 16:04:48 8404

原创 DETR: End-to-End Object Detection with Transformers （论文阅读笔记）

DETR 是Facebook AI 研究院于2020年提出的一种端到端的目标检测新方法，它省略了大量人工设计的组件并且不需要NMS后处理。论文地址：https://arxiv.org/pdf/2005.12872.pdf摘要我们提出了一种将目标检测视为直接集预测(set prediction)问题的新方法。我们的方法简化了检测pipeline，有效地消除了对许多手工设计组件的需求，例如非最大抑制程序(NMS)或anchor生成（anchor generation），这些组件明确地编码了我..

2021-11-07 22:15:21 3376

原创 PointNet 论文阅读笔记

摘要点云是几何数据结构的一种重要类型。由于格式不规则，大多数研究人员将此类数据转换为规则的3D voxel网格或图像集合。但是，这使数据变得不必要地庞大，并导致了问题。在本文中，我们设计了一种直接消耗(consume)点云的新型神经网络，该网络很好地考虑了输入中点的排列不变性。我们的网络名为PointNet，为从目标分类，分割，到场景语义解析的应用程序提供了统一的体系结构。虽然很简单，但PointNet高效且高效。从经验上讲，它表现出同等甚至优于现有技术的强大性能。从理论上讲，我...

2021-06-09 20:57:00 810

原创 FCOS:Fully Convolutional One-Stage Object Detection(论文阅读笔记)

本文是CVPR2019 的文章，基于Anchor-free。论文链接：https://arxiv.org/abs/1904.01355代码链接：当前mmdetection中有focs的相关code实现。摘要：我们提出了一种全卷积的单阶段目标检测器（FCOS），以按像素预测的方式来解决目标检测，类似于语义分割。几乎所有最新的物体检测器（例如RetinaNet，SSD，YOLOv3和Faster R-CNN）都依赖于预定义的anchor box。相反，我们提出的检测器FCOS不含a...

2021-04-24 16:51:50 467

原创 linux 离线安装ffmpeg（非root 用户）

描述：由于本地开发机默认的ffmpeg版本是2.x，生成视频是要求是-pix_fmt yuv420p格式,低版本加上参数没有生效，怀疑是版本过低的原因解决方案：升级本地ffmpeg 2.x版本到4.x版本问题：开发机有权限限制，只能编译安装到个人指定目录步骤：1，官网下载ffmpeg 4.x版本：wget https://johnvansickle.com/ffmpeg/release-source/ffmpeg-4.1.tar.xz2，解压xz -d ffmpeg-4.1.

2020-12-22 20:19:25 1985

原创 SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC（论文阅读笔记）

优点：该deep sort算法基于sort算法进行改进，利用一个re-id 模型为目标生成一个外观特征，同时结合了运动(motion)和外观(appearance)信息能够追踪更长遮挡时间的同一目标，减少目标ID 跳变次数，也有效降低了目标ID丢失的次数。论文链接：https://arxiv.org/abs/1703.07402代码链接：https://github.com/nwojke/deep_sort摘要简单的在线和实时跟踪（SORT）是一种实用的方法，主要针对简单的多...

2020-10-14 16:55:46 1420

原创解决：OpenCV: FFMPEG: tag 0x5634504d/‘MP4V‘ is not supported with codec id 12 and format ‘mp4 / MP4 (MP

问题描述：利用python 的opencv包把图片合并为视频（mp4格式）的时候发现错误。OpenCV: FFMPEG: tag 0x5634504d/'MP4V' is not supported with codec id 12 and format 'mp4 / MP4 (MPEG-4 Part 14)'OpenCV: FFMPEG: fallback to use tag 0x7634706d/'mp4v'原因，主要是合成时采用的视频编码不对，还是使用的是fourcc =.

2020-10-12 19:54:17 30745 13

原创 ResNeSt 论文阅读笔记

论文：《ResNeSt: Split-Attention Networks》论文链接：https://hangzhang.org/files/resnest.pdf代码链接：https://github.com/zhanghang1989/ResNeSt摘要尽管图像分类模型最近一直在继续发展，但是由于其简单且模块化的结构，大多数下游应用（例如目标检测和语义分段）仍将ResNet变体用作backbone。我们提出了一个模块化的Split-Attention block，该block可..

2020-05-26 19:56:18 3842 2

原创 YOLOv4 论文阅读笔记

YOLOv4在结构上没有额外的创新，但是收集了目标检测中各种tricks，并进行实验分析了各种tricks的有效性，相对于对近些年来目标检测领域中从数据，网络结构，和后处理等过程做了很好的总结。最终，在速度和准确性上达到了最好的balance。论文：《YOLOv4: Optimal Speed and Accuracy of Object Detection》论文链接：https:...

2020-04-28 12:24:03 2481

原创 HigherHRNet 论文阅读笔记

论文：《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》论文链接：https://arxiv.org/pdf/1908.07919.pdf代码链接：https://github.com/HRNet/HigherHRNet-Human-Pose-Estimation...

2020-04-19 00:18:15 9581 2

原创 HRNet V1 论文阅读笔记

论文：《Deep High-Resolution Representation Learning for Human Pose Estimation》论文链接：https://arxiv.org/abs/1902.09212代码链接：https://github.com/leoxiaobin/deep-high-resolution-net.pytorch摘要在本文...

2020-04-08 20:37:38 1005

原创 YOLACT Real-time Instance Segmentation（论文阅读笔记）

2019年的实时实例分割算法，mAP 达到29.8，并且FPS达到33.5论文名称：《YOLACT Real-time Instance Segmentation》论文链接：https://arxiv.org/pdf/1904.02689.pdf代码链接：https://github.com/dbolya/yolact摘要：我们提出了一个简单的，全卷积实时实例分割...

2020-03-09 18:44:19 1023

原创解决：AttributeError: type object 'IOLoop' has no attribute 'initialized'

错误：打开一个ipynb文件时报错，AttributeError: type object 'IOLoop' has no attribute 'initialized'错误原因：jupyter notebook 环境中python版本不对应。该ipynb是基于python2环境，但是启动jupyter notebook 是在conda python3虚拟环境下打开的，故报错。...

2020-01-16 20:21:08 4075 4

原创量化神经网络：QNN论文阅读笔记

论文：《Quantized Neural Networks: Training Neural Networks with Low Precision Weights and Activations》连接：https://arxiv.org/pdf/1609.07061v1.pdf摘要我们介绍一种训练量化神经网络（QNN）的方法，在运行时具有极低精度（例如1bit）权重和激...

2019-12-22 20:45:39 10099

原创二值化网络：BNN 论文阅读笔记

论文：《Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or -1》连接：https://arxiv.org/pdf/1602.02830.pdf摘要我们介绍了一种训练二进制神经网络（BNN）的方法-在运行时，神经网络具有二...

2019-12-22 14:46:33 2186

原创 windows、ubuntu安装pycocotools

一，Ubuntu系统直接pip安装，运行下面的命令即可pip install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPI二，windows系统1，下载code，code链接https://github.com/philferriere/cocoapi2，安装Visua...

2019-12-14 19:18:04 540

原创 VarGNet论文阅读笔记

VarGNet是地平线2019年新提出的一种轻量级网络，适用嵌入式系统的计算。原文链接：https://arxiv.org/abs/1907.05653摘要通过观察发现，如果网络中操作的计算强度更平衡，则网络计算图更容易优化。我们提出了基于深度可分离卷积的可变组卷积[25,8,47]。在可变组卷积中，每个组的输入通道数是固定的，可以作为超参数进行调整，这与组卷积中组数是固定的是...

2019-11-20 16:37:37 3085 2

原创 ModuleNotFoundError: No module named 'configs'

在根目录执行子目录中的脚本，该脚本调用了另一个平行子目录中的另一个脚本，configs.py文件报错ModuleNotFoundError: No module named 'configs'原因，python导入包时，是从系统路径中检测包是否存在，可以在待执行的脚本中加入以下代码，检查是否包含待导入文件的根路径。from __future__ import absolute_imp...

2019-10-20 16:30:58 6867 1

原创堆排序

#include<iostream>#include<stdio.h>void my_print(int *arr,int length){ for(int i = 0; i < length; i++) { /* code */ printf("%d ",arr[i]); } printf(...

2019-09-16 11:28:21 123

原创矩阵的转置，空间复杂度O(1)

原矩阵: 一维存放格式 int nums[] = {0,1,2,3,4,5,6,7,8,9,10,11}行数：3列数：40 1 2 3 4 5 6 78 9 10 11转置后0 4 81 5 92 6 103 7 11索引变化0 -> 01 -> 32 -> 63 -> 94 -> 15 -> 46 -> 77...

2019-09-10 15:33:45 1086

原创 python 手动实现卷积操作

主要考虑卷积操作的公式即可：import numpy as np def conv2d(img, in_channels, out_channels ,kernels, bias, stride=1, padding=0): N, C, H, W = img.shape kh, kw = kernels.shape p = padding assert C == in_chann...

2019-08-24 11:50:18 1604

原创二叉树的遍历，递归和非递归

1，中序遍历非递归版本，借助一个辅助vector<int> ans;vector<int> inorderTraversal(TreeNode* root) { TreeNode *node = root; stack<TreeNode *> mstack; while(node != NULL || !mstack.empty()) { ...

2019-08-23 16:17:59 88

原创 BP反向传播详细推导

BP神经网络是反向传播算法，他是一个非线性的前馈神经网络。由于网络参数需要更新，反向指的是参数梯度的反向传播，输入向前传播。非线性是因为神经元的激活函数是一个非线性可导的sigmoid函数。先来看看神经元的激活函数，即sigmoid函数：该函数的特点是：...

2019-08-04 16:52:25 1106

原创 Triplet Loss 和 Center Loss详解和pytorch实现

最近在学习ReID相关的算法，为了提高ReID的性能通常会采用softmax loss 联合 Triplet Loss和Center Loss来提高算法的性能。本文对Triplet Loss和Cnetr Loss做一个总结，以简洁的方式帮助理解。Triplet Loss和Center Loss都是从人脸识别领域里面提出来的，后面在各种图像检索任务中被广泛应用。想要了解Triplet L...

2019-08-01 16:44:41 28696 3

原创 CNN中的参数，计算量，FLOPs，Multi-Add(乘加)，输出特征图尺寸等概念详解

在阅读论文时，我们会遇到参数量，FLOPS，Multi-add， CNN参数，CNN计算量等概念，通过阅读整理，这篇博客希望以最简洁的解释帮助大家理解这些基本概念。首先，我们看一下卷积的计算方式：卷积的计算方式：图片来自http://cs231n.github.io/convolutional-networks/卷积的计算方式上图描述了一个 5*5*3 的输入特征图边界采用1个...

2019-08-01 15:18:57 9191 7

原创 RetinaFace: Single-stage Dense Face Localisation in the Wild（论文阅读笔记）

摘要虽然在不受控制的人脸检测方面已经取得了巨大的进步，但是在wilder上准确有效的人脸定位仍然是一个公开的挑战。本文提出了一种鲁棒的single stage人脸检测器RetinaFace，它利用联合的额外监督和自监督多任务学习的优点，对不同尺度的人脸进行像素级定位。具体来说，我们在以下五个方面做出了贡献：(1)我们在WILDER FACE数据集中手工标注了5个人脸Landmark，并...

2019-07-30 20:06:05 3678

原创 DenseNet：Densely Connected Convolutional Networks（论文阅读笔记）

论文链接：《Densely Connected Convolutional Networks》代码链接：https://github.com/liuzhuang13/DenseNet摘要最近的研究表明，如果卷积网络包含接近输入层和接近输出层之间较短的连接，那么训练卷积网络将会更加深入、准确和有效。在本文中，我们接受了这一观察，并引入了Dense Convolutional Net...

2019-07-30 15:19:57 1791

原创 np.invert 和 np.binary_repr 详解

invert 的作用是对数值按位取反，但是对于具体的情况有点差别，看下面几个例子就能明白。对于正数 13，其对应的二进制位是：00001101，如果按位取反，结果为 11110010 对应的整数是：-14。二进制位，可以用numpy的 np.binary_repr 函数实现：可是设置不同的位数：-14是怎么来的呢？计算机中，最高位是符号位。11110010的最高位是1，...

2019-07-25 15:57:14 1919

原创 Center Loss: A Discriminative Feature Learning Approach for Deep Face Recognition（论文阅读笔记）

摘要卷积神经网络(CNNs)在计算机视觉领域得到了广泛的应用，极大地提高了计算机视觉领域的技术水平。在现有的神经网络中，大多采用softmax损失作为监督信号来训练模型。为了提高对深度学习特征的识别能力，提出了一种新的人脸识别监控信号——center loss。具体来说，center loss同时学习每个类的深度特征中心，并惩罚深度特征与其对应的类中心之间的距离。更重要的是，我们证明了...

2019-07-23 17:28:02 3538

原创 AttributeError: 'float' object has no attribute '6f'

在利用format函数进行float 类型数据小数位控制时，在{}中需要加上冒号 :，如下图

2019-07-18 20:24:39 4570

原创 FaceNet: A Unified Embedding for Face Recognition and Clustering（论文阅读笔记）

论文中一个很重要的贡献是提出了triplet loss论文链接：https://arxiv.org/abs/1503.03832摘要尽管人脸识别领域最近取得了重大进展[10,14,15,17]，但大规模高效地实现人脸验证和识别对现有方法提出了严峻挑战。在这篇论文中，我们提出了一个叫做FaceNet的系统，它可以直接从人脸图像学习到一个紧凑的欧几里德空间的映射，其中距离直接对应于...

2019-07-07 15:50:41 6818

原创 PCB：Beyond Part Models: Person Retrieval with Refined Part Pooling（论文阅读笔记）

ECCV2018年的论文论文原文：原文链接本文是阅读的arXiv上的论文，与发表在ECCV2018上的原文细微差别。arXiv 链接：arXiv 论文链接摘要在行人图像描述中使用 part-level 特征提供了细粒度的信息，并在最近的文献中被证实对人的检索是有益的。part发现的一个先决条件是每个 part 都要定位好。本文不采用姿态估计等外部线索直接定位 pa...

2019-07-05 19:45:50 1994

原创 BFENet：Batch Feature Erasing for Person Re-identification and Beyond（网络阅读笔记）

论文连接：《Batch Feature Erasing for Person Re-identification and Beyond》代码链接：https://github.com/daizuozhuo/batch-feature-erasing-network摘要本文提出了一种新的训练机制——批特征擦除(BFE)，用于行人再识别。应用该策略，以ResNet-50为ba...

2019-06-29 21:21:52 4163 2

原创 Bag of Tricks and A Strong Baseline for Deep Person Re-identification（论文阅读笔记）

本文是CVPR2019 的文章，作者给出了一个很强的人体ReID baseline模型，文中包含了许多ReID训练技巧并提出一种BNNeck，在Market1500和DukeMTMC-ReID 两个数据集上达到了目前最好的Rank-1 精度和mAP。论文链接：《Bag of Tricks and A Strong Baseline for Deep Person Re-identificati...

2019-06-27 17:16:27 11999 5

原创 OSNet：Omni-Scale Feature Learning for Person Re-Identification（论文阅读笔记）

CVPR 2019的文章，作者自己根据Reid任务重新设计了一种新的网络结构，比较轻便，对比shuffleNet，mobileNet，SqueezeNet等具有更好的性能。论文链接：《Omni-Scale Feature Learning for Person Re-Identification》代码链接：https://github.com/KaiyangZhou/deep-person...

2019-06-27 11:27:54 14592 9

原创 FA-RPN: Floating Region Proposals for Face Detection（论文阅读笔记）

2019年的CVPR论文：《FA-RPN: Floating Region Proposals for Face Detection》论文链接：https://arxiv.org/abs/1812.05586摘要本文提出了一种新的人脸检测region proposals生成方法。我们没有使用卷积特征图中的像素特征对anchor boxes进行分类，而是采用基于池化的方...

2019-06-25 18:49:31 2565

原创 AInnoFace：Accurate Face Detection for High Performance（论文阅读笔记）

摘要随着深度卷积神经网络(CNNs)的发展，人脸检测技术得到了长足的发展。如何提高微小人脸的检测性能是近年来研究的核心问题。为此，近年来的许多工作提出了一些具体的策略，重新设计了体系结构，并引入了新的用于微小目标检测的损失函数。在这篇报道中，我们从流行的单阶段RetinaNet[20]方法开始，应用一些最新的技巧来获得高性能的人脸检测器，即AInnoFace。具体来说，我们应用IoU损失...

2019-06-19 18:19:19 2384 1

原创 Ubuntu 离线安装gcc （非root用户）

由于服务器是完全没有链接外网的，所以只能离线安装更高版本的gcc(非 root 用户)。1，下载gcc压缩包，选择要安装的版本。下载链接：https://ftp.mirrorservice.org/sites/sourceware.org/pub/gcc/releases/2，解压gcc并进入安装包的根目录tar -xzvf gcc-5.4.0.tar.gzcd gcc-5.4...

2019-06-18 13:15:47 20015 30

空空如也

空空如也