咆哮的阿杰-CSDN博客

原创 pytorch多进程处理数据的代码模板

【代码】pytorch多进程处理数据的代码模板。

2023-08-29 15:49:43 239

原创 Instant Neural Graphics Primitives with a Multiresolution Hash Encoding以及源码浅析

现存的一些新视图合成的训练过程和渲染速度都比较慢，其原因是因为query point需要使用MLP编码，而且在一个采样空间中，存在很多无效的query point也要计算其density和color，从而出现很多冗余计算。作者针对这个问题，提出了基于哈希的特征提取方式，通过反向求导更新哈希表中的特征向量。作者陈述了非哈希式的优化方法的弊端，即便像八叉树等方法可以将训练缩短至几分钟，但仍有多余计算，可以进一步精简。作者提出了多分辨率哈希索引，每个分辨率有独立的哈希表，将索引出来的特征全部concat之后送入

2022-11-27 22:13:34 2049 2

原创拉普拉斯变形的原理解析和python代码

拉普拉斯变形是图形学处理mesh的常用方法，它假定mesh的顶点，在变化前后，顶点的拉普拉斯距离应该是一致的。L=D−A=D(I−D−1A)D是每个顶点的度，A是邻接矩阵。假设有变形前的顶点为V，有L*V，将其拆解，可以发现就是求每个顶点i的顶点位置减去相邻的顶点位置*(1/di)。LV1=Vi−j∈Ni∑di1Vjj是顶点i的邻接顶点索引。因此，拉谱拉斯矩阵中保存了顶点的局部信息。

2022-10-05 18:59:44 2571

原创网格细分 mesh subdivision相关资料以及python代码

其中threshold控制是否细分，如果mesh的最长的边小于threshold，就不分割。首先根据github中pymeshlab的readme安装好pymeshlab。以上代码和用meshlab GUI的loop算法一样。推荐使用pymeshlab。

2022-09-02 20:17:53 690

原创 SVD求解两个点集之间的刚体运动，即旋转矩阵和平移向量。

给出两个点集A和B，求解点集之间的刚体变化，包含scale，rotation，translate。使其A经过变换之后，可以和B在空间上对齐。

2022-08-19 22:26:58 1350

原创 sklearn中的SparseCoder是什么？又该如何使用

SparseCoder的应用场景不多，因为本身无法考虑更多的约束，比如加入不等式，就不好求解了。SparseCoder其实是一个最优化求解方法。它所处理的对象是线性方程。因为3dmm的公式中。就有求表情基系数的地方，而那里是线性方程。在3dmm人脸重建中，可以应用SparseCoder。则可以使用SparseCoder。...

2022-08-15 23:22:57 517 1

原创从RepVgg到MobileOne，含mobileone的代码

重参数化的思想本质上就是利用线性模型的可加性。在工业界就在conv和bn层融合上有所应用。最近几年一直有re-parameter的工作。RepVGG是一个比较好的应用。VGG是直筒式模型，因为没有skip connnection，导致训练更深层的vgg会出现模型的退化。但如resnet等，skip connnect为端上设备增加了运行耗时，在数据的存取上有不小的消耗。因此RepVGG，将重参数的思想融合进来，在训练时，为vgg引入了skip connection，在测试时将skip connection和

2022-06-25 15:37:17 1557 2

原创 EditGAN阅读纪要

official code背景目前的GAN图像编辑往往遵循两条路线：输入一些condition作为额外输出，让模型在输入图像的全局信息下，修改图像使得符合该条件。条件一般有class label或者是semantic mask。第二种是在隐空间去解耦各种属性，得到控制该属性的方向向量。让隐变量朝向这个方向进行shift，就能实现编辑的目的。第二种也有用label训练分类器实现编辑效果，也有用无监督的方式获得方向向量的方式。同时也有修改隐变量，也有修改模型参数这两种实现编辑的方式。然而，上面两种方式各有

2022-05-01 14:08:17 512

原创 Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer

cvpr2022 code and paper背景现有的stylegan finetuning的人物风格化方法，基本上是将source domain变换到target domain，这要求target domain至少上百张质量较高的样本，并且只能实现一种风格化。DualStyleGAN在stylegan-ffhq的基础上，同样是finetuning，但是增加了condition，引入dual style path以及有效的监督，使得可以利用风格模板，生成符合模板风格的人脸图像。MethodDua

2022-03-27 19:43:50 2474 4

原创 SimSwap: An Efficient Framework For High Fidelity Face Swapping

offifical infernece code背景Deepfake式的换脸decoder的目的是将B的脸换到A的头上。但输入特征是由从B处得到，因此要求decoder学习到了A的表示。这注定了Deepfake只能对两个人之间换脸，无法实现任意人之间的换脸。MethodSimSwap其实也很简单，模型分成5个部分。一个Encoder，对target image提取特征。IIM：由多个ID block组成的残差网络。Decoder，输出具备source image 的人脸的图像，但属性来自t

2022-03-25 21:01:08 1152

原创 Relation-aware Video Reading Comprehension for Temporal Language Grounding 论文阅读笔记

来自云从，即将开源？paper是做文本查询对应视频片段的工作，即给一个文本作为query，需要知道一段视频中，满足这个query描述的起止时间和终止时间。输出的时间戳满足属于连续时间段。如上图所示，红色框中起止和终止时间就是模型的预测输出。背景众多的temporal language grounding（TLG）方法，注重整个句子和视频的关系，而忽略了每个token和moment的关系，后者是一种更加细粒度的语言信息。而且还忽略了多个候选框之间的联系，暴力的采用ranking方法，单独处理每个候选

2021-11-15 15:32:46 884

原创 Labels4Free: Unsupervised Segmentation using StyleGAN论文解读

入选ICCV2021，官方page website，暂未开源paper还是很有创意的，只是pipeline搭建起来很繁琐，还有很大的改进空间。背景styleGAN等生成对抗网络可以生成逼真的图像，生成器的中间特征已经有了前景和背景的特征学习能力，但目前没有方法研究让GAN生成图像的同时，还生成前景目标的mask。本篇paper正是为了解决该问题。作者基于两种假设前景和背景是独立的，因此独立生成然后组合，也能生成逼真的图像。生成器的中间特征学习到了前背景特征分布，是可以利用起来，用于生成前景目标

2021-09-05 23:15:21 1000

原创 transformer中的相对位置偏置的介绍（relative position bias）

前言在很多近期的transformer工作中，经常提到一个词： relative position bias。用在self attention的计算当中。笔者在第一次看到这个概念时，不解其意，本文用来笔者自己关于relative position bias的理解。笔者第一次看到该词是在swin transformer。后来在focal transformer和LG-transformer中都看到它。relative position bias(相对位置偏置)基本形式如下：Attention(Q,K

2021-08-23 14:17:56 10002 11

原创 Python多进程池的使用详解，以及结合tqdm进度条的使用

进程池是为了简化多进程任务而生。当我们有大量的任务，其处理函数都是相同的，或者只是函数参数不同。这种情况，直接生成和任务数量相同的进程是极其消耗资源的（比如用Process和for依次生成进程）。这个时候就非常适合使用进程池Poolimport multiprocessing as mpn_proc = 5pool = mp.Pool(n_proc)以上代码生成了5个进程的池子。最多可以同时运行5个相同的函数。pool类有以下4种非常常用的类型。apply：阻塞，任务其实是一个一个执行完的。

2021-08-06 22:41:20 10045 2

原创 Designing an Encoder for StyleGAN Image Manipulation论文解读

官方源码和论文地址又是基于StyleGAN用于图像编辑的又一力作!基于StyleGAN做图像编辑，首先要找到隐向量(GAN inversion)，这个过程的主流方式有两种：优化隐向量，找寻能重构出指定图像的隐向量。代表有image2style，in-domian GAN。设计一个Encoder，用于将图像映射到StyleGAN的隐空间上。代表有style-encoder。其实还有一种比较小众，利用分类器的思想，步骤也繁琐。代表有interpretGAN。IDEA目前基于styleGAN的图

2021-03-25 19:28:02 2809

原创 MAST: A Memory-Augmented Self-Supervised Tracker论文解读和代码剖析

官方代码作者开源的官方代码有一处错误，在代码剖析部分将指出。有人已经在github上提出了issue，作者一直没回应。我也是在阅读代码的时候发现了这个错误。背景VOS任务很少有使用自监督的，即在训练中不借助mask，只用frame image来训练。作者巧妙的在STM的基础上，将value换成frame自身，使用过去帧重构当前帧作为代理任务（proxy），实现自监督的vos。效果还不错，在davis val上是64的J&F。核心思想仍然是采用STM的memory bank的思想。mem

2021-01-16 14:32:27 682 2

原创 U-GAT-IT：人脸转动漫网络（非配对图像翻译）精华总结

ugatit也是基于cyclegan，需要使用gan loss， cycle loss和idt loss。除此之外，论文还提出了在G和D中使用一个分类器，训练分类器也需要一个loss，叫做cam loss，受类激活映射启发。论文的两个创新点：adaptive Layer Instance normalization（adaLIN）类似于SENet的通道注意力。只不过exciting权重是来自CAM分类器。方法G_A代表从A域往B域转换，D_A代表判别真实的B域和假的B域样本G_A(X)。另外的

2021-01-14 22:37:35 3375

原创 Visual Tracking by TridentAlign and Context Embedding论文解读和代码剖析

用于在GPU上实时的目标跟踪新方法，入选ECCV2020官方代码我认为论文有如下特点：相对于simaMask这种孪生网络，作者进行full-frame matching。不在上一帧预测位置expand一个box作为search image。直接用原图作为search的对象。因为没了时间smooth假设，没法在目标邻域截取search image。为了解决在原图存在很多相似目标的情况，作者提出tridentAlign方法，考虑到多尺度，更好的表达时序上的目标尺度变化。使用full-frame se

2020-12-25 19:51:45 483

原创 PyTorch多进程分布式训练最简单最好用的实施办法

PyTorch的distributed训练已经逐渐代替nn.Dataparallel的方式，因为官方对其有更好的支持，并且训练速度更快。大家可能知道一种启动方法，就是用torch.launch启动。但有没有被冗长的代码段惹的不开心呢。今天阿杰为大家带来一种更简单的启动方式，那就是torch.multiprocessingNote： torch.multiprocessing的启动和用torch.launch本质是一样的，就是单纯的代码量少。使用方法使用头文件import torch.multipro

2020-12-03 22:04:35 12084 3

原创 ECCV2020最佳论文RAFT：Recurrent All-Pairs Field Transforms for Optical Flow

最近做光流相关，看了一些监督和无监督自监督的光流估计。今天介绍一下RAFT（监督学习，目前sota）。官方代码背景在RAFT之前，一些有名的光流估计方法，大都遵循金字塔结构+coarse to fine的预测flow的方式。在多个尺度上预测flow，flow层层迭代，逐步细化，分辨率越来越大。作者任务这种范式存在以下问题：粗level预测错了，在后面的更细节的level不好修正对小目标快速移动的情况，很难正确预测训练迭代时间长某些迭代优化的模型，没有把权重复用。RAFT的特点:始终保

2020-12-03 18:33:25 4055 12

原创 Pytorch 多进程在单卡上测试

有些炼丹师可能机器不足，只有一张卡，然后训练完成了，想要测试的时候，受限于图像样本size不一致，不能合并到一个batch中。当然解决方案很多，但有一种更自然的办法，既使用任意分辨率的输入，同样使用多进程在单卡上并行执行数据的测试，从而加快测试速度，赶上dideline。大家都知道Pytorch官方推广大家使用分布式多卡并行计算，其原理是每个进程都使用一个GPU。那我们现在要做的就是多进程都在一个GPU上，每个进程处理一批数据，从而加快处理速度。前言模型在GPU上，Pytorch规定：多进程的启动

2020-11-28 16:26:31 6775 6

原创 PyTorch中Affine grid和grid sample这两个兄弟函数的用法

前言Affie Grid能用来实现ROI Pooling操作，在RCNN网络和STN（spatial transformation network）中常被用到。除了这些，他还有一个作用就是用来做仿射变换（affine transform）。关于仿射变化，可以参考我的另一篇博客仿射变换的基本原理还有一点，affine grid基本上是和grid sample混用的。最后需要说明的是，affine grid和grid sample这两个兄弟函数，很像opencv中的一对函数：getRotationMa

2020-11-26 15:00:29 7011 5

原创 Video Object Segmentation with Adaptive Feature Bank and Uncertain-Region Refinement论文解读和代码实践

NeurPIS2020的论文官方代码基础的框架采用STM，但是提出了自适应调整memory bank和一种新颖的refinement操作。MotivationSTM是目前半监督VOS方向的SOTA论文方法，几乎后面的论文都是在STM的基础上改进。作者分析了STM的缺点：在测试的时候，每5帧增加一个memory，如果是长序列，memory bank可能会爆显存。每隔五帧，更新一次memory bank，可能会漏过一些关键帧作者提出Adaptive feature bank(AFB)来自适应

2020-11-08 16:00:05 903

原创 Video Object Segmentation using Space-Time Memory Networks细节记录

结构细节只用resnet的前4个stage。最大stride为16。query和memory的encoder（resnet50）不共享参数。memory不仅编码了前景mask，还有除了ROI目标之外的其他目标mask。测试阶段，frame和mask要pad 0，满足能被16整除query的输入只有当前帧图像特征align是在所有时间上做的。统一做softmax；在此之前，还对attention map除以了c\sqrt cc在训练和测试阶段，对所有的目标都统一进行soft aggregat

2020-11-01 11:40:03 1075 20

原创 BMVC2020 Best Paper: Delving Deeper into Anti-aliasing in ConvNets论文解读

官方代码背景虽然convNets具有平移不变形，但貌似这种平移不变性还不是特别理想。之前的一些研究发现，把图像在不同的位置crop，对裁剪的图像预测，当crop位置不同，图像得到的分类概率也不一样。对于其他下游任务，如检测，分割，平移都会带来一些错误的预测（aliasing）。此篇论文目的就是减弱这种因平移带来的错判问题（anti-aliasing）。方法作者首先从信息论奈奎斯特采样率来引入话题。仅仅把第一行的二进制右移一位，然后采样，得到的数值能发生很大的差异。因此，下采样对信息是有破坏作用的

2020-10-03 20:23:37 1019

原创 SFNet: Learning Object-aware Semantic Correspondence论文解读

这是CVPR19年的论文，通过语义流找寻两张图像中相同类别的目标（但不同实例）的对应点。官方代码首先说明两点，不同于一些特征点匹配的方法，该方法是找不同场景下（两种图像）中具有相同类别的目标之间的对应点。基于特征点匹配，比如superglue，是在同一场景下（视频的不同帧）中找寻点对点的关系。但SFNet是不同场景下。比如下图，前两列给出两个场景，都包含人物和摩托车。后两张就是语义相似的点到点的连线。简单解释语义流SFNet不是第一篇提到语义流的文章。语义流自然和语义相关。在SFNet中，通过特

2020-10-02 20:05:44 5977

原创记录一下Boost.python在Linux上的编译安装 & DAVIS数据集的temporal stability指标的使用

出于项目使用VOS领域的temporal stability指标的需要，先要配置Boost.python编译C代码，得到tstab.so文件，才能使用这个指标的计算代码。配置Boost.python首先去官网下载Boost源码，然后解压。进入解压的目录(boost_1_74_0)，所用的版本是1.74.0现在一般都使用的是Py3.x，所以要设置用哪个python版本和boost.python绑定。通过which命令查看python的位置which python/home/yj/anaco

2020-09-09 20:05:21 495 6

原创 LeetCode: 214.最短回文串 &1312.让字符串成为回文串的最少插入次数

214.最短回文串题目：给定一个字符串 s，你可以通过在字符串前面添加字符将其转换为回文串。找到并返回可以用这种方式转换的最短回文串。注意：要求在字符串前面加入一个字符串，使得新字符串是回文，且长度是最短的。题目也可以改成从尾部加入解法其实目的就是在s中找到一个以头部字符为起点的最长回文串s1，然后s2（s中不是s1的部分）翻转贴到s的前面就完事了。但是复杂度是O(n**2)，有一种马拉车算法能到O(N)。这里不介绍。class Solution: def shortestPali

2020-09-06 20:28:03 952

原创目标检测常用框回归loss总结

本文按照时间线路，总结目标检测常用的框回归loss函数。顺序依次为：smooth L1 loss， IOU loss，GIOU loss， DIOU loss， CIOU lossmmdetection box regression losses（click here）Smooth l1 loss最初由 fast rcnn提出。其公式如下：smoothl1(x)={0.5x2if ∣x∣<1∣x∣−0.5if ∣x∣>=1smooth_{l1}(x) = \begin{cases} 0

2020-08-29 14:52:23 1405

原创 LeetCode:116. 填充每个节点的下一个右侧节点指针 & 117 填充每个节点的下一个右侧节点指针||

这两道题是相关系的。给定一个完美二叉树，其所有叶子节点都在同一层，每个父节点都有两个子节点。二叉树定义如下：struct Node { int val; Node *left; Node *right; Node *next;}填充它的每个 next 指针，让这个指针指向其下一个右侧节点。如果找不到下一个右侧节点，则将 next 指针设置为 NULL。初始状态下，所有 next 指针都被设置为 NULL。I 和 II 的区别在于给定的二叉树是否是完美二叉树还是任意二叉树。如果是

2020-08-15 20:54:42 158

原创 LeetCode: 473.火柴拼正方形

题目：还记得童话《卖火柴的小女孩》吗？现在，你知道小女孩有多少根火柴，请找出一种能使用所有火柴拼成一个正方形的方法。不能折断火柴，可以把火柴连接起来，并且每根火柴都要用到。输入为小女孩拥有火柴的数目，每根火柴用其长度表示。输出即为是否能用所有的火柴拼成正方形思路我看到题目，很快就想到了等分k份数组这道题目.两道题目几乎就是一样的。首先要对nums逆序排序（非常重要），因为这样回溯更快。优选选择长度大的火柴，很快就能得出火柴被分配到第k个边是否可以。class Solution: def

2020-08-10 22:37:07 235

原创主成分分析（PCA）证明推导

pca和svd都是降维常用的方法。今天回顾一下pca的原理。motivation现在有m个数据，每个样本有n个属性值，样本用矩阵表示为X∈Rn×mX \in R^{n\times m}X∈Rn×m。每一列是一个样本。方便接下来的讲述，我们把XXX默认是做过零均值化的。那么X的属性的协方差矩阵C等于：C=1mXXT∈Rn×nC=\frac{1}{m}XX^T \in R^{n\times n}C=m1XXT∈Rn×n我们想用一组新的坐标表示X，同时新的坐标数目更少（属性更少）。且在这些坐标下，X

2020-08-05 15:27:26 2354

原创 LeetCode:61.旋转链表

给定一个链表，旋转链表，将链表每个节点向右移动 k 个位置，其中 k 是非负数。示例 1:输入: 1->2->3->4->5->NULL, k = 2输出: 4->5->1->2->3->NULL解法首先把尾巴和头部连在一起，顺便求出总长leng，leng - k % leng 就是新的链表的头部位置# Definition for singly-linked list.# class ListNode:# def __in

2020-08-03 22:00:05 135

原创 LeetCode: 435.无重叠区间

题目：给定一个区间的集合，找到需要移除区间的最小数量，使剩余区间互不重叠。这道题和合并区间有点类似。但合并区间要求求出合并之后的区间集合。这道题是要你删除最小数量的一些区间，使得剩下的区间不重合。解法暴力：我们当然可以遍历所有不重叠的区间组合，然后用删除前总集合数目-剩下的区间数目，就是删除的数目。取最小就行了（超时）动态规划（超时）。我们先对每个集合的第一个地址排序（一般涉及区间都是先按第一个元素或者第二个元素排序）。dp[i]记录前i个区间使之不重叠的最小删除区间数目。class

2020-08-02 11:15:30 375

原创 NMS和IOU代码解读（可以直接使用）

NMS和IOU是目标检测常用技术。在anchor-based的检测任务中，训练时需要IOU，测试时需要NMS，而NMS内部就要有IOU。本文先分析IOU的原理，公式，以及代码实验，最后在讲解NMS的代码。IOU（detection）现在有两个框A和B。A=【ax1, ay1, ax2, ay2] 】，B=【bx1, by1, bx2, by2】。接下来想统计A和B的交集面积， A自己的面积和B自己的面积。三个待求值里面最关键的就是怎么求交集面积。假设两种情况。 A和B是相交的，存在交集。这个时候

2020-07-29 13:36:53 1806 1

原创 PyTorch中grid_sample的使用方法

grid_sample底层是应用双线性插值，把输入的tensor转换为指定大小。那它和interpolate有啥区别呢？interpolate是规则采样（uniform)，但是grid_sample的转换方式，内部采点的方式并不是规则的，是一种更为灵活的方式。torch.nn.functional.grid_sample(input, grid, mode=‘bilinear’, padding_mode=‘zeros’)input : 输入tensor， shape为 [N, C, H_in,

2020-07-24 13:40:55 49824 19

原创深度学习常用优化器学习

万丈高楼从地起。我们日常直接使用优化器，但各类优化器有什么不同，各有什么特别，我一直没主动去了解。今天就来学习一下，记录并做笔记。SGD现在的SGD普遍指的是mini-batch SGD。最简单的优化器，即参数往梯度下降的最快方向更新。θ−=lr×grad\theta -= lr \times gradθ−=lr×grad梯度下降法一个很明显的问题就是，当batchsize比较小的时候，寻找最优值得速度很慢，因为方向基本呈震荡型。就像是黑暗中摸着手电筒探索道路。如果batchsize比较小，则优

2020-07-17 21:41:07 691

原创 LeetCode: 560. 和为k的子数组

给定一个整数数组和一个整数 k，你需要找到该数组中和为 k 的连续的子数组的个数。暴力法直观的解法是暴力法，但暴力法的复杂度是N3，前两重for循环是快慢指针遍历每一个子数组，第三个for循环是求和。改进的暴力法：巧用前缀和前缀和问题已经不止出现一次了。如果我们记录了前i个数字的和，那么求(j,i)这一段的和就只用一次减法。我们可以把时间复杂度降低至N2.哈希表： On的解法如果我们用哈希表记录前缀和出现的次数，如果pre[i] -k出现在哈希表中，其实我们就找到了和为k的子数组，且次数就是c

2020-07-16 23:02:03 163

原创详解Python修饰器（语法糖）

Python的修饰器（decorator）是一个非常强大的功能，一种优秀的设计模式，将重复的内容抽象出来，赋予一个函数其他的功能，但又不去改变函数自身。使得代码极其简洁，易于维护。为了能够初步了解修饰器的作用，我们先从一个简单的例子开始。1.simple example现在有很多个函数，我们需要得到每个函数的运行时间。为了简单描述，我只用一个函数举例子。函数功能很简单def foo(): print('hello')现在想给这个函数计算一下执行时间def foo(): t1 =

2020-07-15 14:30:51 10021 7

原创 LeetCode: 深度优先遍历搜索&广度搜索专题

1091.二进制矩阵中的最短路径题目：一个格子，填充0或者1.只能走0的位置。从左上角到右下角最短的路径长度。如果没有这样的路径，返回-1。可以从8个方向走。思路：最短路径的问题，如迷宫啦，都是BFS。同时要标记走过的路径，不要重复走了；从（0,0）走，先走一步，把8个方向都做一遍，同时新的地方的值为0，则是合法的位置，入队。在入队之前，判断一下是否已经走到终点了。from collections import dequeclass Solution: def shortest

2020-07-07 18:03:19 272

FCOS: Fully Convolutional One-Stage Object Detection论文解读的ppt

Dr-Gan源码-Pytorch

电子科技大学第一届大象分形开源代码

空空如也