咆哮的大叔-CSDN博客

原创各式各样的轮子们

有时候直接进行resize会有形变，所以想到这样的方式，同比例缩放，然后补0。torchvision中是用的PIL。在推理时需要用opencv。

2023-08-29 10:25:19 164

原创音频降噪之人声分离

集成目前最先进的从音频文件中分离人声的源分离模型。本工程，将Ultimate Vocal Remover GUI v5.5.1界面工具，改写成可以在服务器端批量推理的工具。界面仓库地址：https://github.com/Anjok07/ultimatevocalremovergui。

2023-07-24 11:47:35 2464 2

开口说话到，发出音，大概有13，14，12,20,帧左右的误差，也就是说有0.8S左右的误差，所以建议，如果取无声音频，end要往前挪10帧。WhisperX：跑完：143S ，11段前，对10段，18段中，对17段，5段后，对5段。一句话说完，从没有声音到完全闭上嘴，大概有5帧，8帧，10帧左右，大概有0.4S左右的误差。Tiny: 跑完：142S ，11段前，对0段，18段中，对10段，5段后，对5段。Large:跑完：941S，11段前，对0段，18段中，对2段，5段后，对4段。

2023-07-18 16:53:20 1810

原创 VS上配置docker步骤记录

docker images. #列出本地主机上的镜像列表。它会显示镜像的相关信息，如镜像ID、仓库名称、标签、大小等。docker images. #列出本地主机上的镜像列表。它会显示镜像的相关信息，如镜像ID、仓库名称、标签、大小等。docker ps #列出正在运行的容器。它会显示容器的相关信息，如容器ID、镜像名称、创建时间、状态等。docker ps #列出正在运行的容器。它会显示容器的相关信息，如容器ID、镜像名称、创建时间、状态等。#将当前用户添加到docker用户组中。

2023-07-03 14:15:34 1268

原创 Wav2Lip原理以及训练

常规SyncNet：功能：音频和嘴唇同步实质：判断音频和唇形在某个共同参数空间下的相似性。网络结构：一种伪孪生网络结构，分别提取嘴形特征和音频特征，然后通过对比损失计算两者之间的距离。

2023-06-26 21:01:13 11243 14

原创生成式人脸修复增强调研

图像增强修复

2023-05-09 20:43:00 2817

原创问答系统（QA）调研

问答系统调研

2023-02-24 12:12:50 1957

原创 wav2vec 2.0：一种自监督的语音识别方法

wav2vec 2.0算法梳理

2023-02-20 17:40:31 1727

原创 Mnn 模型转化指南

MNN模型转化以及量化的方法指南

2023-02-07 20:47:38 940

原创 U-Net概述

分割概要

2023-02-06 20:33:46 231

原创《Towards Fast, Accurate and Stable 3D Dense Face Alignment 》3DDFA-V2论文研读和工程实现

脸型问题的一个方案

2022-10-13 19:51:55 1371 2

原创《MeInGame: Create a Game Character Face from a Single Portrait 》论文解读

《MeInGame》

2022-08-31 16:53:55 1620

原创高保真数字人头《High-Fidelity 3D Digital Human Head Creation from RGB-D Selfies》

3D人头形象

2022-06-23 16:13:28 1870 3

原创 Interpretable Convolutional Neural Networks研读

（感觉跟上一篇看的可解释cnn没什么差别，都是在高层的卷积层中的每个卷积核加一个loss，查看代码，所加的loss就logistic或者softmax，正在学习中，如果理解有误的地方，敬请谅解并欢迎指出）摘要：为了解释高层卷积层CNN中的知识表示，本文在传统CNN基础上提出可解释CNN。可解释CNN,能够在高层卷积层的每个卷积核代表一个特定的目标部件（比如猫头，猫脚等）.可解释CNN，使用传统的训练集训练，不作任何部件标注，能够在学习阶段给高层卷积层的卷积核自动分配每个特定部件。可以将可解释CNN应用在

2021-01-07 15:31:53 1110

原创 Interpretable CNNs for Object Classification 研读

摘要：在分类任务中，本文提出一个在深度神经网络中学习可解释性CNN的方法。在此方法中，在深层的可解释性CNN中，每个核可以解码目标的特定部件。我们使用常规数据集，不需要对数据额外的标注或者提供纹理信息作为监督训练。我们的方法在学习过程中，能够自动对高层卷积网络的每个核分配一个目标部件类别。可解释性CNN中，显性知识表示可以帮助人们理解CNN的内部逻辑结构，即对于一张输入图像CNN提取的什么模式用来预测。实验表示，可解释性卷积网络比传统卷积更加有语义意义。背景几年来，卷积网络在不同的领域中都取得很优异的

2021-01-04 11:17:39 789

原创 Centernet 个人理解笔记

一，Centernet骨干网络之DLASeg1，DLA34-base结构代码块：self.level0 = self._make_conv_level( channels[0], channels[0], levels[0])self.level1 = self._make_conv_level( channels[0], channels[1], levels[1], stride=2)self.level2 = Tree(levels[2],

2020-12-21 16:56:11 2439 7

原创关于yolov5评价指标之精确率和召回率实现

一，原理公式主要的事说三遍，精确率和准确率不是一个东西！精确率和准确率不是一个东西！精确率和准确率不是一个东西！我们平时在衡量一个模型的性能的时候，通常用的是精确率和召回率。TP是正样本预测出正样本数量。FP是负样本预测出正样本数量。FN是正样本预测出负样本数量。二，对于多目标检测任务，怎样自己码代码求precision和recall？（前提必须有标注信息。）1，思路解析：对于多目标检测任务，TP（true positive）表示预测出的正确的框，即通过模型预测出的框，逐个与该图像的标注框求

2020-12-16 16:43:30 17964 10

原创 YOLOV5解析

网络由三个主要组件组成：1）Backbone：在不同图像细粒度上聚合并形成图像特征的卷积神经网络。2）Neck：一系列混合和组合图像特征的网络层，并将图像特征传递到预测层。3）Head：对图像特征进行预测，生成边界框和并预测类别。对于YOLOV5，无论是V5s，V5m，V5l还是V5x其Backbone，Neck和Head一致。唯一的区别在与模型的深度和宽度设置。总结构框架：下面逐一解析：1)Backbone先代码，有个大概脉络：# YOLOv5 backbonebackbone:

2020-10-13 15:38:05 53123 13

原创相关滤波类跟踪概述（不断更新）

一：深度特征+相关滤波代表：SRDCF, C-COT, ECO , DeepSRDCF, STRCF, UPDATUPDATUPDAT在ECO基础上改进。论文贡献：①以经典深度学习网络作为backbone，深浅特征区别对待。（浅层特征使用HOG+CN，深层网络使用ResNet 50中的第四个Conv_block输出的feature）论文列出两种trick分别对深层和浅层的影响。（一）Data Augmentation。浅层特征主要提取文理颜色等特征，对外观形变等影响很大，深层特征主要提取语义

2020-06-05 16:56:15 1185

原创 siamRPN论文理解与复现

**论文地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf论文讲解：siamRPN的网络结构由两部分组成，siam+RPNSiam部分：主要功能是提取特征RPN部分：功能为产生候选框以及二分类vectorRPN流程：①从主干网络得到template Frame 特征向量和detection Frame特征向量之后，对这两组特征向量分别使

2020-05-31 18:25:18 6469 16

原创 FairMOT理解与实现

理解：（1）概述：多目标跟踪，单纯跟踪能力不足以完成任务，所以，不同于单目标跟踪，这里加入了检测任务，可以将多目标跟踪任务看成为目标检测+重识别任务。（2）论文网络结构：文中网络结构分3大部分：网络结构在：.\src\lib\models\networks\pose_dla_dcn.py中。①：Encoder-decoder 部分网络中，这是backbone network部分，主干网络为DLA-34(34层的DLA),最终input(HxW)->output(H/4xW/4)Enco

2020-05-28 18:29:19 12979 31

原创以代码的脉络理解KCF论文思想

以代码的脉络理解KCF论文思想1：void init(const cv::Rect &roi, cv::Mat image);第一帧图像用来初始化。里面有两个重要步骤， cv::Mat getFeatures(const cv::Mat & image, bool inithann, float scale_adjust = 1.0f);和void train(cv::Mat ...

2019-12-26 12:44:13 422

原创细粒度分析--RACNN

论文：https://ieeexplore.ieee.org/document/8099959代码：https://github.com/11-626/RA-CNNCVPR2017的Oral文章。概述：在multiple scales上，以类似cascade network的形式使得网络相互增强学习，进行基于region 的特征表达。横向：传统vgg分类网络，用来classificati...

2019-08-24 15:33:51 2307

原创细粒度分析--WS-DAN

论文：https://arxiv.org/pdf/1901.09891.pdf代码：https://github.com/GuYuc/WS-DAN.PyTorch论文主要训练流程及思想为：（1）生成attention maps;（2）Bilinear Attention Pooling(BAP); （3）loss设计（1）生成attention maps①首先使用Inceptionv3...

2019-08-09 10:47:26 3717 5

原创 Pyramid Scene Parsing Network理解与复现

代码：https://github.com/hszhao/PSPNet论文：https://arxiv.org/abs/1612.01105论文理解：文章针对的问题：（1）Mismatched Relationship关系匹配不明确：很多分割场景中，单独看某个目标很容易误分割，需要将目标放在全图中才能确定目标。比如，上图第一行中水上面的目标，应该是coat，而不会是car。即需要结合上下...

2019-07-26 17:31:48 612

原创 Mask CNN环境搭配与模型训练中踩坑记录

（一）搭建caffe2版Caffe2已合并到pytorch框架里了，所以搭建caffe2就得搭建pytorch。在搭建的过程中，各种坑，后来定位到才知道，pytorch，要求cudnn7+，而cudnn7+要求对应的cuda在9+，然而，升级cuda，对整个服务器的影响较大，为了不影响其他人的使用，放弃caffe2版本的搭建。所以在搭环境前，一定要看好需要的版本号。（二）搭建tensorf...

2019-03-28 11:17:08 1326 7

原创视频理解研究

相比较于视频研究，基于深度学习的图像这块，已经取得很不错的成果。目前，在基于深度学习的视频研究这块，有一下几种方式：（1）逐帧处理融合思想：逐帧提取图像特征，然后融合深度特征图。弊端：简单粗暴带来的弊端有：前后帧之间存在大量信息冗余，冗余计算量太大。（2）ConvLSTM这种方法主要依赖于LSTM挖掘每帧之间的时序关系，计算量很大，很难训练，不常用在视频分析中。（3）主流的研究方向基本...

2018-12-18 11:33:33 7626

原创 Real-world Anomaly Detection in Surveillance Videos解读与实现

解读：（1）文章思想：此文是在弱监督下训练的，具体而言，就是在一段视频中，只关心是否有异常事件的存在，而不关心具体的异常类型以及异常发生在哪些帧内。基于此，文章的主要实现过程为：首先，使用C3D提取视频特征，文章以32帧为一个bag进行处理。C3D提取视频时空特征是由Facebook团队提出来的。此文章使用公开的C3D预训练模型提取视频特征，然后将提取好的特征拿出来，送到三层全连接层中...

2018-12-03 10:51:41 9053 77

原创 Caffe 各层解析

①Data数据层是所有模型的最底层，主要有transform_param{}，与data_param{}两中参数设置，data_param{}是数据集来源与训练批大小一些的设置，这个因人而异，根据自己实际情况设置好就行。其中，batch_size是根据训练图像大小，GPU使用情况设置的。transform_param{}是数据预处理的一些设置，一般有：mirror，表示是否开启镜像，crop_s...

2018-09-18 16:18:30 1222

原创深度学习综述之分类（适合深度学习面试者看）

目前图像方向，主要用深度学习进行分类，定位（回归），检测，那么她三主要区别是什么呢？ ①分类：是什么？ ②定位：在哪里？是什么？（单目标） ③检测：在哪里？分别是什么？（多目标）根据不同的任务，我们会选择不同的网络进行训练。首先，分类：①前辈且经久不衰的分类网络：GoogleNet,VGGNet,ResNet（1）GoogleNet 成就：2014年冠军，错误率6.66%。...

2018-09-14 15:39:17 6787

原创稀疏自编码

1 怎样理解稀疏性？为什么要加上稀疏性限制？目的是什么？当神经网络遇到什么问题时需要加上稀疏性？答：自编码神经网络是一种无监督学习算法，它使用BP算法，让目标值等于输入值（O=I）。那么问题来了，为什么要这样做？直接用I不就好了？的确，我们并不关心O，我们关心的是中间层S。中间层S有降维作用，但这种降维与PCA不同，PCA是提取数据的主要特征，直接去掉次要特征，而这里的S层是学习了数

2017-08-18 15:02:53 445

原创 ResNet

1网络结构： ResNet将网络往深里设计的思想发挥到了极致，据说有一千多层的，在ResNet网络中，深刻体会到没有最深，只有更深！那么问题来了，Resnet是怎么做到在这么极深的网络下，训练成功的？因为我们知道，随着网络层数的增加，需要训练的网络参数将不断增加，训练强度将大大提升，对于这种上千层的网络，面临的已经不仅仅只有过拟合的问题了，还有Degradation的问题。从Resnet的

2017-08-17 21:29:34 653

原创 VGGNet

1 网络结构：以224*224输入图片为例：感觉VGGNet就是加深版的AlexNet，都是卷积与池化的叠加，最后再加两层全连接，然后softmax输出。VGGNet有5段卷积，每段卷积由2~3个卷积层后加一个最大池化组成。卷积核的数量也随着层数的增加而增多。VGGNet也沿用了AlexNet数据增强的方法（Multi-Scale）防止模型过拟合。相较与AleNet,VGGNet最大

2017-08-17 21:13:42 5372

原创 win10+python3.5+pycharm5.0+CPU 安装tensorflow

1首先安装python3.5(一定要3.5.x),pycharm5.0 python3.5：一路next就行（最好把add python3.5 to PATH勾上，免得到时候自己手动添加到系统环境变量，麻烦），这里有位道友写的很详细，详见：http://www.cnblogs.com/Alier/p/6362652.html 然后在命令符中输入python，出现python版本信息就说明你的py

2017-07-13 20:26:50 4830 1

原创 VS+Opencv 新库导入过程（以AVS视频解码库导入为例）

环境：VS2010+opencv2410 这里只要VS与Opencv能配置起来就行，在Opencv配置VS的时候，不是所有opencv版本与所有vs版本都能配置成功的。安装好Opencv之后，在安装目录下的opencv/build/x86(这个是跟你电脑系统版本有关的，如果你的电脑是64位的，就该选择x86，同理，32位的该选x64)，在这个文件夹里，找与你vs匹配的文件，比如：vc10—>vs2

2017-06-05 10:20:35 2230

原创 Win10+python2.7.6+opencv2.4.13环境下，调用cv2.VideoCapture（）失败的解决方法

1.首先将 F:\opencv\sources\3rdparty\ffmpeg （看你的opencv装在哪的，写好路径就行，我的是装在F盘的）添加到系统目录。 2.然后将F:\opencv\sources\3rdparty\ffmpeg下的opencv_ffmpeg.dll 和opencv_ffmpeg_64.dll 重命名为opencv_ffmpeg2413.dll 和 opencv_ffm

2017-05-19 20:35:26 1507

原创手推logistic

用x1,x2,...,xnx_1,x_2,...,x_n表示每个样本的n个特征，在每个特征前面加一个参数，就可以估计整体样本特征，下面我们就构造一个线性函数： h(x)=hθ(x)=θ0+θ1x1+θ2x2+...+θnxn=θTXh(x)=h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n=\theta^TX 然后，使用si

2017-04-23 15:26:53 554

原创手推adaBoost

①对所有训练集初始化相等的样本权重 D=[d1,d2,...dn]D=[d_1,d_2,...d_n] n为数据集的总数 ②将带有初始化权重的数据集送入基本分类器中训练fm(X)f_m(X)，计算分类器误差率 em=p(fm(xi)≠yi)=∑ni=1(fm(xi)≠yi)ne_m=p(f_m(x_i)\neq y_i)=\frac{\sum_{i=1}^n(f_m(x_i)\neq

2017-04-23 14:22:01 503

原创手推SVM

1 线性分类 1.1 线性可分支持向量机定义：给定线性可分训练数据集，通过间隔最大化学习得到的分隔面为： ① wx+b=0wx+b=0 则对应的分类决策函数为f(x)=sign(wx+b)f(x)=sign(wx+b)，称为线性可分支持向量机。如下图所示，（我们假设，分隔面上方的红色样本表示正样本，分隔面下方的蓝色样本为负样本）：对于任何样本x，中间红色的的分隔面为

2017-04-22 15:00:29 1263

原创近邻法

1 最近邻（NN）最近邻的思想：计算测试样本到所有已知样本之间的距离，将最近邻者的类别作为测试样本的类别标签。然而，最近邻的决策存在很大的风险。如下图所示，矩形表示待测样本，如果按照最近邻的决策，待测样本矩形应该与三角新是一类，可是，如果将离矩形最近的那个三角形去掉呢，那么圆形就是矩形的类别，所以，这种决策对已知样本的数据集太过敏感。 2 K近邻（KNN）（1）思想 KNN是最

2017-04-17 13:41:12 663