自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (16)
  • 问答 (4)
  • 收藏
  • 关注

原创 各式各样的轮子们

有时候直接进行resize会有形变,所以想到这样的方式,同比例缩放,然后补0。torchvision中是用的PIL。在推理时需要用opencv。

2023-08-29 10:25:19 164

原创 音频降噪之人声分离

集成目前最先进的从音频文件中分离人声的源分离模型。本工程,将Ultimate Vocal Remover GUI v5.5.1界面工具,改写成可以在服务器端批量推理的工具。界面仓库地址:https://github.com/Anjok07/ultimatevocalremovergui。

2023-07-24 11:47:35 2464 2

原创 字幕切分视频

开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。

2023-07-18 16:53:20 1810

原创 VS上配置docker步骤记录

docker images. #列出本地主机上的镜像列表。它会显示镜像的相关信息,如镜像ID、仓库名称、标签、大小等。docker images. #列出本地主机上的镜像列表。它会显示镜像的相关信息,如镜像ID、仓库名称、标签、大小等。docker ps #列出正在运行的容器。它会显示容器的相关信息,如容器ID、镜像名称、创建时间、状态等。docker ps #列出正在运行的容器。它会显示容器的相关信息,如容器ID、镜像名称、创建时间、状态等。#将当前用户添加到docker用户组中。

2023-07-03 14:15:34 1268

原创 Wav2Lip原理以及训练

常规SyncNet:功能:音频和嘴唇同步实质:判断音频和唇形在某个共同参数空间下的相似性。网络结构:一种伪孪生网络结构,分别提取嘴形特征和音频特征,然后通过对比损失计算两者之间的距离。

2023-06-26 21:01:13 11243 14

原创 生成式人脸修复增强调研

图像增强修复

2023-05-09 20:43:00 2817

原创 问答系统(QA)调研

问答系统调研

2023-02-24 12:12:50 1957

原创 wav2vec 2.0:一种自监督的语音识别方法

wav2vec 2.0算法梳理

2023-02-20 17:40:31 1727

原创 Mnn 模型转化指南

MNN模型转化以及量化的方法指南

2023-02-07 20:47:38 940

原创 U-Net概述

分割概要

2023-02-06 20:33:46 231

原创 《Towards Fast, Accurate and Stable 3D Dense Face Alignment 》3DDFA-V2论文研读和工程实现

脸型问题的一个方案

2022-10-13 19:51:55 1371 2

原创 《MeInGame: Create a Game Character Face from a Single Portrait 》论文解读

《MeInGame》

2022-08-31 16:53:55 1620

原创 高保真数字人头《High-Fidelity 3D Digital Human Head Creation from RGB-D Selfies》

3D人头形象

2022-06-23 16:13:28 1870 3

原创 Interpretable Convolutional Neural Networks研读

(感觉跟上一篇看的可解释cnn没什么差别,都是在高层的卷积层中的每个卷积核加一个loss,查看代码,所加的loss就logistic或者softmax,正在学习中,如果理解有误的地方,敬请谅解并欢迎指出)摘要:为了解释高层卷积层CNN中的知识表示,本文在传统CNN基础上提出可解释CNN。可解释CNN,能够在高层卷积层的每个卷积核代表一个特定的目标部件(比如猫头,猫脚等).可解释CNN,使用传统的训练集训练,不作任何部件标注,能够在学习阶段给高层卷积层的卷积核自动分配每个特定部件。可以将可解释CNN应用在

2021-01-07 15:31:53 1110

原创 Interpretable CNNs for Object Classification 研读

摘要:在分类任务中,本文提出一个在深度神经网络中学习可解释性CNN的方法。在此方法中,在深层的可解释性CNN中,每个核可以解码目标的特定部件。我们使用常规数据集,不需要对数据额外的标注或者提供纹理信息作为监督训练。我们的方法在学习过程中,能够自动对高层卷积网络的每个核分配一个目标部件类别。可解释性CNN中,显性知识表示可以帮助人们理解CNN的内部逻辑结构,即对于一张输入图像CNN提取的什么模式用来预测。实验表示,可解释性卷积网络比传统卷积更加有语义意义。背景几年来,卷积网络在不同的领域中都取得很优异的

2021-01-04 11:17:39 789

原创 Centernet 个人理解笔记

一,Centernet骨干网络之DLASeg1,DLA34-base结构代码块:self.level0 = self._make_conv_level( channels[0], channels[0], levels[0])self.level1 = self._make_conv_level( channels[0], channels[1], levels[1], stride=2)self.level2 = Tree(levels[2],

2020-12-21 16:56:11 2439 7

原创 关于yolov5评价指标之精确率和召回率实现

一,原理公式主要的事说三遍,精确率和准确率不是一个东西!精确率和准确率不是一个东西!精确率和准确率不是一个东西!我们平时在衡量一个模型的性能的时候,通常用的是精确率和召回率。TP是正样本预测出正样本数量。FP是负样本预测出正样本数量。FN是正样本预测出负样本数量。二,对于多目标检测任务,怎样自己码代码求precision和recall?(前提必须有标注信息。)1,思路解析:对于多目标检测任务,TP(true positive)表示预测出的正确的框,即通过模型预测出的框,逐个与该图像的标注框求

2020-12-16 16:43:30 17964 10

原创 YOLOV5解析

网络由三个主要组件组成:1)Backbone:在不同图像细粒度上聚合并形成图像特征的卷积神经网络。2)Neck:一系列混合和组合图像特征的网络层,并将图像特征传递到预测层。3)Head:对图像特征进行预测,生成边界框和并预测类别。对于YOLOV5,无论是V5s,V5m,V5l还是V5x其Backbone,Neck和Head一致。唯一的区别在与模型的深度和宽度设置。总结构框架:下面逐一解析:1)Backbone先代码,有个大概脉络:# YOLOv5 backbonebackbone:

2020-10-13 15:38:05 53123 13

原创 相关滤波类跟踪概述(不断更新)

一:深度特征+相关滤波代表:SRDCF, C-COT, ECO , DeepSRDCF, STRCF, UPDATUPDATUPDAT在ECO基础上改进。论文贡献:①以经典深度学习网络作为backbone,深浅特征区别对待。(浅层特征使用HOG+CN,深层网络使用ResNet 50中的第四个Conv_block输出的feature)论文列出两种trick分别对深层和浅层的影响。(一)Data Augmentation。浅层特征主要提取文理颜色等特征,对外观形变等影响很大,深层特征主要提取语义

2020-06-05 16:56:15 1185

原创 siamRPN论文理解与复现

**论文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf论文讲解:siamRPN的网络结构由两部分组成,siam+RPNSiam部分:主要功能是提取特征RPN部分:功能为产生候选框以及二分类vectorRPN流程:①从主干网络得到template Frame 特征向量和detection Frame特征向量之后,对这两组特征向量分别使

2020-05-31 18:25:18 6469 16

原创 FairMOT理解与实现

理解:(1)概述:多目标跟踪,单纯跟踪能力不足以完成任务,所以,不同于单目标跟踪,这里加入了检测任务,可以将多目标跟踪任务看成为目标检测+重识别任务。(2)论文网络结构:文中网络结构分3大部分:网络结构在:.\src\lib\models\networks\pose_dla_dcn.py中。①:Encoder-decoder 部分网络中,这是backbone network部分,主干网络为DLA-34(34层的DLA),最终input(HxW)->output(H/4xW/4)Enco

2020-05-28 18:29:19 12979 31

原创 以代码的脉络理解KCF论文思想

以代码的脉络理解KCF论文思想1:void init(const cv::Rect &roi, cv::Mat image);第一帧图像用来初始化。里面有两个重要步骤, cv::Mat getFeatures(const cv::Mat & image, bool inithann, float scale_adjust = 1.0f);和void train(cv::Mat ...

2019-12-26 12:44:13 422

原创 细粒度分析--RACNN

论文:https://ieeexplore.ieee.org/document/8099959代码:https://github.com/11-626/RA-CNNCVPR2017的Oral文章。概述:在multiple scales上,以类似cascade network的形式使得网络相互增强学习,进行基于region 的特征表达。横向:传统vgg分类网络,用来classificati...

2019-08-24 15:33:51 2307

原创 细粒度分析--WS-DAN

论文:https://arxiv.org/pdf/1901.09891.pdf代码:https://github.com/GuYuc/WS-DAN.PyTorch论文主要训练流程及思想为:(1)生成attention maps;(2)Bilinear Attention Pooling(BAP); (3)loss设计(1)生成attention maps①首先使用Inceptionv3...

2019-08-09 10:47:26 3717 5

原创 Pyramid Scene Parsing Network理解与复现

代码:https://github.com/hszhao/PSPNet论文:https://arxiv.org/abs/1612.01105论文理解:文章针对的问题:(1)Mismatched Relationship关系匹配不明确:很多分割场景中,单独看某个目标很容易误分割,需要将目标放在全图中才能确定目标。比如,上图第一行中水上面的目标,应该是coat,而不会是car。即需要结合上下...

2019-07-26 17:31:48 612

原创 Mask CNN环境搭配与模型训练中踩坑记录

(一)搭建caffe2版Caffe2已合并到pytorch框架里了,所以搭建caffe2就得搭建pytorch。在搭建的过程中,各种坑,后来定位到才知道,pytorch,要求cudnn7+,而cudnn7+要求对应的cuda在9+,然而,升级cuda,对整个服务器的影响较大,为了不影响其他人的使用,放弃caffe2版本的搭建。所以在搭环境前,一定要看好需要的版本号。(二)搭建tensorf...

2019-03-28 11:17:08 1326 7

原创 视频理解研究

相比较于视频研究,基于深度学习的图像这块,已经取得很不错的成果。目前,在基于深度学习的视频研究这块,有一下几种方式:(1)逐帧处理融合思想:逐帧提取图像特征,然后融合深度特征图。弊端:简单粗暴带来的弊端有:前后帧之间存在大量信息冗余,冗余计算量太大。(2)ConvLSTM这种方法主要依赖于LSTM挖掘每帧之间的时序关系,计算量很大,很难训练,不常用在视频分析中。(3)主流的研究方向基本...

2018-12-18 11:33:33 7626

原创 Real-world Anomaly Detection in Surveillance Videos解读与实现

解读:(1)文章思想:此文是在弱监督下训练的,具体而言,就是在一段视频中,只关心是否有异常事件的存在,而不关心具体的异常类型以及异常发生在哪些帧内。基于此,文章的主要实现过程为:首先,使用C3D提取视频特征,文章以32帧为一个bag进行处理。C3D提取视频时空特征是由Facebook团队提出来的。此文章使用公开的C3D预训练模型提取视频特征,然后将提取好的特征拿出来,送到三层全连接层中...

2018-12-03 10:51:41 9053 77

原创 Caffe 各层解析

①Data数据层是所有模型的最底层,主要有transform_param{},与data_param{}两中参数设置,data_param{}是数据集来源与训练批大小一些的设置,这个因人而异,根据自己实际情况设置好就行。其中,batch_size是根据训练图像大小,GPU使用情况设置的。transform_param{}是数据预处理的一些设置,一般有:mirror,表示是否开启镜像,crop_s...

2018-09-18 16:18:30 1222

原创 深度学习综述之分类(适合深度学习面试者看)

目前图像方向,主要用深度学习进行分类,定位(回归),检测,那么她三主要区别是什么呢? ①分类:是什么? ②定位:在哪里?是什么?(单目标) ③检测:在哪里?分别是什么?(多目标) 根据不同的任务,我们会选择不同的网络进行训练。首先,分类:①前辈且经久不衰的分类网络:GoogleNet,VGGNet,ResNet(1)GoogleNet 成就:2014年冠军,错误率6.66%。...

2018-09-14 15:39:17 6787

原创 稀疏自编码

1 怎样理解稀疏性?为什么要加上稀疏性限制?目的是什么?当神经网络遇到什么问题时需要加上稀疏性? 答:自编码神经网络是一种无监督学习算法,它使用BP算法,让目标值等于输入值(O=I)。 那么问题来了,为什么要这样做?直接用I不就好了? 的确,我们并不关心O,我们关心的是中间层S。 中间层S有降维作用,但这种降维与PCA不同,PCA是提取数据的主要特征,直接去掉次要特征,而这里的S层是学习了数

2017-08-18 15:02:53 445

原创 ResNet

1网络结构: ResNet将网络往深里设计的思想发挥到了极致,据说有一千多层的,在ResNet网络中,深刻体会到没有最深,只有更深!那么问题来了,Resnet是怎么做到在这么极深的网络下,训练成功的?因为我们知道,随着网络层数的增加,需要训练的网络参数将不断增加,训练强度将大大提升,对于这种上千层的网络,面临的已经不仅仅只有过拟合的问题了,还有Degradation的问题。 从Resnet的

2017-08-17 21:29:34 653

原创 VGGNet

1 网络结构: 以224*224输入图片为例: 感觉VGGNet就是加深版的AlexNet,都是卷积与池化的叠加,最后再加两层全连接,然后softmax输出。VGGNet有5段卷积,每段卷积由2~3个卷积层后加一个最大池化组成。卷积核的数量也随着层数的增加而增多。VGGNet也沿用了AlexNet数据增强的方法(Multi-Scale)防止模型过拟合。 相较与AleNet,VGGNet最大

2017-08-17 21:13:42 5372

原创 win10+python3.5+pycharm5.0+CPU 安装tensorflow

1首先安装python3.5(一定要3.5.x),pycharm5.0 python3.5:一路next就行(最好把add python3.5 to PATH勾上,免得到时候自己手动添加到系统环境变量,麻烦),这里有位道友写的很详细,详见:http://www.cnblogs.com/Alier/p/6362652.html 然后在命令符中输入python,出现python版本信息就说明你的py

2017-07-13 20:26:50 4830 1

原创 VS+Opencv 新库导入过程(以AVS视频解码库导入为例)

环境:VS2010+opencv2410 这里只要VS与Opencv能配置起来就行,在Opencv配置VS的时候,不是所有opencv版本与所有vs版本都能配置成功的。安装好Opencv之后,在安装目录下的opencv/build/x86(这个是跟你电脑系统版本有关的,如果你的电脑是64位的,就该选择x86,同理,32位的该选x64),在这个文件夹里,找与你vs匹配的文件,比如:vc10—>vs2

2017-06-05 10:20:35 2230

原创 Win10+python2.7.6+opencv2.4.13环境下, 调用cv2.VideoCapture()失败的解决方法

1.首先将 F:\opencv\sources\3rdparty\ffmpeg (看你的opencv装在哪的,写好路径就行,我的是装在F盘的)添加到系统目录。 2.然后将F:\opencv\sources\3rdparty\ffmpeg下的opencv_ffmpeg.dll 和opencv_ffmpeg_64.dll 重命名为opencv_ffmpeg2413.dll 和 opencv_ffm

2017-05-19 20:35:26 1507

原创 手推logistic

用x1,x2,...,xnx_1,x_2,...,x_n表示每个样本的n个特征,在每个特征前面加一个参数,就可以估计整体样本特征,下面我们就构造一个线性函数: h(x)=hθ(x)=θ0+θ1x1+θ2x2+...+θnxn=θTXh(x)=h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n=\theta^TX 然后,使用si

2017-04-23 15:26:53 554

原创 手推adaBoost

①对所有训练集初始化相等的样本权重 D=[d1,d2,...dn]D=[d_1,d_2,...d_n] n为数据集的总数 ②将带有初始化权重的数据集送入基本分类器中训练fm(X)f_m(X),计算分类器误差率 em=p(fm(xi)≠yi)=∑ni=1(fm(xi)≠yi)ne_m=p(f_m(x_i)\neq y_i)=\frac{\sum_{i=1}^n(f_m(x_i)\neq

2017-04-23 14:22:01 503

原创 手推SVM

1 线性分类 1.1 线性可分支持向量机 定义:给定线性可分训练数据集,通过间隔最大化学习得到的分隔面为: ① wx+b=0wx+b=0 则对应的分类决策函数为f(x)=sign(wx+b)f(x)=sign(wx+b),称为线性可分支持向量机。 如下图所示,(我们假设,分隔面上方的红色样本表示正样本,分隔面下方的蓝色样本为负样本): 对于任何样本x,中间红色的的分隔面为

2017-04-22 15:00:29 1263

原创 近邻法

1 最近邻(NN) 最近邻的思想:计算测试样本到所有已知样本之间的距离,将最近邻者的类别作为测试样本的类别标签。 然而,最近邻的决策存在很大的风险。如下图所示,矩形表示待测样本,如果按照最近邻的决策,待测样本矩形应该与三角新是一类,可是,如果将离矩形最近的那个三角形去掉呢,那么圆形就是矩形的类别,所以,这种决策对已知样本的数据集太过敏感。 2 K近邻(KNN) (1)思想 KNN是最

2017-04-17 13:41:12 663

yolov5训练以及模型onnx转换

目标检测工程备份

2020-10-13

VOT2013.zip

VOT2013数据集

2020-06-28

datadeal.py

将xml文件中标注的目标框导出,配置好自己路径,直接运行;将xml文件中标注的目标框导出,配置好自己路径,直接运行

2020-06-22

SCI-AI.xlsx

整理好的2019年AI领域所有SCI期刊,包含ISSN,期刊名,影响因子,中科院分区,大类学科,小类学科,SCI/SCIE,是否OA,录用比例,审稿周期以及近期文章 热度(浏览量)等属性

2019-11-18

AnomalyDetectionCVPR2018-master工程

AnomalyDetectionCVPR2018-master工程,用于异常事件检测,异常行为识别等

2018-12-03

求最小外接矩形

这是一份用Minboundrect求最小外接矩形的代码详解,语言是Matlab

2018-06-01

背景减除法案例

这是一份背景减除法的代码讲解,用的语言是Matlab,采用的主要算法是高斯混合模型。

2018-06-01

卷积神经网络CNN代码解析

这是一份对最基本CNN代码的很详细很详细解析,特别适合CNN刚入门的同学。

2018-06-01

目标检测一唱三叹

中国科学院计算所邬书哲老师的讲义,里面主要讲述了目标检测概述,以及常用目标检测方法,最终以人脸检测作为案例

2018-06-01

Deep哈希实现案例

中国科学院计算技术研究所的刘昊淼老师的课件,里面详细讲述了哈希算法

2018-06-01

《深度学习(中文版》(花书)

深度学习中文版学习资料,全书分为三个部分,第一部分为应用数学和机器学习基础,第二部分为深度网络:现代实践,第三部分为深度学习研究

2018-05-14

Kinect v2.0+ VS2012+openCV2.4.9 深度数据采集

Kinect 获取深度数据

2017-07-17

CNN细节与应用

来自天津大学机器学习与数据挖掘团队,很不错的资料,跟大家分享一下

2016-07-18

CNN基础与Caffe实践

来自天津大学机器学习与数据挖掘团队,感觉很不错的资料,跟大家分享一下。

2016-07-18

Logistic回归总结

很不错的cnn二项分类器的讲解,来自:http://blog.csdn.net/dongtingzhizi/article/details/15962797

2016-07-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除