dakenan1-CSDN博客

原创单通道语音增强Speech enhancement文献汇总

论文一：基于注意机制的神经网络单通道语音增强方法核心工作：提出基于注意机制的单通道语音增强方法，关注音频流的重要语音成分并适当降低对噪声、干扰的注意力。注意力机制（attention-based）：1. 注意力机制需要决定整段输入的哪个部分需要更加关注；2. 从关键的部分进行特征提取，得到重要的信息。3. RNN模型在预测增强帧时隐式地学习过去输入特征的权重，而注意机制计算过去帧与要增强...

2019-08-22 11:48:48 4137 10

原创基于深度聚类Deep clustering单通道语音分离

论文一：基于深度聚类的单通道多语音分离核心工作：通过信号调节（正则化、加深网络结构）将基本DPCL系统性能极大地提升提升方法：Drop-out、调整网络结构、训练策略等Drop-out设置：随机节点置零有可能会让LSTM的记忆能力；在前向连接的每个时期对置零掩码采样，循环连接的每个时序进行一次采样，每个门用一个循环置零掩码，网络结构：双层BLSTM并且前面用一个前置反馈层来产生嵌入层。训...

2019-08-22 11:41:40 2788 5

原创 torch多GPU并行计算data_paraller踩坑

torch.nn.data_parallel和class nn.DataParallel都在一个source里边，一个是函数一个是类，这里贴出来源代码，如果出现了各种类似out of memory、 a chunk memory之类的都可以看看。```pythonimport operatorimport torchimport warningsfrom itertools impor...

2019-11-09 17:47:37 3662

转载为什么八位二进制数表示范围为-128~+127？

为什么八位二进制数表示范围为-128~+127？在昨天的文章中我们讲解了什么原码反码补码，以及计算机中为什么要使用补码，在文章最后的时候我们说了一个问题，八位二进制（在Java中就是byte类型）的取值范围是从-128到127，为什么呢？为什么127+1的结果是-128？我们今天来详细说明一下。昨天虽然我们介绍了什么是补码，但是并没有说明补码的由来，今天我们来讲解一下。在这里要说到一个概念...

2019-10-24 00:18:21 3590 4

**局部连接：**局部区域大小就是滤波器Filter，每一个卷积核对应一个Filter，对区域内数据进行卷积操作；**权值共享：**遍历一次CNN结构（或者一层卷积层），每一层的每一个卷积核，在滑动计算一个Batch size的图像矩阵时，卷积核的参数都是固定的，直到下一轮卷积操作前才会更新权值；卷积神经网络最大的特点就在于它的局部连接和权值共享，通过卷积操作实现局部连接，这个局部区域的大小就...

2019-10-05 02:00:21 470

转载详解梯度爆炸和梯度消失

那么为什么会出现梯度消失的现象呢？因为通常神经网络所用的激活函数是sigmoid函数，这个函数有个特点，就是能将负无穷到正无穷的数映射到0和1之间，并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。因此两个0到1之间的数相乘，得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数非常深的时候，最后一层产生的偏差就因为乘了很多的小于1的数而越来越小，最终就...

2019-09-30 00:00:41 226

原创超维视界公众号——口唇同步：打开虚拟人与人类互动的窗口

前言：在过去的一年中，虚拟人形象产业蓬勃发展，如今在各行各业特别是服务领域，越来越多地出现了虚拟人以及相关产品。在昨天举行的2019世界人工智能大会上，最先进最“黑科技”的产品都是与虚拟人相关。而如何使虚拟人能够被人们所见所感，最为重要的便是能让虚拟人形象能跟人类开始互动，而在背后控制虚拟人进行对话交流呈现的，便是我们今天要聊的口唇同步技术。口唇同步技术：口唇同步，即让声音与口唇图像实现协调...

2019-09-15 02:07:05 1197

原创超维视界公众号——虚拟人的三维图像重建方法初探

前言：人工智能数字体人，顾名思义，即拥人工智能的可视化数字虚拟人。虚拟人的研究与开发通常分为交互场景、交互内容以及交互界面三个方向，交互场景是指虚拟人应用的领域，比如文化、市场、服务等领域；交互内容是指基于自然语言处理（Natural Language Processing）技术的人机对话、意图理解等；而交互界面则是人与机器交流的平台和界面，比如苹果手机助手Siri，智能音箱天猫精灵等等。而目前...

2019-09-15 02:04:05 748

转载 Random函数用法

一、random模块简介Python标准库中的random函数，可以生成随机浮点数、整数、字符串，甚至帮助你随机选择列表序列中的一个元素，打乱一组数据等。二、random模块重要函数1 )、random() 返回0<=n<1之间的随机实数n；2 )、choice(seq) 从序列seq中返回随机的元素；import randoma = rand...

2019-09-03 12:25:31 80386 7

原创语音驱动的口型同步算法文献汇总

论文一：语音驱动的口型同步算法核心工作：提出一种口型动画同步算法，预先定义基本口型动作集合，通过权重线性混合构成口型动画和过渡动画，最终拼接得到完整口型动画。音素：输入的语音信号首先被转化为由一串发音单元构成的序列，这些发音单元成为音素。视素：序列中的音素会被映射到一个口型动作单元上，这些口型动作单元成为视素。协同发音：1. 难题：除了当前正在发音的音素外，该音素之前或之后的一些音素也会...

2019-08-22 11:53:58 3837 2

原创 OpenPose：使用部分亲和力场的实时多人2D姿态估计

**核心工作：**提出一种使用非参数表示（PAF）进行自下而上检测图像中多人二维姿态的高精度、实时系统。多人姿态估计难点：1. 图像中人体的数量与比例未知；2. 人与人之间由于接触、遮挡等产生的复杂空间干扰，使得各部分关联变得困难；3. 计算随着估计的人数增加而增大，对实时性能要求很高。自上而下人体检测：1. 先利用目标检测算法检测出单个人体，然后逐个进行单人的关键点检测；2. 特点...

2019-08-22 11:52:10 1674

原创使用锚框架捕获高质量被动面部表现

**核心工作：**提出一种基于锚框架的被动照明（LED灯）且不需要做面部标记的表情捕获技术。该技术能够适配富有表现力以及快速运动的面部表情，并且能以最小的漂移再现极端表情形变，在实现上不需要演员进行化妆直接从视频中获得变化纹理，可以实现重建长时间序列。锚框架：1. 强大的网格跟踪算法，在图像空间中集成跟踪，并将单个参考网格通过跟踪路径传播到每个帧（N张图片一个帧）2. 由于长时间的面部表现会...

2019-08-22 11:50:59 135

原创深度吸引子网络 Deep attractor Net单通道语音分离文献汇总

论文一：(DANet)基于单麦克风语音分离的深度吸引子网络核心工作：提出了在高维空间中嵌入吸引子（Attractor）将时频信息整合来训练的网络，模型实现了端到端的训练，分离不需要知道混合源的数量。分离的难点：1. 排序问题：混合语音会出现多个标签，无法分清属于哪个；2. 输出维度不匹配（标签不明确）：不清楚具体有几个声源深度聚类（DPCL）特点：能解决以上两点问题，但目标函数是各声源...

2019-08-22 11:46:02 1282

原创置换性不变训练（PIT）单通道语音分离（SS）入门

核心工作：提出一种通过最小化分离误差解决标签排列问题的排列不变训练技术。基于类的方法：1. 通过预测所属目标类的源来进行网络优化，通常用于每个时频块；2. 只能用于语音与背景噪声或音乐的分离，因为语音具有与噪声/音乐非常不同的特征；很难与其他技术结合。针对标签模糊问题解决核心：（参考Fig.1）1. PIT2. 基于分段的决策实验结果（T1）：1. 训练阶段，MSE验证不会因...

2019-08-21 20:32:35 3811

转载 Kaldi学习笔记（一）——Kaldi的下载安装与编译

2019-08-21 16:27:10 239

原创基于Tacotron汉语语音合成的开源实践

2019-08-21 16:26:12 863

转载 Merlin：一个开源的神经网络语音合成系统

...

2019-08-21 16:23:02 980

转载隐马尔可夫模型二(公式推导)

概率问题直接计算法前向后向算法前向算法后向算法一些期望学习问题Baum-Welch算法Baum-Welch参数估计公式预测算法近似算法维比特算法参考文献前面一篇介绍了隐马尔科夫模型的基本的一些概念，篇主要介绍三个问题的具体解决方法。如果对于概念不太理解的可以参考前一篇博客HMM模型基本概念，本篇博客主要介绍对于三个问题的主要推倒，内容...

2019-08-21 16:12:08 318

转载隐马尔科夫模型一(概念理解)

由于前一段时间在看CTC论文，里面用到了HMM中的前向后向算法，推公式的时候·一脸懵逼，所以又来学习HMM的思想，所以写篇博客做个笔记。本部分博客分为两篇，第一篇主要介绍一些基本的概念和思想，第二篇介绍理论的推导。博客的内容主要是基于<<统计学习方法>>以及其他的一些博客模型概念隐马尔可夫模型：隐马尔科夫模型是关于时序的概念模型，描述了由一个隐藏的马尔科夫链随机产生不可...

2019-08-21 15:58:42 202

转载 CTC学习笔记

原 CTC学习笔记背景Connectionist temporal classification简称CTC，翻译不太清楚，可以理解为基于神经网络的时序类分类。其中classification比较好理解，表示分类问题；temporal可...

2019-08-21 15:32:05 217

转载 ffmpeg 视频格式转换和宽高转换制作自己想要的数据格式

ffmpeg 视频格式转换和宽高转换制作自己想要的数据格式命令如下： ffmpeg -y -i Titanic.mkv -s 640*480 out.h264 运行效果...

2019-08-21 15:29:27 6444

转载 KNN与K-Means的区别

KNN(K-Nearest Neighbor)介绍Wikipedia上的 KNN词条中有一个比较经典的图如下： KNN的算法过程是是这样的...

2019-08-21 15:25:23 135

转载 TensorFlow入门（五）多层 LSTM 通俗易懂版

前言: 根据我本人学习 TensorFlow 实现 LSTM 的经历，发现网上虽然也有不少教程，其中很多都是根据官方给出的例子，用多层 LSTM 来实现 PTBModel 语言模型，比如： tensorflow笔记：多层LSTM代码分析但是感觉这些例子还是太复杂了，所以这里写了个比较简单的版本，虽然不优雅，但是还是比较容易理解。如果你想了解 LSTM 的原理的话(前提是你已经理解了普...

2019-08-21 15:22:45 735

原创 ## 关于高级语言和底层语言的感悟

比如python里边关于for循环中与C之类的区别，C、Java循环由下标进行定位，但python只需要对象即可以循环；还有tuple、str的不变特性，我们只能在程序中让某变量生成新的值代替，但原来的值并不会改变等等因此我们则需要对底层空间如何进行信息处理、存储等操作了解才能更好的掌握这种区别。...

2018-11-03 00:20:23 563

dakenan1的博客

原创单通道实时语音分离的TasNet结构总结