3 z小白

尚未进行身份认证

深度学习,声音识别,声源定位,音视频联合

等级
TA的排名 1w+

7. 声音数据增强

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.数据增强这篇博客主要在音频信号处理领域两个基础的数据增强方法:TimeStretch和PitchShift。顾名思义,TimeS...

2019-05-24 10:17:52

深度学习在音频信号处理领域中的进展(截止至2019年5月)

最近在arXiv上看到一篇关于深度学习在音频信号处理中的进展的文章,感觉写的不错,所以根据自己的理解和大家分享一下。如果有些地方博主理解的不对,或者解释不清,可以在下面评论,博主会一一回复。论文链接:DeepLearningforAudioSignalProcessing摘要这篇文章是奥尔堡大学,Google等几个研究机构的一篇关于深度学习在音频信号处理中的进展的综述。这篇文...

2019-05-21 01:13:42

MUSIC算法推导及代码实现

简介MUSIC(MultipleSignalClassification)算法,即多信号分类算法,由Schmidt等人于1979年提出。MUSIC算法是一种基于子空间分解的算法,它利用信号子空间和噪声子空间的正交性,构建空间谱函数,通过谱峰搜索,估计信号的参数。对于声源定位来说,需要估计信号的DOA。MUSIC算法对DOA的估计有很高的分辨率,且对麦克风阵列的形状没有特殊要求,因此应用十...

2019-05-13 18:14:57

深度学习中的卷积类型

简介使用卷积操作的动机是让网络关注有意义的局部特征,同时因为其参数共享的机制,能够极大地降低参数量,提高计算效率。深度学习发展至今,衍生出了多种卷积类型。除了常规卷积外,还有转置卷积、空洞卷积、可分离卷积等。常规卷积以2D卷积为例,一个卷积操作通常包含以下几个参数:5x5常规卷积stride=1padding卷积核尺寸(kernelsize):卷积核的感受野,也就是每次...

2019-05-13 16:07:27

Keras“冻结”层

“冻结”层指的是该层不参加网络训练,即该层的参数不会更新。“冻结”层主要有以下两个应用场景:1)使用预训练模型进行fine-tune时,我们需要在预训练模型后面添加几层进行训练,而前面的预训练模型不进行参数更新;2)当我们训练好模型,需要取出中间层的embedding再进行后续处理的时候,也需要这个操作。Keras层是否进行参数更新可通过属性trainable来控制。我们可以直接在定义...

2019-04-09 11:00:54

Keras自定义可训练参数

Keras自定义可训练参数是在自定义层中实现的,因此需要我们自己编写一个层来实现我们需要的功能。话不多说,直接上实例。假设我们需要自定义一个可学习的权重矩阵来对某一层的数据进行转换,则可以通过下面代码实现:fromkerasimportbackendasKfromkeras.layersimportLayerclassMyLayer(Layer):def...

2019-04-04 20:20:14

算法的时间复杂度和空间复杂度计算

一、算法的时间复杂度定义   在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度。记作:T(n)=O(f(n))。它表示随问题n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐进时间复...

2019-03-14 16:19:05

Keras加载含有自定义层或函数的模型

当我们导入的模型含有自定义层或者自定义函数时,需要使用custom_objects来指定目标层或目标函数。例如:我的一个模型含有自定义层“SincConv1D”,需要使用下面的代码导入:fromkeras.modelsimportload_modelmodel=load_model('model.h5',custom_objects={'SincConv1D':SincC...

2019-03-06 10:43:46

SincNet: 一种可解释的卷积滤波器结构

简介深度学习发展至今,在很多人工智能应用领域扮演者重要的角色。深度学习能够从数据中学习复杂而抽象的特征表示,但是这个充满意义的学习模式目前依然缺乏“可解释”性,也就是常说的“黑盒子”。例如,深度学习模型对对抗性实例(adversarialexamples)极其敏感(模型表现不好),使得研究者不得不思考对模型的理解。这种缺乏“可解释”性可能是阻碍未来深度学习技术发展的一个重要瓶颈。Beng...

2019-02-19 21:42:07

浅析Batch Normalization

深度神经网络难训练一个重要的原因就是深度神经网络涉及很多层的叠加,每一层的参数变化都会导致下一层输入数据分布的变化,随着层数的增加,高层输入数据分布变化会非常剧烈,这就使得高层需要不断适应低层的参数更新。为了训练好模型,我们需要谨慎初始化网络权重,调整学习率等。原理分析为了解决这个问题,一个比较直接的想法就是对每层输入数据都进行标准化。BatchNormalization确实就是这样...

2019-01-07 20:46:14

javac编译错误: 编码UTF8/GBK的不可映射字符

Linux下为UTF-8编码,javac编译gbk编码的java文件时,容易出现“错误:编码UTF8的不可映射字符”解决方法是添加encoding参数:javac-encodinggbkWordCount.java Windows下为GBK编码,javac编译utf-8编码的java文件时,容易出现“错误:编码GBK的不可映射字符”解决方法是添加encoding参数:...

2018-12-29 17:51:40

python爬取网页上的超链接

用bs4中的BeautifulSoup解析网页fromurllib.requestimporturlopenfrombs4importBeautifulSouphtml=urlopen('https://blog.csdn.net/zzc15806/')#获取网页bs=BeautifulSoup(html,'html.parser')#解析网页hyperl...

2018-12-29 17:31:54

Ubuntu Git安装与使用

本文整理和归纳了关于Ubuntu中Git安装与使用的资源,希望对大家有所帮助。1安装安装方式主要有两种,即通过Apt和source:1.1通过Apt安装:官网上提供的命令是:$sudoadd-apt-repositoryppa:git-core/ppa1中间暂停时,按回车键Enter继续安装。$sudoapt-getupdate$sudoapt-get...

2018-12-13 22:25:15

6. 测试模型

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.测试模型这部分比较简单,一共包含:读取测试样本、导入模型、测试模型几个步骤。直接看代码:#-*-coding:utf-8-*...

2018-12-12 16:59:32

5. 训练模型

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.训练模型我们采用交叉验证(5-foldcrossvalidation)的方式训练模型,即预先将数据集划分为5个不重叠的子集,每次采用其...

2018-12-12 16:50:49

4. 构建模型

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.构建模型本节使用keras搭建一个简单的CNN模型。该CNN模型包括3个卷积层、3个池化层、2个全连接层,中间层激活函数使用ReLU,最后...

2018-12-12 16:37:38

3. 特征提取

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.特征提取对于音频特征,相信稍微了解一点的童鞋们都知道有个东西叫MFCC。MFCC全称为MelFrequencyCepstrumCoe...

2018-12-12 16:27:49

2. 数据分析

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.数据分析本节针对ESC-10数据集进行基本的数据分析,包括数据样本数,数据类别数,每类声音样本数等信息。并且对每类样本的声音波形,功率谱进...

2018-12-12 15:57:15

1. 数据集准备和工具安装

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.简介声音识别指的是将声波转化为某种特定描述的一种技术,通常包括语音识别、声纹识别、声音场景识别等。目前的声音识别技术主要是机器学习、深度...

2018-12-12 14:58:16

Ubuntu下更新Git版本

sudoadd-apt-repositoryppa:git-core/ppasudoapt-getupdatesudoapt-getinstallgit 

2018-12-12 13:00:25

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。