自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

z小白的博客

驽马十驾,功在不舍

  • 博客(92)
  • 收藏
  • 关注

原创 混合样本数据增强(Mixed Sample Data Augmentation)

混合样本数据增强(Mixed Sample Data Augmentation,MSDA)目前非常火热,由于其实现简单且对性能提升确实有帮助,因此在图像识别、声音识别、GAN、半监督学习等领域均有广泛的应用。MSDA的代表性算法是Mixup,最早出现在ICLR2018的论文“Mixup: Beyond Empirical Risk Minimization”中。关于这篇论文,博主专门写了一篇文...

2020-04-10 22:35:35 8939

原创 7. 声音数据增强

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.数据增强这篇博客主要在音频信号处理领域两个基础的数据增强方法:Time Stretch 和 Pitch Shift。顾名思义,Time S...

2019-05-24 10:17:52 14792 4

原创 深度学习在音频信号处理领域中的进展(截止至2019年5月)

最近在arXiv上看到一篇关于深度学习在音频信号处理中的进展的文章,感觉写的不错,所以根据自己的理解和大家分享一下。如果有些地方博主理解的不对,或者解释不清,可以在下面评论,博主会一一回复。论文链接:Deep Learning for Audio Signal Processing摘要这篇文章是奥尔堡大学,Google等几个研究机构的一篇关于深度学习在音频信号处理中的进展的综述。这篇文...

2019-05-21 01:13:42 33253 17

原创 MUSIC算法推导及代码实现

简介MUSIC (Multiple Signal Classification)算法,即多信号分类算法,由Schmidt等人于1979年提出。MUSIC算法是一种基于子空间分解的算法,它利用信号子空间和噪声子空间的正交性,构建空间谱函数,通过谱峰搜索,估计信号的参数。对于声源定位来说,需要估计信号的DOA。MUSIC算法对DOA的估计有很高的分辨率,且对麦克风阵列的形状没有特殊要求,因此应用十...

2019-05-13 18:14:57 34170 14

原创 深度学习中的卷积类型

简介使用卷积操作的动机是让网络关注有意义的局部特征,同时因为其参数共享的机制,能够极大地降低参数量,提高计算效率。深度学习发展至今,衍生出了多种卷积类型。除了常规卷积外,还有转置卷积、空洞卷积、可分离卷积等。常规卷积以2D卷积为例,一个卷积操作通常包含以下几个参数:5x5常规卷积 stride=1 padding卷积核尺寸(kernel size):卷积核的感受野,也就是每次...

2019-05-13 16:07:27 4109

原创 Keras“冻结”层

“冻结”层指的是该层不参加网络训练,即该层的参数不会更新。“冻结”层主要有以下两个应用场景:1)使用预训练模型进行fine-tune时,我们需要在预训练模型后面添加几层进行训练,而前面的预训练模型不进行参数更新;2)当我们训练好模型,需要取出中间层的embedding再进行后续处理的时候,也需要这个操作。Keras层是否进行参数更新可通过属性trainable来控制。我们可以直接在定义...

2019-04-09 11:00:54 8501

原创 Keras自定义可训练参数

Keras自定义可训练参数是在自定义层中实现的,因此需要我们自己编写一个层来实现我们需要的功能。话不多说,直接上实例。假设我们需要自定义一个可学习的权重矩阵来对某一层的数据进行转换,则可以通过下面代码实现:from keras import backend as Kfrom keras.layers import Layerclass MyLayer(Layer): def...

2019-04-04 20:20:14 10836 4

转载 算法的时间复杂度和空间复杂度计算

一、算法的时间复杂度定义    在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度。记作:T(n)=O(f(n))。它表示随问题n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐进时间复...

2019-03-14 16:19:05 4966

原创 Keras加载含有自定义层或函数的模型

当我们导入的模型含有自定义层或者自定义函数时,需要使用custom_objects来指定目标层或目标函数。例如:我的一个模型含有自定义层“SincConv1D”,需要使用下面的代码导入:from keras.models import load_modelmodel = load_model('model.h5', custom_objects={'SincConv1D': SincC...

2019-03-06 10:43:46 11061

原创 SincNet: 一种可解释的卷积滤波器结构

简介深度学习发展至今,在很多人工智能应用领域扮演者重要的角色。深度学习能够从数据中学习复杂而抽象的特征表示,但是这个充满意义的学习模式目前依然缺乏“可解释”性,也就是常说的“黑盒子”。例如,深度学习模型对对抗性实例(adversarial examples)极其敏感(模型表现不好),使得研究者不得不思考对模型的理解。这种缺乏“可解释”性可能是阻碍未来深度学习技术发展的一个重要瓶颈。Beng...

2019-02-19 21:42:07 14104 2

原创 浅析Batch Normalization

深度神经网络难训练一个重要的原因就是深度神经网络涉及很多层的叠加,每一层的参数变化都会导致下一层输入数据分布的变化,随着层数的增加,高层输入数据分布变化会非常剧烈,这就使得高层需要不断适应低层的参数更新。为了训练好模型,我们需要谨慎初始化网络权重,调整学习率等。原理分析为了解决这个问题,一个比较直接的想法就是对每层输入数据都进行标准化。Batch Normalization确实就是这样...

2019-01-07 20:46:14 3311

转载 javac编译错误: 编码UTF8/GBK的不可映射字符

Linux下为UTF-8编码,javac编译gbk编码的java文件时,容易出现“错误: 编码UTF8的不可映射字符”解决方法是添加encoding 参数:javac -encoding gbk WordCount.java Windows下为GBK编码,javac编译utf-8编码的java文件时,容易出现“错误: 编码GBK的不可映射字符”解决方法是添加encoding 参数:...

2018-12-29 17:51:40 8635

原创 python爬取网页上的超链接

用bs4中的BeautifulSoup解析网页from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen('https://blog.csdn.net/zzc15806/') #获取网页bs = BeautifulSoup(html, 'html.parser') #解析网页hyperl...

2018-12-29 17:31:54 18860 6

转载 Ubuntu Git安装与使用

本文整理和归纳了关于Ubuntu中Git安装与使用的资源,希望对大家有所帮助。1 安装安装方式主要有两种,即通过Apt和source:1.1 通过Apt安装:官网上提供的命令是:$ sudo add-apt-repository ppa:git-core/ppa1中间暂停时,按回车键Enter继续安装。$ sudo apt-get update$ sudo apt-get...

2018-12-13 22:25:15 7922

原创 6. 测试模型

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.测试模型这部分比较简单,一共包含:读取测试样本、导入模型、测试模型几个步骤。直接看代码:# -*- coding: utf-8 -*...

2018-12-12 16:59:32 6199

原创 5. 训练模型

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.训练模型我们采用交叉验证(5-fold cross validation)的方式训练模型,即预先将数据集划分为5个不重叠的子集,每次采用其...

2018-12-12 16:50:49 7484 4

原创 4. 构建模型

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.构建模型本节使用keras搭建一个简单的CNN模型。该CNN模型包括3个卷积层、3个池化层、2个全连接层,中间层激活函数使用ReLU,最后...

2018-12-12 16:37:38 9355 3

原创 3. 特征提取

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.特征提取对于音频特征,相信稍微了解一点的童鞋们都知道有个东西叫MFCC。MFCC全称为Mel Frequency Cepstrum Coe...

2018-12-12 16:27:49 12846 17

原创 2. 数据分析

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.数据分析本节针对ESC-10数据集进行基本的数据分析,包括数据样本数,数据类别数,每类声音样本数等信息。并且对每类样本的声音波形,功率谱进...

2018-12-12 15:57:15 7868 7

原创 1. 数据集准备和工具安装

数据集和代码均已上传到Github中,欢迎大家下载使用。Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.简介声音识别指的是将声波转化为某种特定描述的一种技术,通常包括语音识别、声纹识别、声音场景识别等。目前的声音识别技术主要是机器学习、深度...

2018-12-12 14:58:16 9837 16

原创 Ubuntu下更新Git版本

sudo add-apt-repository ppa:git-core/ppasudo apt-get updatesudo apt-get install git 

2018-12-12 13:00:25 6074

原创 python 随机选取列表中的元素

使用random模块中的sample函数功能:random.sample(seq, k)实现从序列或集合seq中随机选取k个独立的的元素参数:seq:元组、列表或字符串k:选取元素个数实例:In [1]: import randomIn [2]: f = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]In [3]: fOut[3]: [1, 2,...

2018-12-07 15:32:17 128840 6

转载 非常好的动态规划(DP)总结

转自:http://cppblog.com/menjitianya/archive/2015/10/23/212084.html目录  一、动态规划初探      1、递推      2、记忆化搜索     &nb...

2018-12-03 20:44:24 9028

原创 Keras自定义损失函数

Keras内置损失函数都预定义在keras.metrics.losses中,以MSE为例,其预定义方法如下:def mean_squared_error(y_true, y_pred): return K.mean(K.square(y_pred - y_true), axis=-1)我们可以仿照其写法,定义自己的损失函数。例如何凯明大神在论文Focal Loss for Den...

2018-11-16 12:29:42 10347 3

原创 Keras搭建多输入模型

简介当我们的任务涉及到多个维度不同的数据来拟合一个目标时,我们需要构建多输入模型。模型构建 假设我们需要搭建如下的模型,输入数据分别为100维和50维的向量,输出为0或1:from keras.layers import Conv1D, Dense, MaxPool1D, concatenate, Flattenfrom keras import Input, Model...

2018-11-14 15:16:16 25753 28

原创 conda创建python虚拟环境

假设你已经安装好了Anaconda 创建python虚拟环境创建python版本为X.X,名称为your_env_name的虚拟环境:conda create -n your_env_name python=X.X (2.7, 3.5, 3.6, ...) 创建好后,可以使用 conda env list 查看已经创建的虚拟环境。使用python虚拟环境打开名称为your_...

2018-11-12 22:41:24 5730

原创 Pytorch编译安装warp-CTC

Pytorch 安装进入Pytorch官网https://pytorch.org/,根据自己机器的环境选择相应的安装包,以conda+python3.6+cuda-8.0为例,在终端输入:conda install pytorch torchvision cuda80 -c pytorchwarp-CTC 安装git clone https://github.com/S...

2018-11-12 22:11:43 11845 4

原创 【深度学习】ResNet解读及代码实现

简介ResNet是何凯明大神在2015年提出的一种网络结构,获得了ILSVRC-2015分类任务的第一名,同时在ImageNet detection,ImageNet localization,COCO detection和COCO segmentation等任务中均获得了第一名,在当时可谓是轰动一时。ResNet又名残差神经网络,指的是在传统卷积神经网络中加入残差学习(residual ...

2018-10-30 16:52:44 47865 16

原创 【深度学习】GoogLeNet系列解读 —— Inception v4

目录GoogLeNet系列解读Inception v1Inception v2Inception v3Inception v4简介在介绍Inception v4之前,首先说明一下Inception v4没有使用残差学习的思想。大部分小伙伴对Inception v4存在一个误解,认为它是Inception module与残差学习的结合,其实并不是这样,Inception ...

2018-10-29 14:11:15 30829 1

原创 【深度学习】GoogLeNet系列解读 —— Inception v3

目录GoogLeNet系列解读Inception v1Inception v2Inception v3Inception v4Inception v3Inception v3整体上采用了Inception v2的网络结构,并在优化算法、正则化等方面做了改进,总结如下:1. 优化算法使用RMSProp替代SGD。2. 使用Label Smoothing Regul...

2018-10-28 17:04:23 11474

原创 【深度学习】GoogLeNet系列解读 —— Inception v2

目录GoogLeNet系列解读Inception v1Inception v2Inception v3Inception v4简介GoogLeNet凭借其优秀的表现,得到了很多研究人员的学习和使用,因此Google又对其进行了改进,产生了GoogLeNet的升级版本,也就是Inception v2。论文地址:Rethinking the Inception Arch...

2018-10-28 14:23:19 14519 2

原创 【深度学习】1x1卷积的作用

1x1卷积最初引起研究者的重视应该是在Network in Network这篇文章里,后面在GoogLeNet和ResNet中都使用了1x1卷积,那么1x1卷积到底有什么用呢?我认为主要作用有三点:1. 实现跨通道的信息交互和整合。1x1卷积核只有一个参数,当它作用在多通道的feature map上时,相当于不同通道上的一个线性组合,实际上就是加起来再乘以一个系数,但是这样输出的featu...

2018-10-27 19:46:28 8819 1

原创 【深度学习】GoogLeNet系列解读 —— Inception v1

目录GoogLeNet系列解读Inception v1Inception v2Inception v3Inception v4简介GoogLeNet网络核心模块是Inception module,一共经历了4代,其中第一代网络获得了2014年ILSVRC竞赛的分类任务第一名,因此促使了研究者对Inception module的兴趣,使Inception module不断...

2018-10-27 18:28:32 10655

原创 【深度学习】Alexnet网络分析及代码实现

简介Alexnet是2012年ImageNet比赛的冠军Hinton及其学生Alex Krizhevsky提出,并以其姓名命名的网络。Alexnet的提出也正式掀起了深度学习的热潮,激发了研究者对深度学习的热情。虽然后面出现了更为优秀的VGGNet、GooLeNet、ResNet等网络,但是Alexnet的地位是不可撼动的,因此我们有必要去花些时间了解一下这一深度学习史上的伟大杰作。Ale...

2018-10-27 10:22:00 11908 4

原创 Keras load_model 导入错误

在使用Keras load_model时,会出现以下报错:ImportError: Failed to import pydot. You must install pydot and graphviz for `pydotprint` to work.解决办法:$ pip install pydot$ sudo apt-get install graphviz ...

2018-10-26 20:59:28 14021 8

原创 【深度学习】VGGNet解读及代码实现

这篇文章不仅仅关注于VGGNet的网络结构,重点在于分析VGGNet设计者当时的出发点,以及能带给我们什么启发。简介VGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,获得了2014年ILSVRC竞赛的分类任务第二名和定位任务第一名,主要贡献在于证明了使用3x3小卷积核,增加网络深度可以有效提升模型性能,并且对于其他数据集也有很好的泛化性能。论文链接:...

2018-10-26 18:39:30 10302

原创 【深度学习】分类指标accuracy,recall,precision等的区别

在机器学习里面做一些分类任务时,经常会使用到一些评价指标,下面就一些常用的指标进行详细的说明。上图表示为一个二分类的混淆矩阵(多分类同理,只需要把不属于当前类的其他类都考虑为负例),表格中的四个参数说明:True Positive(TP):预测为正例,实际为正例False Positive(FP):预测为正例,实际为负例True Negative(TN):预测为负例,实际为负例...

2018-10-26 14:35:04 54072 9

转载 LaTeX 各种命令,符号汇总(全)

函数、符号及特殊字符声调语法效果语法效果语法效果\bar{x}\acute{\eta}\check{\alpha}\grave{\eta}\breve{a}\ddot{y}\dot{x}\hat{\alpha}\tilde{\iota}函数语法效果...

2018-10-19 19:03:36 43265 4

转载 论文类型Journal、magazine、transaction、letter等的区别

一、主要分类Journal期刊:刊登关于某特殊主题的文章的期刊magazine杂志:综合性内容的期刊transactions(学会等的)议事录,会报,会刊proceedings记录, 会议录; 年[学]报; (科学文献)汇编二、IEEE分类IEEE的paper大体分为3类,letter,magazine,journal/transaction.IEEE letter:属于快报形式,一般...

2018-10-19 18:25:29 33286

原创 Jupyter Notebook 插入图片的几种方法

一、通过HTML方式插入本地图片使用 <img src> 语句插入本地图片,其中src为图片路径,可以是相对路径或绝对路径。<img src="./jupyter_logo.png", width=320, heigth=240>上述语句为插入当前目录下名为“jupyter_logo.png”的图片,宽度设为320, 高度设为240。 如果不指定维...

2018-09-11 22:46:29 113637 23

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除