7 MoussaTintin

尚未进行身份认证

暂无相关简介

等级
TA的排名 2w+

【Learning Notes】Sequence Transducer

CTC独立性假设,各个frame的输出概率。合理性:1。简化了模型;2。虽然独立于输出,但依赖输入。我们能做的更好吗?输出概率依赖于之前的输出,更合理,显然许多问题是成立的(语音识别,识别结果应该符合某种习惯)Fig.1.TheRNN-Tmodel.Themodelconsistsofanencodernetwork,whichmapsinp...

2018-07-28 12:56:14

【Learning Notes】PLDA(Probabilistic Linear Discriminant Analysis)

PLDA是一个概率生成模型,最初是为解决人脸识别和验证问题而被提出[3,5],之后也被广泛应用到声纹识别等模式识别任务中。学者从不同的动机出发,提出了多种PLDA算法,文献[2]在统一的框架下比较了三种PLDA算法变种(standard[3,6],simplified[4],two-covariance[5,8]),并在说话人识别任务上比较了它们的性能差异。本文讨论的PLDA...

2018-04-21 23:19:15

基于 python 的语音识别 API 调用

腾讯AI开放平台开放了语音、图像等多种AI功能接口。本文尝试基于python完成对语音识别接口的本地调用。1.准备工作API调用需要身份认证。我们首先需要注册并获得AppID和AppKey。在官网注册后,进入控制台,创建一个新应用,并在接口选择栏,为应用勾选“语音识别”。应用创建成功后,记下AppID和AppKey。2.接口鉴权接口鉴权的...

2018-04-19 23:31:35

A Note on Kaldi's PLDA Implementation

Kaldi’sPLDAimplementationisbasedon[1],theso-calledtwo-covariancePLDAby[2].TheauthorsderiveacleanupdateformulafortheEMtrainingandgiveadetailedcommentinthesourcecode.He...

2018-04-05 16:24:05

【Learning Notes】线性链条件随机场(CRF)原理及实现

1.概述条件随机场(ConditionalRandomField,CRF)是概率图模型(ProbabilisticGraphicalModel)与区分性分类(DiscriminativeClassification)的一种接合,能够用来对“结构预测”(structuredprediction,e.g.序列标注)问题进行建模。如图1,论文[1]阐释了CRF与其他模...

2018-03-17 21:40:20

【Learning Notes】CTC 原理及实现

CTC(ConnectionistTemporalClassification,连接时序分类)是一种用于序列建模的工具,其核心是定义了特殊的目标函数/优化准则[1]。jupyternotebook版见repo.1.算法这里大体根据AlexGraves的开山之作[1],讨论CTC的算法原理,并基于numpy从零实现CTC的推理及训练算法。...

2018-03-05 09:47:32

【Learning Notes】KMeans GMM 模型 及 EM 训练

kmeans和GMM的简单实现及基于EM的训练。jupyternotebook版本见repo。首先,导入相关的模块。from__future__importprint_functionimportnumpyasnpimportmatplotlibimportmatplotlib.pyplotasplt%matplotlibinl...

2018-03-03 09:38:23

【Learning Notes】Gumbel 分布及应用浅析

1.分布的形式化物理意义Gumbel分布是一种极值型分布。举例而言,假设每次测量心率值为一个随机变量(服从某种指数族分布,如正态分布),每天测量10次心率并取最大的一个心率值作为当天的心率测量值。显然,每天纪录的心率值也是一个随机变量,并且它的概率分布即为Gumbel分布。概率密度函数(PDF)Gumbel分布的PDF如下:f(x;μ,β)=e−z−e...

2018-02-24 23:33:32

基于 NVRTC 和 CUPY 的 Python CUDA 扩展

在之前的文章中,我们探讨了如何通过cffi,扩展pytthon(pytorch)。利用cffi方法,我们需要单独的C和CUDA源文件,还需要事先进行编译,不但过程比较繁琐,代码结构也稍显凌乱。对于一些简单的CUDA扩展(代码量不大,没有复杂的库依赖),显得不够友好。这里,我们介绍如何通过在线编译的方式,直接为pytorch提供CUDA扩展(当然,也可以是纯C的

2018-01-26 16:30:20

【Learning Notes】Quasi-recurrent Neural Networks

Quasi-recurrentNeuralNetworks(QRNN)

2017-09-12 20:02:14

语音应用开发中的 11 个常见错误

语音应用开发中常见的误区

2017-09-05 13:45:54

AMD ROCm 平台简介

介绍AMD的ROCmGPU计算平台。

2017-07-08 14:26:36

【Learning Notes】基于 boosting 原理训练深层残差神经网络

Huangetal.LearningDeepResNetBlocksSequetiallyusingBoostingTheory.文章指出一种基于boosting(提升)原理,逐层训练深度残差神经网络的方法,并对性能及泛化能力给出了理论上的证明。1.背景1.1BoostingBoosting[1]是一种训练Ensemble模型的经典方法,其中一种具体实现GBDT

2017-06-17 00:28:00

keras CNTK 后端

试验Keras的CNTK后端。

2017-06-02 23:42:35

pytorch 学习笔记之编写 C 扩展

注,pytorch0.4提供了更加方便的工具来添加C++扩展,参见这里及这里。pytorch利用CFFI进行C语言扩展。包括两个基本的步骤(docs):编写C代码;python调用C代码,实现相应的Function或Module。在之前的文章中,我们已经了解了如何自定义Module。至于[py]torch的C代码库的结构,我们留...

2017-05-01 16:53:29

pytorch 学习笔记之自定义 Module

pytorch是一个基于python的深度学习库。pytorch源码库的抽象层次少,结构清晰,代码量适中。相比于非常工程化的tensorflow,pytorch是一个更易入手的,非常棒的深度学习框架。对于系统学习pytorch,官方提供了非常好的入门教程,同时还提供了面向深度学习的示例,同时热心网友分享了更简洁的示例。1.overview不同于theano,te...

2017-04-22 14:42:39

智能音箱技术概览

概述智能音箱的软硬件技术。

2017-03-21 16:38:20

【Learning Notes】生成式对抗网络(Generative Adversarial Networks,GAN)

简单介绍各种生成式对抗网络(GAN)

2017-03-14 10:18:13

【Learning Notes】变分自编码器(Variational Auto-Encoder,VAE)

简单介绍变分自编码器(VariationalAuto-Encoder,VAE)实现和原理。

2016-12-14 17:48:49

模型压缩之 BinaryNet

1.动机深度学习在图像、语音、文本等领域都取得了巨大的成功,推动了一系列智能产品的落地。但深度模型存在着参数众多,训练和inference计算量大的不足。目前,基于深度学习的产品大多依靠服务器端运算能力的驱动,非常依赖良好的网络环境。很多时候,出于响应时间、服务稳定性和隐私方面的考虑,我们更希望将模型部署在本地(如智能手机上)。为此,我们需要解决模型压缩的问题——将模型大小、内存占用...

2016-12-03 16:13:02

查看更多

勋章 我的勋章
    暂无奖章