8 MoussaTintin

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 2w+

【Learning Notes】Sequence Transducer

CTC独立性假设,各个 frame 的输出概率。 合理性:1。简化了模型;2。虽然独立于输出,但依赖输入。我们能做的更好吗? 输出概率依赖于之前的输出,更合理,显然许多问题是成立的(语音识别,识别结果应该符合某种习惯) Fig. 1. The RNN-T model. The model consists of an encoder network, which maps inp...

2018-07-28 12:56:14

【Learning Notes】PLDA(Probabilistic Linear Discriminant Analysis)

PLDA 是一个概率生成模型,最初是为解决人脸识别和验证问题而被提出[3,5],之后也被广泛应用到声纹识别等模式识别任务中。学者从不同的动机出发,提出了多种 PLDA 算法,文献[2] 在统一的框架下比较了三种 PLDA 算法变种(standard[3,6], simplified[4], two-covariance[5,8]),并在说话人识别任务上比较了它们的性能差异。本文讨论的 PLDA...

2018-04-21 23:19:15

基于 python 的语音识别 API 调用

腾讯 AI 开放平台 开放了语音、图像等多种 AI 功能接口。本文尝试基于 python 完成对语音识别接口的本地调用。1. 准备工作API 调用需要身份认证。我们首先需要注册并获得 AppID 和 AppKey。在官网注册后,进入控制台,创建一个新应用,并在接口选择栏,为应用勾选“语音识别”。应用创建成功后,记下 AppID 和 AppKey。2. 接口鉴权接口鉴权的...

2018-04-19 23:31:35

A Note on Kaldi's PLDA Implementation

Kaldi’s PLDA implementation is based on [1], the so-called two-covariance PLDA by [2]. The authors derive a clean update formula for the EM training and give a detailed comment in the source code. He...

2018-04-05 16:24:05

【Learning Notes】线性链条件随机场(CRF)原理及实现

1. 概述条件随机场(Conditional Random Field, CRF)是概率图模型(Probabilistic Graphical Model)与区分性分类( Discriminative Classification)的一种接合,能够用来对“结构预测”(structured prediction,e.g. 序列标注)问题进行建模。如图1,论文 [1] 阐释了 CRF 与其他模...

2018-03-17 21:40:20

【Learning Notes】CTC 原理及实现

CTC(ConnectionistTemporalClassification,连接时序分类)是一种用于序列建模的工具,其核心是定义了特殊的目标函数/优化准则[1]。jupyternotebook版见repo.1.算法这里大体根据AlexGraves的开山之作[1],讨论CTC的算法原理,并基于numpy从零实现CTC的推理及训练算法。...

2018-03-05 09:47:32

【Learning Notes】KMeans GMM 模型 及 EM 训练

kmeans 和 GMM 的简单实现及基于 EM 的训练。 jupyter notebook 版本见 repo。首先,导入相关的模块。from __future__ import print_functionimport numpy as npimport matplotlibimport matplotlib.pyplot as plt%matplotlib inl...

2018-03-03 09:38:23

【Learning Notes】Gumbel 分布及应用浅析

1.分布的形式化物理意义Gumbel分布是一种极值型分布。举例而言,假设每次测量心率值为一个随机变量(服从某种指数族分布,如正态分布),每天测量10次心率并取最大的一个心率值作为当天的心率测量值。显然,每天纪录的心率值也是一个随机变量,并且它的概率分布即为Gumbel分布。概率密度函数(PDF)Gumbel分布的PDF如下:f(x;μ,β)=e−z−e...

2018-02-24 23:33:32

基于 NVRTC 和 CUPY 的 Python CUDA 扩展

在之前的文章中,我们探讨了如何通过 cffi,扩展 pytthon (pytorch)。利用 cffi 方法,我们需要单独的 C 和 CUDA 源文件,还需要事先进行编译,不但过程比较繁琐,代码结构也稍显凌乱。对于一些简单的 CUDA 扩展(代码量不大,没有复杂的库依赖),显得不够友好。这里,我们介绍如何通过在线编译的方式,直接为 pytorch 提供 CUDA 扩展(当然,也可以是纯 C 的

2018-01-26 16:30:20

【Learning Notes】Quasi-recurrent Neural Networks

Quasi-recurrent Neural Networks (QRNN)

2017-09-12 20:02:14

语音应用开发中的 11 个常见错误

语音应用开发中常见的误区

2017-09-05 13:45:54

AMD ROCm 平台简介

介绍AMD的ROCmGPU计算平台。

2017-07-08 14:26:36

【Learning Notes】基于 boosting 原理训练深层残差神经网络

Huang et al. Learning Deep ResNet Blocks Sequetially using Boosting Theory.文章指出一种基于 boosting(提升)原理,逐层训练深度残差神经网络的方法,并对性能及泛化能力给出了理论上的证明。1. 背景1.1 BoostingBoosting[1] 是一种训练 Ensemble 模型的经典方法,其中一种具体实现 GBDT

2017-06-17 00:28:00

keras CNTK 后端

试验 Keras 的 CNTK 后端。

2017-06-02 23:42:35

pytorch 学习笔记之编写 C 扩展

注,pytorch 0.4 提供了更加方便的工具来添加 C++ 扩展,参见这里及这里。pytorch利用 CFFI 进行 C 语言扩展。包括两个基本的步骤(docs):编写 C 代码; python 调用 C 代码,实现相应的 Function 或 Module。在之前的文章中,我们已经了解了如何自定义 Module。至于 [py]torch 的 C 代码库的结构,我们留...

2017-05-01 16:53:29

pytorch 学习笔记之自定义 Module

pytorch 是一个基于 python 的深度学习库。pytorch 源码库的抽象层次少,结构清晰,代码量适中。相比于非常工程化的 tensorflow,pytorch 是一个更易入手的,非常棒的深度学习框架。对于系统学习 pytorch,官方提供了非常好的入门教程 ,同时还提供了面向深度学习的示例,同时热心网友分享了更简洁的示例。1. overview不同于 theano,te...

2017-04-22 14:42:39

智能音箱技术概览

概述智能音箱的软硬件技术。

2017-03-21 16:38:20

【Learning Notes】生成式对抗网络(Generative Adversarial Networks,GAN)

简单介绍各种生成式对抗网络(GAN)

2017-03-14 10:18:13

【Learning Notes】变分自编码器(Variational Auto-Encoder,VAE)

简单介绍变分自编码器(Variational Auto-Encoder,VAE)实现和原理。

2016-12-14 17:48:49

模型压缩之 BinaryNet

1. 动机深度学习在图像、语音、文本等领域都取得了巨大的成功,推动了一系列智能产品的落地。但深度模型存在着参数众多,训练和 inference 计算量大的不足。目前,基于深度学习的产品大多依靠服务器端运算能力的驱动,非常依赖良好的网络环境。很多时候,出于响应时间、服务稳定性和隐私方面的考虑,我们更希望将模型部署在本地(如智能手机上)。为此,我们需要解决模型压缩的问题——将模型大小、内存占用...

2016-12-03 16:13:02

查看更多

勋章 我的勋章
    暂无奖章