会飞行的小蜗牛-CSDN博客

原创声学模型与语音模型是如何联系在一起的？

1. 先讲解一下语音识别时内部机理如图1，识别过程要计算声学概率 P(X|W) 和语音概率 P(W)如图2，语音模型计算出的概率为P(W)，计算声学概率时，是给定 W，计算 P(Y|W)。wav波形会被切片->提取特征MFCC后与 HMM 的 GMM state 关联， ...

2018-12-16 11:54:33 2966

转载 Kaldi WFST

HCLG.fst由四部分构成1. G：语言模型WFST，输入输出符号相同，实际是一个WFSA（acceptor接受机），为了方便与其它三个WFST进行操作，将其视为一个输入输出相同的WFST。2. L：发音词典WFST，输入符号：monophone，输出符号：词;3. C：上下文相关WFST，输入符号：triphone（上下文相关），输出符号：monophnoe;4. ...

2017-11-22 18:01:02 2745

转载 Kaldi nnet3 -------- Data Type

本文为 kaldi 官网关于 nnet3 的译文：简介本文覆盖最新的nnet3。为了了解Kaldi里的所有DNN，例如karel的版本，参考 Deep Neural Networks in Kaldi。nnet3的创建是为了以更自然的方式不需要实际编码就支持更多通用种类的网络，而不仅仅是反馈网络（例如RNN和LSTM）。和nnet2一样支持多...

2017-11-14 15:36:28 5100 5

转载 Linux下getopt()函数的简单使用

最近在弄Linux C编程，本科的时候没好好学啊，希望学弟学妹们引以为鉴。好了，虽然啰嗦了点，但确实是忠告。步入正题:我们的主角----getopt()函数。英雄不问出处，getopt()函数的出处就是unistd.h头文件（哈哈）,写代码的时候千万不要忘记把他老人家include上。再来看一下这家伙的原型（不是六耳猕猴）：int getopt(i

2017-09-14 14:21:40 503

原创 Python 生成 -1~1 之间的随机数矩阵

1. 使用函数 np.random.random 由于 np.random.random() 默认生成 0~1 之间的小数，因此需要转换一下如生成 3*3 的 -1~1 之间的随机数矩阵 -1 + 2*np.random.random((3,3))# -*- co

2017-09-12 10:53:41 25111 1

转载 pycharm下的多个python版本共存

上一篇博文介绍了在windows下同时安装python2和python3.而在工作的过程中，我习惯于用pycharm作为IDE。本文将记录如何在pycharm中选择python版本，并给相应的版本安装第三方库。选择版本可以在创建项目的时候进行，也可以在设置中进行设置--->打开file/default setting/project interpreter 。在右侧界面的设

2017-09-12 10:44:42 4161 1

转载 Windows7 下python3和python2同时安装python3和python2

1、下载python3和python2 进入python官网，链接https://www.python.org/选择Downloads--->Windows，点击进入就可以看到寻找想要的python版本本文选择的是：Python3.5.2,点击后面链接可直接下载，https://www.python.org/ftp/python/3.5.2/python-3

2017-09-12 10:38:16 3537

转载 Python 调用 opencv 处理图像

一、"Python" + "OpenCV" 环境配置 #写下备忘1. 步骤1. 下载Python2.73, 安装, 并配置Python环境变量:".\Program Files\Python27;"; 注意: OpenCV仅支持2.6&2.7, Python不能使用3.x版本;2. 下载OpenCV2.46, 安装, 并配置OpenCV环境变量:".\Prog

2017-09-11 11:23:07 1287

原创 FreeRTOS 临界区总结

当一名嵌入式开发人员从裸机开发切换到基于 FreeRTOS 的开发后就要注意中断，资源竞争等等问题了。下面，总结一下 FreeRTOS 临界区的知识及用法： 1. 应该程序使用临界区 1.1 深入剖析的方法：taskENTER_CRITICAL() -> portENTER_CR

2017-08-31 18:40:51 12338 1

原创 STM32 DMA 多通道 ADC 采集

1. 本次实践目标 a. 完成外部 ADC 的采集, 连接引脚为 PC2 b. 完成 STM32 内置温度传感器 ADC 的采集 c. ADC 的采集必须以 DMA 的方式工作，通过 FreeRTOS 系统中创建的一个进程读取采集结果，并打包通过网络发送至上位机2. 查看 datasheet 2.1 确认 STM32 内部温度传感器

2017-08-27 18:15:22 16658 6

原创 VS2010 MFC 动态编译以静态编译发布

VS2010 c++编写的程序在别人的机子运行不了，缺少mfc100u.dll xxx100d.dll等的解决方法解决方法：1.将这些dll打包,和应用程序一起发布;2.采用MFC静态编译; 使用VS2010编译的程序在windows xp中运行时经常会出现找不到相关的DLL文件，我们可以使用静态编译的方法把这些运行依赖文件打包到*.exe中来，以减少对环境的依

2017-06-04 22:15:10 2685

转载什么是 openFST，如何应用于语音识别？

转自：点击打开链接加权有限状态机 453加权有限状态机OpenFst学习资源FST在语音识别中的应用WFST in KaldiOpenFstOpenFst is a library for constructing, combining, optimizing, and searching weighted finite-state tr

2017-04-13 09:44:53 11032 5

转载 Kaldi 中文语音识别需要考虑的问题

转自：点击打开链接原文作者：英语流利说团队李飞腾Kaldi语音识别1.声学建模单元的选择1.1对声学建模单元加入位置信息2.输入特征3.区分性技术4.多音字如何处理？5.Noise Robust ASR6.Deep Learning[DNN/CNN替换GMM]7.在手机等资源受限设备author:FeitengEmail:

2017-04-13 09:40:03 8348

状态绑定参考：点击打开链接决策树的聚类参考：点击打开链接一、简单原理介绍在发音过程中，因为协同发音的影响，同一个音素在不同的位置，其发音变化很大，如下图所示：同样的元音[eh]在不同的单词中的发音在频域上区分非常明显。因为单音素monophone 是上下文独立的（context-independent）为了能够表示这种区别，因此提出了triphone的概念，triphone是根据左右音素来确定的，

2017-04-13 01:02:24 9518

转载汉语拼音音节的歧义指数

汉语拼音音节的歧义指数冯志伟如果不计声调，基本的汉语音节只有405个，这405个汉语音节可以表示全部汉字的读音。而《通用规范汉字表》包含了8105个通用汉字，在这种情况下，在一般使用中，一个汉语音节平均要表示20个以上的汉字（8,105/405 = 20.01）。例1 在《通用规范汉字表》（

2017-04-12 15:54:19 1764

转载语音识别中的 senone 是什么？

有时候，音素会被放在上下文中考虑，这样就形成了三元音素或者多元音素。但它与亚音素不同，他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已，所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多，它是一个可以被决策树或者其他方式来定义的复杂函数。（英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素

2017-04-12 14:31:25 8722 1

翻译如何用 Kaldi 训练一个 DNN 声学模型

1. 介绍：首先，需要完成标准的 GMM-HMM 声学模型的训练训练 monophone model 是通过 GMM-HMM System 做 utterance-level transcriptions，即训练 label-audio 的映射训练 triphone model 是通过 GMM-HMM System 做 phoneme-to-audio gli

2017-04-11 21:15:11 13704 4

原创 Kaldi HCLG 深入理解

1. 相关部分包含的主要任务1.1 WFST Key Conceptsdeterminizationminimizationcompositionequivalentepsilon-freefunctionalon-demand algorithmweight-pushingepsilon removal1.2 HMM Key ConceptsMarkov ChainHid

2017-04-11 15:38:10 11575 4

转载深度学习项目工作流程指导

开始：先考虑两个问题1. 衡量一下，在你要完成的任务上，人类水平怎样？2. 你的训练数据和测试数据是否服从相同的概率分布？衡量人类水平衡量人类水平的真正目标，是为了估算贝叶斯错误率。知道贝叶斯错误率，有助于算出你的模型对于训练数据是欠拟合还是过拟合。更清楚地说，它有助于我们衡量吴恩达所定义的“Bias（偏差）”，稍后在工作流程中会用到。注：在统计分类中，贝叶斯错误率是指一类

2017-04-11 14:57:00 2153

原创 an empirical study of learning rates in deep neural networks for speech recognition 总结

结论源自：google 论文《AN EMPIRICAL STUDY OF LEARNING RATES IN DEEP NEURAL NETWORKS FORSPEECH RECOGNITION 》该基于与现有所有 learning rate schedulding schemes 对比提出 “AdaDec” 1. 目前，最有效的随机梯度下降算法是：minibatch s

2017-04-10 18:19:06 837

原创 train data 和 model bias 对 Mutilayer Perceptrons 的影响

1. train data 对 Mutilayer Perceptrons 的影响从图中，可以看出：随着 train data 的量的增加，Underfitting 与 Happy Zone 都在都增加，而 Overfitting 在减少2. model bias 对 Mutilayer Perceptrons 的影响

2017-04-10 18:04:47 549

转载消除PyCharm中满屏的波浪线

PyCharm使用了较为严格的PEP8的检查规则，如果代码命名不规范，甚至多出的空格都会被波浪线标识出来，导致整个编辑器里铺满了波浪线，右边的滚动条也全是黄色或灰色的标记线，很是影响编辑。在网上看了很多消除的教程，照做了，没有起到作用，且操作稍显复杂，今天跟大家分享一个操作简单且行之有效的方法。1、在编辑器的右下角，有一个医生状的小头像，如下图所示（PyCharm版本 5.0.4）

2017-04-09 10:40:16 1045

转载梯度下降和随机梯度下降为什么能下降？

首先，我们假设cost function为：其中，w,b为网络参数，x为训练样本，n为样本数量，y(x)为x的标签，a为网络输出。我们训练的目的就是让cost function取得最小。为了看起来方便，我们令,则：（1）为了方便理解，我们先假设v只有2维,我们要做的就是通过不断调整使得最小。可以通过下图理解，我们为小球选择一个方向，让

2017-04-06 21:13:39 417

原创 epoch、 iteration 和 batchsize 的理解

深度学习中经常看到epoch、 iteration和batchsize，下面按自己的理解说说这三个的区别：（1）batchsize：批大小。在深度学习中，一般采用SGD训练，即每次训练在训练集中取batchsize个样本训练；（2）iteration：1个iteration等于使用batchsize个样本训练一次；（3）epoch：1个epoch等于使用训练集中

2017-04-06 21:06:49 3632

转载深度机器学习中的batch的大小对学习效果有何影响？

谈谈深度学习中的 Batch_SizeBatch_Size（批尺寸）是机器学习中一个重要参数，涉及诸多矛盾，下面逐一展开。首先，为什么需要有 Batch_Size 这个参数？Batch 的选择，首先决定的是下降的方向。如果数据集比较小，完全可以采用全数据集（Full Batch Learning ）的形式，这样做至少有 2 个好处：其一，由全数据集确定的方向能够更好地代表样本总体

2017-04-06 21:05:31 3562

原创关于 NIS 账户集中式管理的总结

1. NIS 的架构2. NIS Client NIS Client向Master/Slave 请求登陆者的验证数据。流程如下：1.NIS client 若有登入需求时，会先查询其本机的 /etc/passwd, /etc/shadow 等档案； 2.若在 NIS Client 本机找不到相关的账号数

2017-03-27 14:00:42 2005

原创 Kaldi-dnn 学习

1. Kaldi 中实现的 dnn 共 4 种： a. nnet1 - 基于 Karel's 的实现，特点：简单，仅支持单 GPU b. nnet2 - 基于 Daniel Povey p-norm 的实现，特点：灵活，支持多 GPU、CPU c. nnet3 - nnet2 的改进 d. (nnet3 + chain) - Daniel Povey 改进的

2017-03-14 21:51:36 10460 1

原创 HMM-Computing Acoustic Likelihoods

目标：主要学习 HMM 计算似然如何应用在计算声学似然中。。。 HMM 计算声学似然：即计算 P(O|W)。实际原理：在给定一个 HMM state，计算一帧（10ms）语音片段抽取特征特征向量对应的似然。其中，HMM 中 B 矩阵就是所有观察似然的矩阵，对应到声学中，就是各语音片段特征向量似然矩阵。 eg: 给定一个 individual state qi 和一个

2017-02-24 09:58:28 550

原创 HMM - Computing Likelihood

1. HMM 的基本组成要素一个HMM模型可以用5个元素来描述，包过2个状态集合和3个概率矩阵。其分别为隐含状态 Q 可观测状态 O 初始状态概率矩阵 π 隐含状态概率转移矩阵 A 观测状态转移概率矩阵 B 引入几个符号： at(i

2017-02-22 18:49:49 600

原创语音识别-HMM

1. HMM 的三个基本问题 1) Computing Likelihood (计算似然) 给定一个 HMM λ＝（A, B）和观察序列 O，计算似然 P(O|λ) 2) Decoding (解码) 给定一个观察序列O，和一个 HMM λ＝（A, B），找到最优的隐藏序列Q 3) Learning (学习)

2017-02-21 18:30:57 914

原创语音识别 Embedded Training

1. 先看一下声学模型的三个要素 Q [ = q1 q2 ...qN ]:subphones 状态集合 A [ = a01a02 ...an1 ...ann ]:subphones 转移概率矩阵 A， Q 和 A 共同构成发音字典 (pronunciation lexicon)，一般 self-loop 和到下一个 subphon

2017-02-21 11:21:39 2356 6

原创理解维特算法

维特比算法说白了就是动态规划实现最短路径，只要知道“动态规划可以降低复杂度”这一点就能轻松理解维特比算法维特比算法是一个特殊但应用最广的动态规划算法，利用动态规划，可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图——篱笆网络的有向图（Lattice )的最短路径问题而提出的。它之所以重要，是因为凡是使用隐含马尔可夫模型描述的问题都可以用它来解码，包括今天的数字通信、

2017-02-20 11:34:14 781

原创语音识别 Search and Decoding 总结

1. 先总结一下 lexical knowledge Lexical knowledge 中，每个 word HMM 由一系列 phone models，而每一个 phone model 由一系列 subphone states 组成。

2017-02-20 10:19:27 834 1

原创 Kaldi 学习总结

1. 声学训练时，HMM，GMM 都用在什么地方

2017-02-16 17:33:26 2819 1

原创 JLINK flash timeout.Reset the tatget and try it again 解决

如果在程序中打开了Flash读保护：FLASH_ReadOutProtection(ENABLE);再次用jlink下载程序时会出错：flash timeout.Reset the tatget and try it again解" style="margin:0px; padding:0px; border:0px; list-style:none">flash timeout.

2017-01-15 12:07:45 14572 7

原创如何查看linux发行版版本信息

在linux下面察看版本信息，通常使用的命令是uname ubuntu系统：$ uname -aLinux wanghaifeng-laptop 2.6.32-23-generic #37-Ubuntu SMP Fri Jun 11 07:54:58 UTC 2010 i686 GNU/LinuxRedHat系统：$ uname -aLinux lo

2016-12-06 11:40:23 1314

原创 Mac使用rz、sz远程上传下载文件

习惯了在windows下的securecrt和xshell的rz 和sz。rz 可以很方便的从客户端传文件到服务器，sz也可以很方便的从服务器传文件到客户端，就算中间隔着跳板机也不影响。在mac下试了一下，mac的终端是不支持的，需要下载item2。另外不能在mac下用expect 自动登录服务器，执行rz或sz 否则终端会挂掉。1.先安装item2，item2 市类似mac

2016-12-05 14:30:12 3044 1

转载 UNIX下利用OpenSSL对大文件进行AES加解密

由于项目需要文件传输过程中对其进行加解密，所以就在网上查找下加解密的相关介绍，最开始采用RSA加解密算法，先是利用RSAEuro折腾了半天编译的环节卡住了（编译报错查不出原因），后面网上发现利用OpenSSL的实现方法比较简单。OpenSSL是一款功能强大的加密工具包，它集成了众多密码算法及实用工具。用rsa算法实现加解密很容易，但是只能处理小的数据文件（个人见解），处理大文件数据需要采用

2016-11-29 09:25:03 2379 1