10 lbaihao

尚未进行身份认证

暂无相关描述

等级
TA的排名 6k+

Resnet 网络详解与keras实现

#!/usr/bin/python3fromkeras.modelsimportModelprint("Hello,World!")importnumpyasnpnp.random.seed(1337)#forreproducibilityfromkeras.modelsimportSequentialfromkeras.layersimport...

2019-04-14 19:23:55

深入理解卷积层,全连接层的作用意义

https://blog.csdn.net/m0_37407756/article/details/80904580

2019-03-12 16:03:36

kaldi解码及特征提取详解

目录1.注意事项 2.流程图: 3.具体流程指令:1.注意事项首先要训练好模型,用到3个文件,分别是: final.mdl(训练模型得到的模型文件) final.mat(用来特征转换) HCLG.fst(fst文件) 此外要提供待解码音频文件或路径.scp文件: wav.scp(音频路径.scp文件) 2.流程图:st=>start:开...

2018-12-19 09:11:49

HTK解码代码分析(二)

HTK解码总体流程:首先在HVite.C的main函数中调用相应库的函数。HVite_main(){解析HVite命令行;Initialise();net=ExpandWordNet(&netHeap,wdNet,&vocab,&hset);for(所有需要识别的MFCC文件){ProcessFile(datFN,net,n+...

2018-12-17 09:18:14

HTK解码代码分析(一)

每个HMM的每个状态status都有一个TokenSet。这从结构体_NetInst中可以看出。它有一个链表数据项TokenSet*state,就是保存每个状态status的TokenSet。每个TokenSet.like只保存对应状态的当前时刻观察值的最佳概率(所有状态到当前状态转移概率的最大值乘以观察值的输出概率),这个可以理解为令牌传递给当前时刻每个状态的概率。当这个概率小于pri-&g...

2018-12-17 09:17:26

HTK特征提取(MFCC)代码分析(一)

HTK特征提取工具HCopy主要调用了HParm.c和HSigP.c这两个C文件里面的函数来实现了原始波形信号到MFCC的转换。特征提取的数据全部放在内存中处理,函数调用过程如下:main()->OpenSpeechFile->OpenParmFile->OpenBuffer->OpenAsChannel->FillBufFromChannel->GetF...

2018-12-17 08:59:51

WFST加权有限状态机

WFST在语音识别中的应用,要从Mohri的《WeightedFinite-StateTransducersinSpeechRecognition》这篇论文开始说起。首先看下面简单的WFST图,它是一个有向图,状态转移弧上有输入符号、输出符号以及对应的权重值。下图中的输入符号和输出符号相同,当然在多数情况下它们是不相同的,在语音识别中,输入可能是发声的声韵母,输出是一个个汉字或词语。...

2018-12-13 15:27:08

语音识别算法原理文档整理(十)

Kaldi单音素脚本从脚本run.sh来看,单音素训练#monophonesteps/train_mono.sh–boost-silence1.25–nj$n–cmd“$train_cmd” data/mfcc/traindata/langexp/mono||exit1;#testmonophonemodellocal/thchs-30_decode....

2018-12-09 15:36:55

kaldi笔记(三)train_mono.sh详解

train_mono.sh是音素训练脚本,下面详细介绍各个功能:1.首先是初始化GMM,使用的脚本是/kaldi-trunk/src/gmmbin/gmm-init-mono,输出是0.mdl和tree文件;2.compiletraininggraphs,使用的脚本是/kaldi-trunk/source/bin/compile-training-graphs,输入是tree,0.m...

2018-12-09 12:03:51

kalid笔记(二)

local/prepare_data.shwaves_yesno#!/bin/bashmkdir-pdata/locallocal=`pwd`/localscripts=`pwd`/scriptsexportPATH=$PATH:`pwd`/../../../tools/irstlm/binecho"Preparingtrainandtestdata"t...

2018-12-08 22:20:16

kaldi笔记(一)

#!/bin/bashtrain_cmd="utils/run.pl"decode_cmd="utils/run.pl"if[!-dwaves_yesno];thenwgethttp://www.openslr.org/resources/1/waves_yesno.tar.gz||exit1;#was:#wgethttp://sourcef...

2018-12-08 22:17:55

htk解码器网络

Htk解码器网络之前看过一部分wfst解码器的代码,跟pocketsphinx的解码器部分结构上面不太一样,所以阅读了一下htk的解码器部分的说明,以期望对pocketsphinx的代码阅读有帮助。参考资料:HTKbook http://htk.eng.cam.ac.uk/download.shtml 解码器网络一、     解码器网络的概况网络分为两种:word网络...

2018-12-07 15:32:56

kaldi nnet3 online2-wav-nnet3-latgen-faster decoder

intmain(intargc,char*argv[]){ try{   structtimevalstart,stop,diff;  memset(&start,0,sizeof(structtimeval));  memset(&stop,0,sizeof(structtimeval));  memset(&diff,0...

2018-12-06 16:54:54

系统学习机器学习之神经网络(十一) --TDNN

近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B","D","G"三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱。 普通神经网络识别音素在讲TDNN之前先说说一般的神经网络的是怎样识别音素的吧。假设要识别三个辅...

2018-12-06 16:25:51

kaldi中的hmm-topology介绍

kaldi中的hmm-topology介绍kaldi中是对音素进行建模,使用HMM模型。一般情况下每个音素有3个状态,每个状态有2个弧。静音音素sil可能有5个状态,且每个状态可能不止2个弧。kaldi中音素的HMM模型的topo文件,一般是由脚本utils/gen_topo.pl生成。一个示例如下:<Topology><TopologyEntry><...

2018-12-06 15:10:04

kali源代码简单说明

kaldi源代码简单说明kaldi是开源的,基于C++的语音识别工具。一方面语音识别有较高的技术门槛,包含了很多方面的东西,另一方面kaldi集成了太多的东西,造成了其代码量很大,阅读起来很困难。kaldi现在集成了很多的东西,造成其代码量很大,直接阅读起来感觉无从下手。但是,每个项目,一开始的时候,都是比较简单的,代码量也较小。我从git上下载过来kaldi源码后,通过gitres...

2018-12-06 14:52:37

kaldi中TransitionModel介绍

kaldi中的HMM模型,实际就是一个TransitionModel对象。这个对象描述了音素的HMM拓扑结构,并保存了pdf-id和transition-id相关的信息,并且可以进行各种变量的转换。TransitionModel的定义和实现位于transition-model.h和transition-model.cc中。在了解此对象之前,应先阅读和理解hmm-topology相关的内容。在介...

2018-12-06 14:31:04

语音识别中的lattice与confusion network

https://blog.csdn.net/yutianzuijin/article/details/77621511https://blog.csdn.net/yutianzuijin/article/details/78756130 arpa2fst原理详解  

2018-12-06 09:01:46

CMUSphinx Acoustic Model Types

CMUSphinxsupportsdifferenttypesoftheacousticmodels:continuous,semi-continuousandphoneticallytied(PTM).ThedifferencebetweenPTM,semi-continuousandcontinuousmodelsisthefollowing....

2018-11-30 16:23:23

语音识别的基础知识与CMUsphinx介绍

        语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。       基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Mi...

2018-11-30 14:01:33

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!