10 lbaihao

尚未进行身份认证

暂无相关简介

等级
TA的排名 5k+

JPEG编码

https://blog.csdn.net/newchenxf/article/details/51719597

2019-12-03 14:59:34

caffe im2col 详解

https://blog.csdn.net/mrhiuser/article/details/52672824https://blog.csdn.net/ChuiGeDaQiQiu/article/details/81265471https://blog.csdn.net/jiongnima/article/details/69736844

2019-11-12 09:31:45

Resnet 网络详解与keras实现

#!/usr/bin/python3from keras.models import Modelprint("Hello, World!")import numpy as npnp.random.seed(1337) # for reproducibilityfrom keras.models import Sequentialfrom keras.layers import ...

2019-04-14 19:23:55

深入理解卷积层,全连接层的作用意义

https://blog.csdn.net/m0_37407756/article/details/80904580

2019-03-12 16:03:36

kaldi解码及特征提取详解

目录1. 注意事项 2. 流程图: 3. 具体流程指令:1. 注意事项首先要训练好模型,用到3个文件,分别是: final.mdl(训练模型得到的模型文件) final.mat(用来特征转换) HCLG.fst(fst文件) 此外要提供待解码音频文件或路径.scp文件: wav.scp(音频路径.scp文件) 2. 流程图:st=>start: 开...

2018-12-19 09:11:49

HTK解码代码分析(二)

HTK解码总体流程:首先在HVite.C的main函数中调用相应库的函数。HVite_main(){ 解析HVite命令行; Initialise(); net = ExpandWordNet(&netHeap,wdNet,&vocab,&hset); for(所有需要识别的MFCC文件){ ProcessFile(datFN,net,n+...

2018-12-17 09:18:14

HTK解码代码分析(一)

每个HMM的每个状态status都有一个TokenSet。这从结构体 _NetInst中可以看出。它有一个链表数据项TokenSet *state,就是保存每个状态status的TokenSet。每个TokenSet.like只保存对应状态的当前时刻观察值的最佳概率(所有状态到当前状态转移概率的最大值乘以观察值的输出概率),这个可以理解为令牌传递给当前时刻每个状态的概率。当这个概率小于pri-&g...

2018-12-17 09:17:26

HTK特征提取(MFCC)代码分析(一)

HTK特征提取工具HCopy主要调用了HParm.c和HSigP.c这两个C文件里面的函数来实现了原始波形信号到MFCC的转换。特征提取的数据全部放在内存中处理,函数调用过程如下:main()->OpenSpeechFile->OpenParmFile->OpenBuffer->OpenAsChannel->FillBufFromChannel->GetF...

2018-12-17 08:59:51

WFST加权有限状态机

WFST在语音识别中的应用,要从Mohri的《Weighted Finite-State Transducers in Speech Recognition》这篇论文开始说起。首先看下面简单的WFST图,它是一个有向图,状态转移弧上有输入符号、输出符号以及对应的权重值。下图中的输入符号和输出符号相同,当然在多数情况下它们是不相同的,在语音识别中,输入可能是发声的声韵母,输出是一个个汉字或词语。...

2018-12-13 15:27:08

语音识别算法原理文档整理(十)

Kaldi单音素脚本从脚本run.sh来看,单音素训练#monophonesteps/train_mono.sh –boost-silence 1.25 –nj $n –cmd “$train_cmd” data/mfcc/train data/lang exp/mono || exit 1;#test monophone modellocal/thchs-30_decode....

2018-12-09 15:36:55

kaldi笔记(三)train_mono.sh详解

train_mono.sh 是音素训练脚本,下面详细介绍各个功能:1.首先是初始化GMM,使用的脚本是/kaldi-trunk/src/gmmbin/gmm-init-mono,输出是0.mdl和tree文件;2.compile training graphs,使用的脚本是/kaldi-trunk/source/bin/compile-training-graphs,输入是tree,0.m...

2018-12-09 12:03:51

kalid笔记(二)

local/prepare_data.sh waves_yesno#!/bin/bashmkdir -p data/locallocal=`pwd`/localscripts=`pwd`/scriptsexport PATH=$PATH:`pwd`/../../../tools/irstlm/binecho "Preparing train and test data"t...

2018-12-08 22:20:16

kaldi笔记(一)

#!/bin/bashtrain_cmd="utils/run.pl"decode_cmd="utils/run.pl"if [ ! -d waves_yesno ]; then wget http://www.openslr.org/resources/1/waves_yesno.tar.gz || exit 1; # was: # wget http://sourcef...

2018-12-08 22:17:55

htk解码器网络

Htk解码器网络之前看过一部分wfst解码器的代码,跟pocketsphinx的解码器部分结构上面不太一样,所以阅读了一下htk的解码器部分的说明,以期望对pocketsphinx的代码阅读有帮助。参考资料:HTK book http://htk.eng.cam.ac.uk/download.shtml 解码器网络一、     解码器网络的概况网络分为两种:word网络...

2018-12-07 15:32:56

kaldi nnet3 online2-wav-nnet3-latgen-faster decoder

intmain(intargc,char*argv[]){ try{   structtimevalstart,stop,diff;  memset(&start,0,sizeof(structtimeval));  memset(&stop,0,sizeof(structtimeval));  memset(&diff,0...

2018-12-06 16:54:54

系统学习机器学习之神经网络(十一) --TDNN

近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D", "G"三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱。 普通神经网络识别音素在讲TDNN之前先说说一般的神经网络的是怎样识别音素的吧。假设要识别三个辅...

2018-12-06 16:25:51

kaldi中的hmm-topology介绍

kaldi中的hmm-topology介绍kaldi中是对音素进行建模,使用HMM模型。一般情况下每个音素有3个状态,每个状态有2个弧。静音音素sil可能有5个状态,且每个状态可能不止2个弧。kaldi中音素的HMM模型的topo文件,一般是由脚本utils/gen_topo.pl生成。一个示例如下:<Topology><TopologyEntry><...

2018-12-06 15:10:04

kali源代码简单说明

kaldi源代码简单说明kaldi是开源的,基于C++的语音识别工具。一方面语音识别有较高的技术门槛,包含了很多方面的东西,另一方面kaldi集成了太多的东西,造成了其代码量很大,阅读起来很困难。kaldi现在集成了很多的东西,造成其代码量很大,直接阅读起来感觉无从下手。但是,每个项目,一开始的时候,都是比较简单的,代码量也较小。我从git上下载过来kaldi源码后,通过git res...

2018-12-06 14:52:37

kaldi中TransitionModel介绍

kaldi中的HMM模型,实际就是一个TransitionModel对象。这个对象描述了音素的HMM拓扑结构,并保存了pdf-id和transition-id相关的信息,并且可以进行各种变量的转换。TransitionModel的定义和实现位于transition-model.h和transition-model.cc中。在了解此对象之前,应先阅读和理解hmm-topology相关的内容。在介...

2018-12-06 14:31:04

语音识别中的lattice与confusion network

https://blog.csdn.net/yutianzuijin/article/details/77621511https://blog.csdn.net/yutianzuijin/article/details/78756130 arpa2fst 原理详解  

2018-12-06 09:01:46

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!