傲娇的程序猿-CSDN博客

原创论文阅读：FASTEMIT: LOW-LATENCY STREAMING ASR WITH SEQUENCE-LEVEL EMISSION REGULARIZATION

论文阅读：FASTEMIT: LOW-LATENCY STREAMING ASR WITH SEQUENCE-LEVEL EMISSION REGULARIZATION下载链接：https://arxiv.org/abs/2010.11148主要概要：本篇文章主要是介绍了一种名为FastEmit的正则化方法，以减少end-to-end streaming ASR的解码延时。主要内容：如图一所示，红色为正常的解码路径，解码时...

2021-05-24 17:18:34 1390

原创 A BETTER AND FASTER END-TO-END MODEL FOR STREAMING ASR

论文阅读：A BETTER AND FASTER END-TO-END MODEL FOR STREAMING ASR下载链接：https://arxiv.org/abs/2011.10798主要内容：本篇文章主要是想在解决end-2-end网络的延时问题的同时保持网络的解码效果。首先，文章中使用了一直昂 FastEmit的算法降低网络延时；然后文章提出了一种conformer+Cascaded Encoders的网络框架，以保证网络的解码效果。模型主要结构：...

2021-05-17 16:56:54 325

原创论文阅读：META LEARNING FOR END-TO-END LOW-RESOURCE SPEECH RECOGNITION

论文阅读：META LEARNING FOR END-TO-END LOW-RESOURCE SPEECH RECOGNITION下载链接：https://arxiv.org/abs/1910.12094主要思想：本篇文章的主要思想是利用meta learning实现低资源的ASR。 meta learning： learn to learn。主要是获取一种“学会学习”的能力，使其可以在获取已有“知识”的基础上快速学习新的任务。具体可以参考这篇文章...

2021-04-25 20:52:31 340

原创论文阅读：TRAINING ASR MODELS BY GENERATION OF CONTEXTUAL INFORMATION

(icassp2020)论文阅读：TRAINING ASR MODELS BY GENERATION OF CONTEXTUAL INFORMATION下载链接：https://arxiv.org/abs/1910.12367主要思想：利用海量的弱监督数据和部分常规的标注数据进行e2e模型训练。【这里的弱监督数据主要指的是仅含有上下文相关文本的音频数据（English social media videos along with their respective titles an...

2021-04-16 15:44:27 129

原创论文阅读：Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mix

语音识别阅读笔记-Bi-encoder Transformer Network for Mandarin-English Code-switchingSpeech Recognition using Mixture of Experts(interspeech 2020)下载链接：http://www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=413&id=1277主要思想：

2021-03-24 11:21:07 654 1

原创论文阅读：Memory Equipped Self-Attention for End-to-End Speech Recognition

语音识别阅读笔记-SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition(interspeech 2020)主要思想：文章分析了DFSMN和multihead-attention的优缺点，得出结论：Multihead-attention:主要学习单一特征的上下文依赖。DFSMN:主要是依赖于整个数据集的平均概率分布的学习数据的长时依赖。因此将二者结合可以使模型学习的更好。（DFSMN的相关解释

2021-03-19 17:43:01 328

原创 FFmpeg安装

ffmfeg是一个常用的音频处理软件，下面附上linux系统的安装步骤，方便各位使用：1、pip3 install ffmpeg2、到ffmpeg官网下载安装包。https://www.ffmpeg.org/然后解压tar -xjvf ffmpeg-4.2.1.tar.bz23、yum install -y yasm4、cd 到ffmpeg安装包5、....

2019-11-21 19:32:00 384

原创语音识别——kaldi安装与编译

1、安装下载源代码：git clone https://github.com/kaldi-asr/kaldi.git各目录功能:./tools目录下面全部都是Kaldi依赖的包。其中主要有：OpenFST：Weighted Finite State Transducer library，是一个用来构造有限状态自动机的库。我们知道隐马尔科夫模型就可以看成是一个有限状态自动机的。...

2019-03-14 16:03:22 1175 3

原创语音识别——基本概念简介

写在前面：做了3年的图像，没想到到了工作要转成语音了。所以既来之，则安之。从今天开始记录自己从零开始的语音领域的学习，希望利用入职前这两三个月的时间把基础知识打好吧O(∩_∩)O一些基本的概念：音素（phone）：语音的自然属性划分出来的最小语音单位。（可以理解为图像中的像素）。音素分为元音与辅音两大类。如汉语音节 ā（啊）只有一个音素，ài（爱）有两个音素，dāi（呆）有三个音素等。...

2019-03-14 10:58:57 806 2

原创 batch normalization 理解

对batch normalization 一直属于一知半解状态，二面被问的一脸懵逼，所以决定好好理一理这个问题。1、What is batch normalization？batch normalization 其实就是对数据做一个批量的规范化操作，使得在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。具体实现过程如下：A、对于一个mini-batch，求数据的均值，...

2018-09-24 10:12:10 826

原创 Style-Transfer 那些事儿

阶段一最初的用神经网络实现的风格转换是需要不断迭代的，不仅速度慢，而且我要在A图加上B图的风格，就需要分别根据这两幅图进行不断前反向传播，更新输入，每次得到一张新的图都需要重新训练一次，效率实在太低。称之为style transfer。代表文章：2015年Gatys发表的A Neural Algorithm ofArtistic Style。主要思想：风格转换后的图像应该是取一幅画的style，另...

2018-06-06 17:24:46 1803

原创实例分割之——Instace-sensitive Fully Convolutional Networks

背景：FCN只能做实例分割，试想如果两个挨着在一起的人，只能是一大坨，不能区别到底是几个人。比如，到底是一个胖子还是两个瘦子呢？在FCN基础上面做的改进，利用全卷积实现了Instance-Segmentation。相关工作:1）提出了 instance-sensitive score map 其实就是位置敏感图，将FCN中原来输出的一个feature map，换成了k²（9个），这9个fea...

2018-06-02 22:10:51 742

原创 Tensorflow系列：Batch-Normalization层

Batch-Normalization有三种定义格式，下面分别介绍：1、tf.contrib.layers.batch_normtf.contrib.layers.batch_norm( inputs,#输入 decay=0.999,#衰减系数。合适的衰减系数值接近1.0,特别是含多个9的值：0.999,0.99,0.9。如果训练集表现很好而验证/测试集表现得不好，选择 ...

2018-05-20 16:22:32 1083

原创 Faster Rcnn 源码解析（四）—— proposals_targte_layer.py

功能：根据GTbox和topN proposals选择满足要求的128个proposals（包括fg和bg），然后加上物体类别标签和bbox的回归目标，只有在该类别的对应位置上面才会有位置信息）,并计算权重weights。（这128个proposals是包含了Gtbox的？）输入：bottom[0]: rpn_rois，从proposal_layer提取到的proposalsbotto...

2018-05-16 21:20:37 566

原创 Faster Rcnn 源码解析（三）—— bbox_transform.py

2018-05-16 15:47:06 2909 5

原创 Faster Rcnn 源码解析（二）—— proposals_layers.py

输入：ProposalLayer有三个输入bottom[0]：是每一个anchor是否是前景的概率，大小为：(batch_size,2*A,w,h)，A表示anchor的数量bottom[1]: 每个anchor的坐标偏移量，大小为：(batch_size,4*A,w,h)bottom[2]: 'im_info',图片w,h,scale输出：top[0]:M行5列，M表示proposals的...

2018-05-16 15:35:14 536

原创 Faster Rcnn 源码解析（一）—— anchor_targte_layer.py

rpn_conv/3x3层，3*3卷积卷积层，featuremap为256。每个像素点用256的向量表示。rpn_cls_score层，生成2(bg/fg) * (anchors)的output。rpn_bbox_pred层，生成4 * (anchors)的output。这里的4暗示的是（x-xa）/wa;（y-ya）/ha; log(w/wa); log(h/ha);rpn_cls_sc...

2018-05-16 10:02:57 706

原创 SSD配置和训练以及遇到的坑

SSD配置1、clone作者github下的caffe文件包git clone https://github.com/weiliu89/caffe.gitcd caffegit checkout ssd(出现“分支”则说明copy-check成功...作者caffe目录下有三个分支fcn/master/ssd, 利用git checkout来切换分支，否则只有master目录下的文件，这一步特...

2018-05-12 20:34:35 2916 1

原创 ResNet那些不解之谜

摘要残差网络更容易优化，并且可以从显著增加的深度中获得准确性。在ImageNet数据集上，我们对剩余的网进行评估，其深度为152层，比VGG网41层更深，但仍可以保证有较低的复杂度。解决问题：1）网络深度加深，会产生梯度消失和爆炸。利用规范化的初始化和Batch Normalization解决，使得具有数十层的网络通过随机梯度下降(SGD)方法可以开始收敛。2）会产生网络退化的现象，不是由于过拟...

2018-05-09 13:08:56 1477 4

原创海量数据处理

常用的几种方法：1、分治法/Hash映射 + hash_mapa、将海量数据通过Hash映射为若干的小文件；b、利用hash_map对每个小文件进行统计（key为数据内容，value为出现次数）； 2、Bloom FilterBloom Filter是一种允许有少量错误的数据判重或者集合求交集的方法。具体内容以及公式参考博客Bloom Filter 算法简介 (增加 Counting Bloom ...

2018-05-07 19:16:41 226

qq_23126625的博客