pitaojun-CSDN博客

翻译同传指标说明 SIMULEVAL : An Evaluation Toolkit for Simultaneous Translation

论文链接: link同传的评价指标(1) AP average proportiondelay of yiy_iyiX=[X1,X2...Xn]X=[X_1, X_2...X_n]X=[X1,X2...Xn] 输入Y=[Y1,Y2...Yn]Y=[Y_1,Y_2...Y_n]Y=[Y1,Y2...Yn] 输出Y∗Y^*Y∗表示reference target缺点：受输入输出长度大小影响。取值范围为【0，1】，但是在此区间分布并不均匀。*(2) AL average

2021-04-30 13:33:58 200

翻译 SimulSpeech: End-to-End Simultaneous Speech to Text Translation

1. Abstract2. Model Structureprenet : 多层卷积提特征下采样。Transformer；speech segmenter : encoder 输出过多层非线性层，预测character 输出，当预测到space 时证明一个word 结束，多个这种boundary token 合并为一个。segmenter : 优化ctc lossattention level distillation3. Discussion端到端比级联在低延迟的表现更好。

2021-04-03 14:34:01 210

翻译 ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020

ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 20201.方法总结（1）模型方法text-to-text subtask: transformer + wait-k modelsOffline sppech translation Trackspeech features 80维 mel filterbank + 3 维 pitch features数

2021-01-18 20:11:13 197

翻译 On Knowledge Distillation for Direct Speech Translation

On Knowledge Distillation for Direct Speech Translation1. 论文摘要语音翻译任务同行利用knowledge transfer 从子任务：asr和Mt 任务来辅助，本文提出了利用knowledge distillation 来提升语音翻译任务的效果，同时分析了这种方法的缺点以及如何提升翻译质量。2.ST与级联的优点缺点对比优点：（1）在翻译时可以获得语音的信息，而级联只能得到撰写的文本。（2）防止了error propagation（3）

2021-01-16 18:21:43 121

翻译 Joint CTC/attention decoding for end-to-end speech recognition

Joint CTC/attention decoding for end-to-end speech recognition1. 论文摘要端到端asr 的两种主流形式：（1）基于识别结果和声学特征之间atttention 方式；（2）基于ctc，通过马尔科夫假设利用动态规划来求解序列问题。*思路：传统基于attention的对齐方式自由度太高，asr任务大多数都是按照序列渐进对齐，因此考虑采用ctc-based 的对齐方式来指导解码。2. 模型架构优化目标LMTL=λlogPctc(C∣X)

2020-12-23 19:20:59 1192

翻译 Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict

Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict1. 论文摘要非自回归模型的优势在于可以在一定次数的迭代后同时产生解码结果，提高了解码的效率更适用于真实场景的使用。本文主要采用了一个基于Transformer的ED 模型与mask 预测以及ctc 训练结合的模型结构。在解码时，目标序列首先通过ctrc 的概率分布得到一个初步结果，对置信度较低的结果mask, 然后基于与高置信度token之间的依赖关系进一步预测出

2020-12-15 21:04:11 1032

翻译 Conformer: Convolution-augmented Transformer for Speech Recognition

1.论文摘要Transformer 为基础的模型擅长捕捉content-based gloabl interactions；卷积更适合捕捉局部的local features. 本文将两者的优势结合起来，并且使用的参数更少，在Lbrispeech 上达到了SOTA with 2.1/4.3% 的wer.2. 模型结构Multi-Headed Self-Attention ModuleConvolution ModuleFeed Forward Module两个线性层中间加一个非线性激活

2020-12-14 16:41:48 1633

翻译 MASKED PRE-TRAINED ENCODER BASE ON JOINT CTC-TRANSFORMER

1. 论文摘要提出了一个包含两阶段训练：masked pretrained encoder(MPE) 和 Joint CTC-Transformer(JCT) 的半监督声学模型，效果：使用30%WSJ监督数据训练的结果相对于使用50%有监督数据WER 降低17%。增加无监督数据量到960小时，WER 降低22%。2. 模型介绍（1）不直接mask 音频数据，而是在网络里做mask.（2）采用过去frames 和未来frames 来预测当前被masked frame, 因此重构的frame 包含上

2020-12-09 14:39:21 209

翻译 MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

1.论文摘要（1）基于问题不可知语音编码器（problem agnostic speech encoder）的改进：在一个卷积encoder 后进阶这多个神经网络worker, 解决自监督问题。（2）采用了实时语音的distortion 变换，包括加噪和回响。出发点：首先语音信号比较复杂，1）语音信号需要一个复杂的层级结构来表示不同时间刻度下的相关信息：samples → phonemes → syllables → words → sentences → semantic contents。2)

2020-12-09 14:37:37 239

原创 Pytorch常用代码

常用代码1.张量拼接‘’’注意torch.cat和torch.stack的区别在于torch.cat沿着给定的维度拼接，而torch.stack会新增一维。例如当参数是3个10x5的张量，torch.cat的结果是30x5的张量，而torch.stack的结果是3x10x5的张量。‘’’tensor = torch.cat(list_of_tensors, dim=0)tensor = torch.stack(list_of_tensors, dim=0)2.one-hot 向量pyto

2020-12-09 14:35:25 544

原创 self-train 系列文章

Improved Noisy Student Training for Automatic Speech Recognition1.摘要采用迭代self-training 的训练方式，对每轮迭代的student 数据做加噪/数据增强，同时采用过滤低置信数据/平衡数据分布等方法得到了最好结果。2.具体措施数据增强：SpecAugment浅融合语言模型normalized filtering score 应用于teacher 网络产生的标记数据，采用...

2020-12-09 14:25:04 622

翻译 Self-training and Pre-training are Complementary for Speech Recognition

#Self-trainingandPre-trainingareComplementary forSpeechRecognition## 论文思路：将self-train和预训练结合起来有互补的作用，并在有限的标注数据上（10min)取得了超过了960有监督数据的训练的最好结果。## 1. self-training approch现在一个有限的数据集上训练一个初始模型，然后用这个初始模型和语言模型去对未标注数据打标签。然后假标签数据和以前有标签的数据一起训练一个新模型。...

2020-11-05 20:16:00 302

原创 An Unsupervised Autoregressive Model for Speech Representation Learning

1. 论文摘要出发点是为下游任务保留尽可能多的信息，希望学到使用线性分类器就能在下游任务中表现较好的特征，并且可以在多个不同任务中有较好的表现。不需要音素级别或者字级别的边界标签。在模型的下面层的特征表示主要捕捉说话人识别信息，较上层的特征提供更多的音素信息。文献综述部分观点：（1）低contrstive loss 与低的线性分类器error 相关。2. 模型介绍通过一个自回归模型去预测未来时间步的帧级别的输出，对预测值与实际值之间做L1 loss.模型是采用多层单向的LSTM网络，网络层与层

2020-10-20 19:06:46 387

翻译 Supervised Contrastive Learning

1. 论文摘要作者提出了一种新的监督训练的loss, 这种loss 是基于contrast loss的优化目标，不同的是每个锚点取多个正例，目的是使相同label 的normalized embedding 尽可能接近，不同label的尽可能远。最终结果证明，新的loss要比cross entropy训练更加稳定，并且在分类任务的结果要好1.6%, 在ImageNet 数据集上达到了78.8%的 top 1 准确率。2. 方法介绍(a)代表传统的交叉熵loss 主要是在最后一层通过softmax

2020-10-03 15:53:10 4711

翻译 Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher

1.Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher1. 论文思路提出了contrastive loss 的两种性质：（1）alignment 用来衡量正例对样本间的近似程度。（2）uniformity 衡量规整后的特征在unit 超球体上的分布的均匀性。并提出了衡量两种性质的评价指标，并且优化这两个指标的训练学到的特征在下游任务上表现更好。2.

2020-09-30 10:09:41 3074

翻译 Data Augmenting Contrastive Learning of Speech Representations in the Time Domain

Data Augmenting Contrastive Learning of Speech Representations in the Time Domain1. 论文摘要依据过去语音片段预测未来片段的CPC方法被证明是一种有效的表征学习方法，本文作者在CPC算法模型的基础上，通过对过去语音片段在时间域上的数据增强（WavAugment) 取得了比其他方法更高效、更好的表征效果。通过patch modification, additive noise, reverberation 三种增强方法可以

2020-09-26 16:52:42 283

翻译 UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES

UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES1. 论文思路：作者基于CPC的自监督预训练方法提出了改进版本，解决了原CPC配置中encoder通过batch normalization 泄露信息的问题，并用一层Transformer layer 提升了phoneme 的表征能力。最终得出的主要结论是：通过改进版cpc学习到的表征可以跨语音使用，并能够取得甚至超过有监督预训练的效果。2. 模型改进CPC将输入T时间长度的音频序列过

2020-09-25 19:49:50 189

原创 Sequence-to-Sequence Speech Recognition with Time-Depth Separable Convolutions

1.论文摘要提出了一种time-depth separable 的卷积网络结构，作为ED模型的encoder,在显著减少了参数量的同时增加了计算速度，并且可以维持较大的感受野范围，在noisy LibriSpeech test set 取得了WER 22%的提升。2.模型结构encoderTDS 的卷积结构，采用了一个2d卷积，这里输入维度为（batch_size, 1, time_step, num_mel), 采用k,1 的kernel size，输出为 (batch_size, c, t

2020-09-20 20:17:08 338 1

原创 A COMPARISON OF TRANSFORMER AND LSTM ENCODERDECODERMODELSFORASR

A COMPARISON OF TRANSFORMER AND LSTM ENCODER DECODER MODELS FOR ASR1.论文摘要在解决asr任务常用的端到端的模型中对比了Trasnformer 和 Lstm 两种模型结构的效果，并得出了一些有用的结论：（1）Transformer 相比LSTM来说训练更加稳定但容易过拟合。（2）采用两层lstm结构作为Transformer encoder中的位置编码的效果更好。（3）在训练两个模型的过程中需要采用一些预训练和其他策略调整的tri

2020-09-17 23:28:57 479 1

原创 Transformer-Based Acoustic Modeling for Hybrid Speech Recognition

Transformer-Based Acoustic Modeling for Hybrid Speech Recognition1.论文摘要对transformer based 的混合语音识别模型在不同位置编码方法、iterated loss条件下模型的最优配置、有限上下文条件下流式应用进行了讨论。在结合4-ngram 语言模型rescore，获得了19%-26%的效果提升。2. 背景介绍hybrid architecture将输入序列x1,…,xt经过声学encoder 编码为高级的向量

2020-09-14 09:37:08 455 1

原创 Self-Supervised Learning of Pretext-Invariant Representation

Self-Supervised Learning of Pretext-Invariant Representation1.论文摘要提出了一种不根据不同pretext task 中的图像变换而改变的语义表征自监督学习方法（Pretext Invariant Representation Learning-PIRL).通过该方法学到的图像表征具有invariance 特性，且语义质量更高，并超过了许多有监督学习预训练任务的表现。2.论文方法其他论文的思路是将原始图片经过变换后，预测图像变换的一些性质

2020-09-14 09:34:01 1305

原创 Improved Baselines with Momentum Contrastive Learning

Improved Baselines with Momentum Contrastive Learning1. 论文摘要SimCLR 的两点有效改进是：在encoder 编码特征计算loss 前加入了 MLP 的projection head 以及多种数据增强手段。将这两点改进应用到Moco 框架又可以解决SimCLR 本身需要大 batch size,比较依赖硬件内存的问题。2. 方法介绍Contrastive learning继续采用正负pair 判别的代理任务，query 和 key 来

2020-09-06 16:08:08 1304

原创 Momentum Contrast for Unsupervised Visual Representation Learning

Momentum Contrast for Unsupervised Visual Representation Learning1.论文摘要将contrastive learning 的过程转换为查字典的方式，通过队列和移动平均的encoder 的方式来构建字典，以此构建的字典具有容量大(学习到更高维的视觉特征）、一致性（使得key通过encoder 提取的特征保持一致性)、即时性的特点。以此作为特征提取在下游任务的表现上超过了很多有监督预训练模型的结果。2.方法介绍查字典方式的contra

2020-09-06 13:46:57 294

原创 Effectiveness of self-supervised pre-training for speech recognition

Effectiveness of self-supervised pre-training for speech recognition1.论文摘要使用原始语音波形数据vq量化后得到词典，不接具体的下游任务，用ctcloss直接在预训练的bert模型上fine tune 转写的语音任务。在bert上finetune 10小时的labeled Librispeec 数据就已经和现有最好的模型在100小时训练数据的结果相当，并在test-other 数据上减少了25%的wer....

2020-09-03 15:45:59 423

原创 TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION

TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION1.论文摘要（1）使用VGGNet 的因果卷积结合位置信息来对输入进行下采样来保证推理的效率。（2）使用截断自注意力机制来保证transormer的流式处理从而减少计算复杂度。取得了在LibriSPeech test-clean 6.37%的字错率，在test other上15.3%，计算复杂度为O(T)， T为输入序列长度。2.模型结构使用因果卷积的上

2020-08-30 21:56:26 879

原创 A Simple Framework for Contrastive Learning of Visual Representations

A Simple Framework for Contrastive Learning of Visual Representations1. 论文摘要提出了一个针对图像表征的基于contrastive learning 的简单框架。主要结论：（1）数据增强的组成对定义有效的预测任务十分重要。（2）通过在表征与contrastive loss 之间引入一个非线性变换对于学习的表征质量有很大提高。（3）增大 batch size 和训练步数对于contrastive learning 来说更有益处

2020-08-30 13:49:50 4823 1

原创 Transformers with convolutional context for ASR

Transformers with convolutional context for ASR(1)论文思路将原来sinusoidal 的位置编码用卷积学到的输入表征所代替，相对于原来的绝对位置表征，这种相对位置的编码效果更有利于后面的transformer 去发现长距离的依赖关系。具体效果：在LIbrispeech 无LM模型条件下WER达到4.7%（clean)和12.9%(other).(2）模型结构左边的结构为transformer 一个layer的组成：右边的结构为加入context后

2020-08-23 23:34:07 440

原创 wav2vec2.0: A Framework for Self-Supervised Learning of Speech Representations

1.wav2vec2.0: A Framework for Self-Supervised Learning of Speech Representations(1) 论文思路基于vq2vec的思路，通过mask 在latent space 上的语音输入，训练一个contrastive task将真正的量化的latent变量表示与其他负例分辨出来（同时训练了量化过程的latent representation), 由此得到的representation，基于少量的有标签数据fine-tuning就取得

2020-08-23 23:27:22 8883 2

pitaojun的博客