自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 语音分离speech separation数据准备,开源

Speech separation 现在大热的一个方向,西雅图的腾讯一直在作者方面的研究,chime6上俞老师讲了一个多小时的他们的工作就能证明该方向有多火, 当前有很多深度学习的方法如deep-clustering, PIT, utterance-PIT, conv-tasnet, dual-rnn, 效果都不错,时频单元到时域单元。但会发现很多论文或者网上有的开源的代码都需要WSJ0数据来做, 这个数据集是要钱的,很贵,所以我自己做了一个separation数据准备的脚本,并且开源.

2020-06-22 16:31:57 6036 48

原创 谱减去混响方法----附上matlab 代码 (已更新,贴上了代码和论文, 新增split_frame和overlapadd代码)

鉴于有人要求stft和istft代码,我就把它贴出来,之前不贴出来是因为很多人stft和istft是不一样的,而且实时跟离线算法的stft跟istft在实现上也是有点不同的,你可以用自己的,也可以用我的,但思路和结果都是一样的.还有一个朋友直接要求发代码去您个人邮箱,您可真是牛逼,代码都已经贴出来了,可以直接复制粘贴,整理一下,这几分钟的事情,你都懒得做,那我觉得也没什么好说的,毕竟我只是想记...

2019-09-25 10:43:38 4271 9

原创 说话人识别/声纹识别学习路径的资料整理,从零学声纹识别

昨天帮新同事讲解了一波说话人识别的理论,并且帮他整理了资料让他学习,这个博客就是把最具有代表性的资料记录下来,前提,我假设你知道啥是MFCC,啥是VAD,啥是CMVN了.说话人识别学习路径无非就是 GMM-UBM -> JFA -> Ivector-PLDA -> DNN embeddings -> E2E首先 GMM-UBM, 最经典代表作: Speaker...

2018-09-12 12:09:57 10185 25

原创 换工作咯,准备开源能开源的项目

跳槽咯,去做音频工程相关,觉得自己工程太弱了,的确需要去好好磨一下自己的代码。 在新公司以后没啥机会再做算法了,可能做2年看看后面是不是再做算法。准备把之前自己实现的能开源的代码都开源出来,包括1. conferencingspeech2021我们拿到第三名的模型代码2. aec的所有线性滤波自己复现的代码(matlab)3. 深度学习ai-aec的所有代码,模型就用conferencingspeech的模型好了4. chime6我们第六名的前端数据增强和推理阶段分离代码等。

2021-12-22 17:56:40 454

原创 信号的卷积和互相关matlab代码实现

最近要做一些传统算法的操作,复习一下信号的基础自己实现了一下信号基础的两个操作:卷积和互相关这两个操作可谓是遍布了所有传统音频信号处理算法的基础.去混响啊,波束形成啊,回声消除啊到处见.所以一定要自己实现一遍加深了解网上对于这两个概念的数学解释和物理解释很多,大家可以去了解一下,我就只给大家提供代码参考代码具体参考 matlab信号卷积和互相关简单总结一下卷积:两个信号,一个信号先翻转再做"CNN"的卷积操作, 即移位乘积和相关:类似"CNN"的卷积操作,直接移位乘积和我

2021-09-03 11:45:20 1338

原创 tensorflow在不同gpu上在加载libcuda,libcufft等库慢

最近在做一些工程部署工作,遇到写坑,写些解决办法记录一下:C由于CUDA的JIT Compile(即时编译)机制,是为了应对未来没发布的gpu硬件时也能顺滑的让程序在新的gpu上优化.

2021-09-03 11:07:59 523

原创 深度学习aec数据前处理脚本,基于timit和汪德亮老师的paper

该脚本基于Deep Learning for Acoustic Echo Cancellation in Noisy and Double-TalkScenarios中汪德亮老师学生中对timit的处理会生成几个数据集1. 远端语音信号2. 进场语音信号3. 回声4. 近端麦克风接受信号具体的repo连接: dnn_aec_data_process这个脚本需要整理一下,但具体功能是实现完了, 有一些点比如说加噪的时候的归一化和线性放大放小这个可能需要做个实验看看有没有

2021-06-30 20:59:16 626 10

原创 RNNOISE 16K音频训练方式

鉴于很多同学都在问RNNoise如何把48k的原始代码改成能训练16k音频的,我就把我做的rnnoise 16k的一些小改动开源出来, 一起探讨研究。先mark, 后面详细来介绍如何改,代码已经放上了githubRNNoise_16k 训练代码https://github.com/YongyuG/rnnoise_16k有问题请提出来,1年多前的东西,很多代码都没整理...

2020-04-20 19:36:52 3965 48

原创 第一次参加 CHiME-6 challenge 总结

第一次参加chime的自然场景多人对话远场语音识别评测主要负责数据增强和音频信号处理冲着高分去的,但由于symbol 出了最终结果并没有达到预期,有几点记录一下:1. GSS alignment在pb_chime5 需要改一下数据处理的不稳已经标注部分,但是chime-7大概率换了批数据,所以这个算法以后大概率不会在用到了,毕竟比现在的pit,danet等算法更不实用,出来的...

2020-04-15 10:34:07 3263 11

原创 RNNoise要注意的部分(草稿记录)

rnnoise会有一个pitch_filter这是由于因为它们在生成特征时不是用频域上所有频点,而是采取bark's scale的切分频段来对不同频率的频段进行特征处理这样的话频域上的分辨率会降低,然后导致最后在进行降噪后生成的语音会有一个现象就是oversmoothing,即你会辨别不清共振峰.尽管bark's scale 在低频部分的频段分得很细,但是他把好几个频率都归为一个频带,...

2019-06-27 17:10:22 3621 35

原创 新的征程以及AISHELL x-vector跑分

从原来的公司跳槽去上海的一家新公司,不做声纹识别,要准备做语音识别了,新的开始,加油!在跳槽前用aishell数据重新训练了一个x-vector, 能达到0.8%的EER,相较于我自己测试的i-vector的5%有80%多的提高。下次把一些数据处理脚本开源。=================================================================...

2018-12-17 15:46:47 1351 15

原创 Kaldi sre10, sre16 数据格式

做个记录, 给大多数跑脚本但是又没有官方数据的朋友一起交流讨论:引用自己在知乎的回答:跑kaldi的脚本到最后都是得用自己的数据去训练去测试的, kaldi只需要三个文件utt2spk, spk2utt和wav.scp.具体的你其实可以看看他们做数据的perl脚本,我个人是用python写一个脚本把数据集变成kaldi可读的格式的, 我代码弱智水平都能做,相信大牛的你们也没问题的....

2018-11-07 12:34:51 3974 15

原创 Kaldi各种已经训练好的模型

做个记录http://kaldi-asr.org/models.html这网站是Kaldi中各种语音任务pretrained过的模型有视源ASR的, xvector做声纹识别的, emebedding做diarization的, 大部分是用LDC的死贵死贵的语料训练的直接把这些模型拿去解码或者拿去用都可以得出一个很不错的效果,我们在x-vector参加的NIST评测和自己实验的...

2018-10-15 12:29:05 9681 9

原创 GPLDA的LN和各种GPLDA很皮的玩法(有疑问请提出)

gplda也就是我们常说的plda,即假设设本征音和本征信道满足高斯分布而得名.ht-plda:重尾分布的PLDA, 重尾分布是指少量个体作出大量贡献,占大量的资源,假设的是student t 分布在一些论文中可以看到,ivector在HT-PLDA上的表现比GPLDA好,并且HT-PLDA的假设是说话人因子和抖动空间是符合student t 分布,这样就说明ivector中有很多非高...

2018-08-21 15:29:26 690

原创 PLDA的原理和em训练(为了be user friendly开始用latex写公式)

最近一直在学习和操作PLDA,感觉这个算法太有才了,对身份验证如人脸识别,声纹识别,OCR都有用. 先对自己的工作和面试别人以及被面试有一份感悟:1.数学太重要了,有些人看论文难啃的原因就是公式看不懂,公式看不懂就是数学不好,后面要慢慢补起来2.感觉工程能力太重要,不管是在工作中还是面试,算法最终能否实现还是要看你的手上的活.这是我的弱项,慢慢补3.很多面试官不管候选人简历,直...

2018-08-21 14:28:41 7485 1

原创 Kaldi中 声纹识别的流程图

总结了一波Kaldi中声纹识别的流程和所用的可执行文件,.把可执行文件当作一个库来用,自己来仿照这sre08,sre10,或者aishell的run.sh用自己的数据来完成自己的声纹识别系统就好.自己还在研究,但是说几个我认为比较关键的地方:1.gmm-gselect : 对每帧选择能取得最高likelihood的前n个分量, 其他的分量忽略. 返回的是这些分量的索引,后面计算的时候对于每帧只用这...

2018-05-15 12:30:45 9928 9

原创 Boosting中Adaboost的通俗理解

今天知乎上被私信说我对Adaboost的通俗解释很好理解,那我就把当初的答案贴下来,做个记录吧,该理解没有任何数学公式要看数学公式的推荐每个做统计算法和机器学习的人都会看的: 李航统计学习方法的Adaboost那一章节,完整,易懂!我对Boosting和Adaboost的理解是:boosting的原理就是三个臭皮匠,赛过诸葛亮一样。把很多分类准确率很低的分类器通过更新对数据的权重,集成起来形成一个...

2018-05-08 10:08:27 669

原创 MFCC一些知识与Kaldi中的MFCC特征解读

因为想用Kaldi去实现一个GMM-UBM的说话人识别和loglike打分,所以想把Kaldi计算的统计量对一对,看能不能把二进制文件里的数值单独拿出来,自己写个代码做结合Kaldi中的MAP做统计量计算,然后再放回去。 但是当把训练好的UBM打开看看,发现他的矩阵不是人们常说的MFCC生成的特征向量是39维而是60维,所以特意返回去再把MFCC和信号处理给梳理一遍。并且把ka...

2018-04-20 16:36:38 12193 18

原创 说话人识别开集open-set和闭集close-set的区别

先引用知乎上 @LEON晋 大神解释的说话人识别对说话人准确率判断的两个评分标准:在一批本该全部正确(TRUE)的列表中出现几个没识别出正确的语音,这个就是错误拒识FR(False Rejection),是Miss的;在一批本该全部错误(Flase)的列表中出现了几个没识别出错误的语音,就是错误的语音被认为对了,FA(False Acceptance),是Flase Alarm的。然后各自占的比例...

2018-04-12 20:13:27 7502

原创 Kaldi 对说话人识别GMM-UBM的MAP 参数更新和对数似然概率解读

写博客=写日记,为自己记录工作进度和理论知识,如果有恰好路过的大牛经过,可以驻足看看我的理解本人刚接触说话人识别不到一个月,因工作需求研究了kaldi。大致弄懂了GMM-UBM,正在研究Ivector的理论和实践.虽然个人更喜欢数据分析,数据挖掘和传统的机器学习。但能学到不同领域的AI知识拓宽知识广度也是自我成长。若有会跳街舞的(小弟曾经英国某城市冠军),能喝酒的,蹦迪的,喜欢python多过C+...

2018-04-12 19:16:33 3602 5

原创 WAV文件数据解析(4.10更新一点小代码)

作为一个初级的算法和声纹的工程师,写个blog记录一下自己近期所接触的知识点,作为日后参考和复习用首先都是文本,后期有空再加图片和改格式,很多内容都是通过被人的blog参考和整理得来。日后慢慢的更新声纹识别SRE的算法以及机器学习的算法和数据分析的实践更新:最近项目测了个模型,刚好在读取文件中尝试写了一下关于读取WAV文件里面纯音频的C++代码,很少的行数,但是逻辑应该蛮清楚的。wav文件的解析只...

2018-03-30 15:50:22 5124 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除