11 shichaog

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 2k+

语音编码之压缩

我的书:购买链接:京东购买链接淘宝购买链接当当购买链接这本书里叙述了SILK和Opus语音编解码器,这里简单的串接编解码的核心知识点。LPCLPC(Linear predictive coding)在音频和语音处理领域常用于表示压缩信号的谱包络,这是最强大的语音分析技术之一,也是低比特率高品质语音编码常用到的方法之一。LPC基于人的发声生物物理机理的发音过程建模模型。由于语音信号是短时平稳信号,基频和共振峰在短时是不变的,通常将一秒钟的数据分割为30~50个块分析各块的L

2020-05-29 21:24:05

WebRTC之视频采集

基于WebRTC的实时音视频会议中对于视频处理流水,第一级就是视频采集,视频内容可以摄像头、屏幕和视频文件,视频来源的操作系统可以是Linux、Windows、Mac,IOS以及Android,不同的平台由不同的公司开发设计,因而他们从camera获取视频的底层框架并不一样,Linux系统使用V4L2(Video for Linux Version 2),Mac和IOS都是苹果公司开发的,都使用AVFoundation框架,Windows使用的是微软开发的DS(Direct Show)框架,Android使

2020-05-17 23:23:41

深度学习 回声消除 AEC

我的书:购买链接:京东购买链接淘宝购买链接当当购买链接本篇阐述核心思想和初级的demo,在《实时语音处理实践指南》一书中介绍过rnnoise降噪,并且笔者github上也附带了该git库;承接书中“实时”性要求,基于深度学习的AEC必须满足两个要求,一个是计算量要少,一个是处理的窗长要短,故而这里选择了10ms(16kHz采样率信号,160个点);由于AEC存在Near和Far端两个信号,如果按照频点计算,那么计算量将是单通道的两倍,所以这里按照频带计算,以便输入网络的参数能少些

2020-05-10 09:42:38

深度学习语音增强

深度学习语音增强我的书:购买链接:京东购买链接淘宝购买链接当当购买链接在我的这本书里,详述了基于信号处理的语音降噪(NS)和回声消除(AEC)算法,并对基于监督深度学习降噪介绍了例子;这里对深度学习方法做个补充总结。传统信号处理方法是经过全人类数百年经验积累而得到的,源于大千世界,因而模型的普适性较强,而监督深度学习依赖监督对象(训练集),由于训练集始终只能是大千世...

2020-05-02 15:44:02

WebRTC 架构

WebRTC Native框架我的书:购买链接:京东购买链接淘宝购买链接当当购买链接WebRTC还是比较庞大的,咋一看无从下手,本篇以WebRTC自带的例子,阐述WebRTC Native核心的音频、视频和信令三个部分,WebRTC本身架构是P2P的,信令的部分也是围绕P2P展开的,好了,废话不多,直接上正文了。WebRTC是Google开源的Web实时音视频通信框...

2020-04-30 17:04:12

语音增强技术

在人机交互的场景中,麦克风采集到的人声不可避免的混杂外界噪声,可以通过信号处理的方法在处理前将其去除,以获得“纯净”的语音信号。这一过程称为降噪或者语音增强;从麦克风数量上分为单麦克降噪,多麦克降噪,算法层次上,主要分为滤波法(时域,频域,空域),谱分辨法,基于模型的方法。 噪声将改变采集到的人声特性,噪声/干扰分为四类:加性噪声,人声间互相干扰,混响,回声。这些噪声在信号处理领域分别被称为:降噪

2017-07-23 11:42:22

高效率代码技巧

CSND已永久停更,最新版唯一来源点击下面链接跳转:语音增强和识别网页书1.对齐memory,高效利用cache line,尽可能减少取数次数/* |alignment| is the byte alignment and MUST be a power of two. */```struct AlignedPtr* AllocAlignedPointer(int ...

2018-07-05 14:03:02

数学计算库

CSND已永久停更,最新版唯一来源点击下面链接跳转:语音增强和语音识别网页书写算法的实现,离不开各种矩阵以及线性代数的运算,包括矩阵求逆,矩阵分解,SVD以及特征值,特征向量等;尤其是复高斯模型或者在频域里做处理时用到复数矩阵相关运算;APP公司官网的加速链接中就有BLAS相关的API。这里gsl是开源的计算库,该库的最新文档链接如下:https://www.gnu.org/sof...

2018-06-21 16:27:56

tensorflow 模型文件

CSND已永久停更,最新版唯一来源点击下面链接跳转:语音增强和识别网页书tensorflow生成的模型文件主要有三个:```.meta, .index和.data```分成三个文件的原因是tensorflow将计算图结构和变量值存储在不同的文件里。.meta文件描述的是计算图结构。freeze_graph.py脚本从一个GraphDef(.pb或者.pbtxt)文件和c...

2018-06-19 17:59:47

makefile 编译第三方库

CSND已永久停更,最新版唯一来源点击下面链接跳转:语音增强和识别网页书以前在编写跨平台编译框架时,要引用第三方库,这里的例子实现了下载和编译第三方库,正适合用~!```FFTW = fftw-3.3.4all: .deps fftw decode ops utils.deps: sudo apt-get install libsamplerate-dev -y...

2018-05-28 10:15:34

关于AEC算法的几点思考

CSND已永久停更,最新版唯一来源点击下面链接跳转:一年前我剖析过开源的AEC算法,文章链接是语音增强和语音识别网页书;时隔这么长时间,再过来看这个算法,略有体会,以下有几点个人思考:AEC算法的主要目的是自身音源消除,对于手机或者pc这类的通话场景,这类场景和音响场景稍有差异,两者遇到的主要问题会有些差异;对于视频通话这类场景,两个通信终端的时钟偏斜和漂移是不定的,而音箱场景这个是可...

2018-05-16 23:40:51

唤醒词识别

CSND已永久停更,最新版唯一来源点击下面链接跳转:语音增强和语音识别网页书有如下几个原因使得唤醒词识别具有难度1.低功耗;2.低成本;占用的运算资源少,包括cpu以及memory资源;3.连续语音识别;4.场景较为复杂;噪音(办公,居家,电视,自然,电器),远场(增强,波束),方言,口音(儿童,男、女)等5.训练的语料集合本文就唤醒词的理解和Am...

2018-05-14 21:41:55

音频应用处理器性能benchmark

CSND已永久停更,最新版唯一来源点击下面链接跳转:语音增强和语音识别网页书处理器类别1.Analog Devices(SHARC, Blackfin, SigmaDSP)2.TI(c55, c67x,c66x)3.ARMcortex-M4/M7; cortex-A8/A9/A15/A53/etc4.Intel x86/x645.软IP语音增强和语音识别Tens...

2018-05-10 14:43:02

舒适噪声生成算法及其实现

CSND已永久停更,最新版唯一来源点击下面链接跳转:语音增强和语音识别网页书舒适生成算法CNG(comfort noise generation) 舒适噪声应用在实时语音通信(VoIP,电话等)场景中,主要解决两个问题,第一个是减小传输数据量,进而减小传输带宽的要求,这是因为50%的时间是没有语音的,第二个是让人感觉语音通信是持续连接的。随机数生成舒适噪声的生成算法中用到了随...

2018-05-05 22:48:59

Kaldi HMM拓扑和状态转换模型

HMM拓扑使用c++的HmmTopology来描述音素的HMM拓扑。其描述的一个实例(3-state Bakis模型)如下:Topology> TopologyEntry> ForPhones> 1 2 3 4 5 6 7 8 ForPhones> State> 0 PdfClass> 0 Transition> 0 0.5

2017-11-10 09:20:48

Kaldi知识点汇集

特征提取MFCCcompute-mfcc-feats.ccCreate MFCC feature files.Usage: compute-mfcc-feats [options...] <wav-rspecifier> <feats-wspecifier>其中参数rspecifier用于读取.wav文件,wspecifier用于写入得到的MFCC特征。典型应用中,特征将被写入到一个大的”arc

2017-11-05 11:21:45

Kaldi声学模型训练

支持标准的基于ML训练的模型 线性变换,如LDA,HLDA,MLLT/STC基于fMLLR,MLLR的说话人自适应支持混合系统支持SGMMs 基于fMLLR的说话人识别模型代码,可以容易的修改扩展声学模型训练过程1.获得语料集的音频集和对应的文字集可以提供更精确的对齐,发音(句子)级别的起止时间,但这不是必须的。2.将获得的文字集格式化kaldi需要各种格式类型的,训练过程中将会用到每

2017-11-04 14:08:55

EM算法

前一篇文章提到了基于统计模型的VAD决策方法,在看《WebRTC之VAD算法,http://blog.csdn.net/shichaog/article/details/52399354》时,其计算概率使用的高斯参数是给定的,那么问题来了; 1.webrtc中给定的参数是如何得到的? 2.这些参数能否适用你想要使用的场景? 3.这些场景和你的场景匹配度如何? 4.如何根据你手中数据提升web

2017-11-01 18:52:09

VAD综述

VAD广泛应用于语音编码(网络/无线/有线传输),说话认识和语音识别(ASR,基于机器学习的方法,也是经过VAD标注后的语音数据用于训练的,准确标注真实场景的带噪语音比较重要)。VAD的准确对前端算法也是比较关键的,这里所说的是语音/非语音(非语音/静音)检测,一个VAD系统通常包括两个部分,特征提取和语音/非语音判决;常用的特征提取可以分为五类:基于能量频域倒谱谐波 长时信息 基于能量

2017-10-17 09:51:53

语音识别-信号处理篇

连接前端和后端的语音识别(ASR)的关键是给到后端(根据特征判定词/句)系统的特征类型和特征质量,对于传统的语音识别系统常采用MFCC(mel-frequency ceptral coefficients),这个特征对于高斯白噪声和混响具有鲁棒性,对于有色和相干干扰,常采用一阶和二阶微分减小其对MFCC系数的影响,该方法计算量相对较小;对于深度学习,通常采用Fbank做为特征而非MFCC,MFCC做

2017-10-08 09:21:11

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。