公众号：音频探险记-CSDN博客

原创科大讯飞--新冠肺炎检测赛道第八分享

详情见如下链接http://mp.weixin.qq.com/s?__biz=MzU3NTY0OTA3Nw==&mid=2247484429&idx=1&sn=5a0c8e549f581dc67f34789f3072180c&chksm=fd1ea057ca692941760c256e9b8f65f11439ffcb5cfba4d5093b314c7264cb85...

2021-09-25 00:24:00 175

有关Webrtc后续，可关注公众号：音频探险记概述webrtc可以说是音视频领域的百科全书了，集音视频采集、音频处理、编解码、传输、渲染于一体。之前一直想完整的编译它来着，但因为各种各样的原因没有编译成功，(没有梯子代码下不完整；编译环境搭建不完全)。上次偶尔在知乎上看到了一种下载webrtc代码的方法，故抱着尝试的心态又整了一把，没想到编译成功了。所以写下此文记录一下编译过程。本文主要包括...

2021-06-14 00:10:00 138

原创 Github下载代码--龟速到火箭的转变

3种加速从Github上下载代码的方法。详情见链接 https://t.1yb.co/qxge

2021-05-22 20:17:00 105

原创 sqrt优化方法整理

http://mp.weixin.qq.com/s?__biz=MzU3NTY0OTA3Nw==&mid=100000527&idx=1&sn=197c1f832841a86c09010aa5137ceb68&chksm=7d1ea7554a692e439503d81bae10d57d28954789b516d795c1f4b3156ce55246a4e3f290...

2021-05-15 11:22:00 106

原创 gpuRIR--房间脉冲响应的加速计算

https://mp.weixin.qq.com/s/q8iBh2OO-Qz1wT7J1Uix7A

2021-04-26 23:45:00 223

原创频域特征-Fbank

Fbank是一种前端处理方法，以类似人耳的方式对音频进行处理，可以提高语音识别的性能。fbank的计算流程与语谱图类似，唯一的区别就在于加了个Mel滤波器，从而使得得到的特征更逼近人耳特性。有关于Mel滤波器的相关内容可以查阅https://mp.weixin.qq.com/s/pGwO_27x8ddQF55wTSQlmA。接下来就介绍一下fbank的求取过程。• 预加重因为语音信号的功率谱...

2021-04-15 22:28:00 351

原创 Mel,Bark以及ERB刻度

https://mp.weixin.qq.com/s/pGwO_27x8ddQF55wTSQlmA

2021-04-12 23:24:00 178

原创频域特征-语谱图

https://mp.weixin.qq.com/s/PKBZgFXicNHghb39iyPfow

2021-04-07 23:50:00 75

原创时域特征--线性预测系数(LPC)以及LPCC

欲知更多，请关注公众号：音频探险记LPC线性预测系数的基本思想：由于语音样点之间存在着相关性，那么当前点/未来点可以用过去的p个样本点进行预测，即其中就是要求的LPC，P表示预测阶数。好处：可以得到声道模型及其模型参数的方法，广泛用于语音识别以及语音合成中。import librosaimport python_speech_featuresimport soundfile as ...

2021-04-05 11:45:00 947

原创基音周期估计-pYin

具体内容可参考https://mp.weixin.qq.com/s/h0cqr0_fcE8OQqXutAQS7g

2021-04-04 22:45:00 198

原创基音周期估计-Yin

具体内容可以参考https://mp.weixin.qq.com/s/sxufihY0vXNvYoHOSeJteA

2021-04-04 22:44:00 87

原创 webrtc-agc2算法原理梳理

本文档主要介绍开源框架webrtc中agc2原理，以下部分全是个人所理解的，如有错误之处请指出。agc2算法主要有3个模块，固定增益模块，自适应模块以及限幅模块。其关键函数位于GainController2.cc中的Process(AudioBuffer* audio)...未完待续本文的具体内容可见微信公众号：音频探险记。...

2021-03-14 12:18:00 410

原创 DRC-动态范围控制

DRC，全名Dynamic Range Control，主要用于调整输入语音的动态范围。应用场景可以有如下的几种形式• 类似于AGC的功能，对输入的忽大忽小语音进行动态拉伸，使语音听起来平稳。• 作为小信号滤除器，滤除低于某一阈值的信号。一般用来滤除噪声，避免噪声在后续模块AGC中被放大。本文主要介绍DRC用作小信号滤除器。而动态拉伸忽大忽小语音一般建议在场景相对确定的情况下使用。因为DR...

2021-03-14 10:41:00 469

原创 Python基础回顾--基本数据类型

在这篇文章中，主要是对Python做一个较为细致的回顾。TypePython中比较常用的几种数据类型包括string,integer以及float。一般通过type()去获得一个变量的数据类型x = 2.14type(x) # floatx = 2type(x) # intx = '2'type(x) # str另外一种数据类型是布尔型变量，booleantype(Tru...

2021-02-28 21:47:00 55

原创 webrtc-agc2

本文主要整理了webrtc中agc2模块。目前为止，webrtc提供的agc总共有三个版本，最老的版本在legacy文件夹下，然后就是agc文件下的一个版本，最后一个就是位于agc2文件下的另一版本。相较于之前的版本，agc2引入了RNN做vad估计。当然其它的部分也有所改进，如噪声估计、增益求解。webrtc的agc2模块打算分两次博文介绍，本篇主要介绍编译以及agc2效果测试，下一篇博文主要...

2020-12-06 22:41:00 345

原创 np.random.choice 使用小结

最近在实现某个功能的时候，用到了np.random.choice这个函数。特此记录一下，以免日后忘记。它的功能就是从给定的一个1-D数组中以某种概率随机抽取D个数。函数的定义如下choice(a, size=None, replace=True, p=None)a: 给定的一维数组且必须是一维数组。可以有两种给值，给定一个数组，例如a=[1,2,3,4]给定一个正值，此时就相当于从列...

2020-10-30 23:20:00 96

原创 python中向量扩展

最近在给一个多通道语音加上不同信噪比的单通道噪声的时候，需要将单通道噪声变成多通道，比如\(6*1\)的噪声向量，那么需要变成\(6*4\)的矩阵。也就是将自身堆叠4次构成新的矩阵。然后再去跟多通道语音相加。(因为后面涉及到一些操作，广播的方式不利于后面的处理)。现在介绍两种方法解决该问题使用tileimport numpy as npx = np.array([1, 2, 3, 4])...

2020-10-25 17:00:00 138

原创 webrtcvad模块使用

最近在实现一个功能的时候，用到了webrtc模块的vad部分的python版本，因参考的原博客找不到链接了，为了方便自己以后查阅相关内容，故整理成博客供日后方便。接下来开始正题，当然了，要想使用这个webrtcvad，自然就是安装它了，命令也很简单。pip install webrtcvad关于该包的使用，github上有提供一个example.py，可以参照该example.py文件使用w...

2020-10-25 16:41:00 219

原创 pyroomacoustics--生成房间脉冲响应

pyroomacoustics能够在2D/3D房间中快速构建单/多个声源以及麦克风的模拟场景，借助image方法能够有效生成房间脉冲响应并模拟声源和麦克风之间的传播途径。接下来系列博文将主要介绍pyroomacoustics的使用。今天主要介绍利用pyroomacoustics生成房间脉冲相应(Room Impluse Response, RIR)。在使用pyroomacoustics之前，首...

2020-10-22 22:59:00 646

Wilder_ting的博客